• 特集
  • 番組
  • トピックス
  • 学び
プレミアムを無料で体験

AI insideが2259万トークン処理に成功、日本語LLM「PolySphere-1」開発で

EnterpriseZine
79
Picks
このまま本文を読む
本文を読む

コメント


選択しているユーザー

  • TransormersのAttentionは入力シーケンスの明示的なPositional Encodingを持つので任意のコンテキストサイズLを用い[0, L]までを入力できる. つまりいくらでも入力サイズは増やせるのだがトレーニング時の最大ウィンドウサイズを超えるとAttentionスコア関数は壊滅的な振る舞いをしPerplexity(当惑度)が桁違いに増大するので何も学習していないのと同様な結果を出力する. これは「外挿問題」と呼ばれる.
    一言で言えばいくらでも長くできるが結果は壊滅的になる.

    私の知る限り2023/6/28時点でオープンソースTransformersアーキテクチャのコンテキストウィンドウ拡張の最先端はPositional Interpolationで位置エンコードを線型写像し外挿問題を緩和したMetaの8192
    ”Extending Context Window of Large Language Models via Positional Interpolation”
    か,

    Transformersでないアーキテクチャならコンテキスト長Lに対しTransformersのAttentionの2次の増大に対し対数時間O(L log2 L)を実現したHyena演算子でDNAヌクレオチドを100万トークンのコンテクスト長で事前学習したHyenaDNA.
    HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide Resolution

    なので2千万の入力長で性能を維持しているとすれば明らかに世界最先端であり, ヒトゲノム10万塩基も容易にコンテキストサイズに入るためチューリング賞級の成果ということになる.

    最新のAI分野についての専門的な情報は私のTwitter
    https://twitter.com/K00TSUKA
    フォローご自由に.


注目のコメント

  • badge
    三菱総合研究所 執行役員兼研究理事 生成AIラボセンター長

    2千万トークンはスゴいですね。10万トークンあれば業務マニュアル1冊入るとして200冊分、全社のマニュアルが読み込めます。

    LLMは言語処理のみ使い、ハルシネーションを防ぐためにプロンプトに全部入れるような使い方でしょうか。


  • badge
    株式会社LayerX ML Team Manager

    推論速度を考慮した使い道の検討が必要そうですが、大きな一歩ですね。また、記事の内容的におそらくあまりレスポンスの性能が良いと言うわけではなさそうですので今後に期待です!


  • badge
    東京藝術大学大学院修士2年/Senjin Holdings 代表取締役

    2259万トークン!本まるまる読み込ませるどころの騒ぎではなく、たとえば特定の著者の作品を全て読み込ませ、同規模の小説を書かせるみたいなこともできるのかもしれません。ここまでの量の文章を処理できるとなればいわゆる情緒的な側面の強い文学などにもより直接的な活用法が開発されるかもしれません。


アプリをダウンロード

NewsPicks について

SNSアカウント


関連サービス


法人・団体向けサービス


その他


© Uzabase, Inc

マイニュースに代わり
フォローを今後利用しますか