AI insideが2259万トークン処理に成功、日本語LLM「PolySphere-1」開発で

EnterpriseZine

・2023/06/29

Picks

このまま本文を読む

本文を読む

選択しているユーザー

大塚一輝
TransormersのAttentionは入力シーケンスの明示的なPositional Encodingを持つので任意のコンテキストサイズLを用い[0, L]までを入力できる. つまりいくらでも入力サイズは増やせるのだがトレーニング時の最大ウィンドウサイズを超えるとAttentionスコア関数は壊滅的な振る舞いをしPerplexity(当惑度)が桁違いに増大するので何も学習していないのと同様な結果を出力する. これは「外挿問題」と呼ばれる.
一言で言えばいくらでも長くできるが結果は壊滅的になる.

私の知る限り2023/6/28時点でオープンソースTransformersアーキテクチャのコンテキストウィンドウ拡張の最先端はPositional Interpolationで位置エンコードを線型写像し外挿問題を緩和したMetaの8192
”Extending Context Window of Large Language Models via Positional Interpolation”
か,

Transformersでないアーキテクチャならコンテキスト長Lに対しTransformersのAttentionの2次の増大に対し対数時間O(L log2 L)を実現したHyena演算子でDNAヌクレオチドを100万トークンのコンテクスト長で事前学習したHyenaDNA.
HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide Resolution

なので2千万の入力長で性能を維持しているとすれば明らかに世界最先端であり, ヒトゲノム10万塩基も容易にコンテキストサイズに入るためチューリング賞級の成果ということになる.

最新のAI分野についての専門的な情報は私のTwitter
https://twitter.com/K00TSUKA
フォローご自由に.

注目のコメント

比屋根一雄
三菱総合研究所執行役員兼研究理事生成AIラボセンター長
・2023年06月29日
2千万トークンはスゴいですね。10万トークンあれば業務マニュアル1冊入るとして200冊分、全社のマニュアルが読み込めます。

LLMは言語処理のみ使い、ハルシネーションを防ぐためにプロンプトに全部入れるような使い方でしょうか。
松村優也
株式会社LayerX ML Team Manager
・2023年07月01日
推論速度を考慮した使い道の検討が必要そうですが、大きな一歩ですね。また、記事の内容的におそらくあまりレスポンスの性能が良いと言うわけではなさそうですので今後に期待です！
下山明彦
東京藝術大学大学院修士2年/Senjin Holdings 代表取締役
・2023年07月01日
2259万トークン！本まるまる読み込ませるどころの騒ぎではなく、たとえば特定の著者の作品を全て読み込ませ、同規模の小説を書かせるみたいなこともできるのかもしれません。ここまでの量の文章を処理できるとなればいわゆる情緒的な側面の強い文学などにもより直接的な活用法が開発されるかもしれません。

.css-5ddv2h{font-feature-settings:'palt';letter-spacing:0.06em;}AI insideが2259万トークン処理に成功、日本語LLM「PolySphere-1」開発で

コメント

選択しているユーザー

注目のコメント

AI insideが2259万トークン処理に成功、日本語LLM「PolySphere-1」開発で