10億トークンを処理できるマイクロソフトの言語生成AI「LongNet」、喉のMRIからAI音声合成など5つの重要論文を解説
コメント
選択しているユーザー
私のTwitterでは時差なくAI関連最重要論文を毎日紹介. 機械要約でなく全てオリジナル.
フォローご自由に.
https://twitter.com/k00tsuka/status/1676962237830033415?s=46&t=5TFzasFmnVdkLscbddt9kw
(LongNet 7月6日投稿)
—-
対してLongNetのDilated Attentionはセグメント長wとすると(Q, K, V)をN/wに分割し, 並列にAttentionの供給され, scatterされ, N/w個の結果Oi連結し出力Oを得る.
計算量はO(Nd)で線形関数であり, さらに配列の次元分割により複数のGPUデバイス上で分散学習が可能になる.
コンテキスト長はニューラルネットワークの最後の原始次元であり, 無制限であることが望ましく, より長い文脈はより複雑な因果関係と推論経路を可能にし, また多ショット学習のパラダイムシフトとなる可能性がある.
実験ではLongNetはDense Transformersより低い当惑度と少ない計算量を達成し, コンテキスト長をより効率的にスケールアップすること, またコンテキストウィンドウが大きくなるにつれテスト損失が徐々に減少することを示した.
https://twitter.com/k00tsuka/status/1676962237830033415?s=46&t=5TFzasFmnVdkLscbddt9kw
(LongNet 7月6日投稿より抜粋)
注目のコメント
トークン長がここまで長いとLLMとの関係が変わりますね。GPT-4が1兆パラメータ、LongNetが10億トークンとすると、0.1%をカバーできます。
もはやプロンプトとして質問を投げかけるというより、それ自体が巨大な知識ベースです。独自の文脈の中で正確なタスクが実行できる可能性を秘めていると思います。
問題は応答速度ではないでしょうか?実用的な時間で答えが返ってくるのか気になります。