プレミアムを無料で体験

10億トークンを処理できるマイクロソフトの言語生成AI「LongNet」、喉のMRIからAI音声合成など5つの重要論文を解説

テクノエッジ

2023/07/10

106

Picks

このまま本文を読む

本文を読む

コメント

選択しているユーザー

大塚一輝
私のTwitterでは時差なくAI関連最重要論文を毎日紹介. 機械要約でなく全てオリジナル.
フォローご自由に.
https://twitter.com/k00tsuka/status/1676962237830033415?s=46&t=5TFzasFmnVdkLscbddt9kw
(LongNet 7月6日投稿)

—-

対してLongNetのDilated Attentionはセグメント長wとすると(Q, K, V)をN/wに分割し, 並列にAttentionの供給され, scatterされ, N/w個の結果Oi連結し出力Oを得る.
計算量はO(Nd)で線形関数であり, さらに配列の次元分割により複数のGPUデバイス上で分散学習が可能になる.

コンテキスト長はニューラルネットワークの最後の原始次元であり, 無制限であることが望ましく, より長い文脈はより複雑な因果関係と推論経路を可能にし, また多ショット学習のパラダイムシフトとなる可能性がある.
実験ではLongNetはDense Transformersより低い当惑度と少ない計算量を達成し, コンテキスト長をより効率的にスケールアップすること, またコンテキストウィンドウが大きくなるにつれテスト損失が徐々に減少することを示した.

https://twitter.com/k00tsuka/status/1676962237830033415?s=46&t=5TFzasFmnVdkLscbddt9kw
(LongNet 7月6日投稿より抜粋)

注目のコメント

比屋根一雄
三菱総合研究所執行役員兼研究理事生成AIラボセンター長
・2023年07月10日
トークン長がここまで長いとLLMとの関係が変わりますね。GPT-4が1兆パラメータ、LongNetが10億トークンとすると、0.1%をカバーできます。

もはやプロンプトとして質問を投げかけるというより、それ自体が巨大な知識ベースです。独自の文脈の中で正確なタスクが実行できる可能性を秘めていると思います。

問題は応答速度ではないでしょうか？実用的な時間で答えが返ってくるのか気になります。
吉村直記
株式会社リブ・コンサルティング DXコンサル（Principal）
・2023年07月11日
こんだけでかい言語モデルを作れるのはすごく、これだけの使い方が増えると本当にキャッチアップが難しいくらい盛り上がってますね。

配信メディア

テクノエッジ

関連する記事

今日のニュース

関連する企業

マイニュースに代わり
フォローを今後利用しますか