• 特集
  • 番組
  • トピックス
  • 学び
プレミアムを無料で体験

10億トークンを処理できるマイクロソフトの言語生成AI「LongNet」、喉のMRIからAI音声合成など5つの重要論文を解説

106
Picks
このまま本文を読む
本文を読む

コメント


選択しているユーザー

  • 私のTwitterでは時差なくAI関連最重要論文を毎日紹介. 機械要約でなく全てオリジナル.
    フォローご自由に.
    https://twitter.com/k00tsuka/status/1676962237830033415?s=46&t=5TFzasFmnVdkLscbddt9kw
    (LongNet 7月6日投稿)

    —-

    対してLongNetのDilated Attentionはセグメント長wとすると(Q, K, V)をN/wに分割し, 並列にAttentionの供給され, scatterされ, N/w個の結果Oi連結し出力Oを得る.
    計算量はO(Nd)で線形関数であり, さらに配列の次元分割により複数のGPUデバイス上で分散学習が可能になる.

    コンテキスト長はニューラルネットワークの最後の原始次元であり, 無制限であることが望ましく, より長い文脈はより複雑な因果関係と推論経路を可能にし, また多ショット学習のパラダイムシフトとなる可能性がある.
    実験ではLongNetはDense Transformersより低い当惑度と少ない計算量を達成し, コンテキスト長をより効率的にスケールアップすること, またコンテキストウィンドウが大きくなるにつれテスト損失が徐々に減少することを示した.

    https://twitter.com/k00tsuka/status/1676962237830033415?s=46&t=5TFzasFmnVdkLscbddt9kw
    (LongNet 7月6日投稿より抜粋)


注目のコメント

  • badge
    三菱総合研究所 執行役員兼研究理事 生成AIラボセンター長

    トークン長がここまで長いとLLMとの関係が変わりますね。GPT-4が1兆パラメータ、LongNetが10億トークンとすると、0.1%をカバーできます。

    もはやプロンプトとして質問を投げかけるというより、それ自体が巨大な知識ベースです。独自の文脈の中で正確なタスクが実行できる可能性を秘めていると思います。

    問題は応答速度ではないでしょうか?実用的な時間で答えが返ってくるのか気になります。


  • 株式会社リブ・コンサルティング DXコンサル(Principal)

    こんだけでかい言語モデルを作れるのはすごく、これだけの使い方が増えると本当にキャッチアップが難しいくらい盛り上がってますね。


アプリをダウンロード

NewsPicks について

SNSアカウント


関連サービス


法人・団体向けサービス


その他


© Uzabase, Inc

マイニュースに代わり
フォローを今後利用しますか