• 特集
  • 番組
  • トピックス
  • 学び
プレミアムを無料で体験

サイバーエージェント、国内最大級の日本語LLMを公開

Impress Watch
313
Picks
このまま本文を読む
本文を読む

コメント


注目のコメント

  • badge
    株式会社エジソンエーアイ 代表取締役

    マーケティングバズかな。CAさんの使ってる GPT-NeoX モデルは古いので、どれだけファインチューニングしても ChatGPTみたいなパフォーマンスは出せないかと、、。

    GPT-NeoX を選んだ理由は、
    ・モデルが、元々日本語対応したものがある
    ・Apache 2.0 だから商用利用できる
    が大きそう。

    GPT-NeoX は、200億でも LLaMAの70億 (Facebookのやつ) よりパフォーマンス悪いようなので、GPT-NeoX の70億以下って、何がどこまでできるんだろう?と疑問に思ったりします。

    でも大企業なのに、比較的早くモノを作られて世に出された点は、すごいと思います。

    (あとCAさんが、LLMを作ったわけではなく、既存のLLMをファインチューニングしたものを公開したという認識でいます。(これが一般的な使い方。))

    ーー
    参照:
    https://github.com/EleutherAI/gpt-neox/blob/main/LICENSE
    https://www.lunasec.io/docs/blog/cerebras-gpt-vs-llama-ai-model-comparison/


  • badge
    Weights & Biases カントリーマネージャー

    サイバーエージェントのモデルもrinnaのモデルも同時にリリースされ、いよいよ競争が始まった感じがしますね。

    どちらのモデルもベースの基盤モデルとしてGPT-NeoXを使っています。GPT-NeoXはGPT系のオープンソースモデルで、そのままでもある程度日本語を理解します。

    いずれのモデルも完全にゼロから学習したということではなく、基盤モデルを「ファインチューニング」しているのではと思われます(情報求む)。基盤となるモデルをさらに賢くするための追加学習手法はここ数ヶ月で劇的に進化しており、多数のパラメーターをいじらななくても効果的に経済的にモデルの品質を高めることができます。

    サイバーエージェントのようなエンジニア集団の企業でなくとも、このようなファインチューニングは既にかなり簡単に行うことができます。特に、今回モデルが公開されたHuggingFaceはこれらのモデルをベースにした追加開発を簡単にするフレームワークを提供していますし、弊社のWandbを有効化することで、開発の可視化も簡単に行えます。

    今回公開されたモデルはそのようなさらなる追加学習のベースとして使われることを想定したものと思われますが、今後これらのモデルから派生して特定のタスクやナレッジに特化したモデルが出てくることに期待したいと思います。


  • badge
    AI企業 旅する魔法使い

    日本語LLMのオープン化への大きな一歩ですね。

    自社内では130億パラメータまで開発しており、その約半分の68億パラメータまでを公開したようです。

    日本語に特化したことでモデルが軽量になり、資金が少ない組織でもカスタマイズ出来て、さまざまな中規模モデルが生まれる可能性があります。またパラメータの少なくても、領域を特化することで、充分な精度を実現できるかもしれません。

    ちなみにGPTと比べると、GPT-2とGPT-3の間です
    GPT-2:15億
    GPT-3:1750億
    ChatGPT(GPT-3.5):3500億(という噂)
    GPT-4:100兆(という噂)

    (参考)
    サイバーエージェント、最大68億パラメータの日本語LLM(大規模言語モデル)を一般公開
    https://www.cyberagent.co.jp/news/detail/id=28817

    サイバーエージェント、独自の日本語LLM(大規模言語モデル)を開発
    https://www.cyberagent.co.jp/news/detail/id=28797


アプリをダウンロード

NewsPicks について

SNSアカウント


関連サービス


法人・団体向けサービス


その他


© Uzabase, Inc

マイニュースに代わり
フォローを今後利用しますか