• 特集
  • 番組
  • トピックス
  • 学び
プレミアムを無料で体験

オープンソースLLMの日本語評価結果 - W&Bローンチで誰でも再現可能に

note(ノート)
20
Picks
このまま本文を読む
本文を読む

コメント


注目のコメント

  • badge
    三菱総合研究所 執行役員兼研究理事 生成AIラボセンター長

    これぞ求めていた情報です。数年前に質問応答ベンチマークのSQuADを日本語化して評価したことがあります。とても大変で二度とやる気になりませんでした。本当にありがたいです。深く感謝します。

    記事にある「モデルに寄り添った評価」には注意が必要です。測りたいものが何かによるので、一概に悪くはありませんが、実問題に適用したらイマイチだったという原因の一つです。

    でもやはりOpenAIが頭一つ抜けてるのはどの評価でも明らかですね。オープンソースLLMがGPT-4レベルに達すると応用範囲が急拡大しそうな予感がします。それまでに準備せねば。


  • badge
    Weights & Biases カントリーマネージャー

    オープンソースのLLMの日本語能力はいかほどか?モデル評価はこれからの日本のLLMの発展に重要と思い、W&Bで取り組んだ結果を公開しました!ChatGPTとも結果を比較しました。

    実は多くのLLMモデルはほとんど性能評価されずに公開されています。というのも汎用性の高いモデルなので、ダウンストリームタスク(実際どう使われるか)は非常に幅広くて、評価軸を定めるのが難しい。

    それでも今回はGLUEという基本的な言語能力と、汎用的な常識問題を解かせるデータセットの日本語版を使ってオープンソースLLMのテストを行いました。ほとんどのモデルは英語でしか評価されてないので、どんなに精度がいいと言われても疑問が残っていました。


アプリをダウンロード

NewsPicks について

SNSアカウント


関連サービス


法人・団体向けサービス


その他


© Uzabase, Inc

マイニュースに代わり
フォローを今後利用しますか