ヒンディー語などローカル言語でGPT‐4を上回る大規模言語モデル開発へ、活発化するインドでの生成AI開発の取り組み
コメント
選択しているユーザー
本記事に書かれている主張が本当だとして、
「2兆トークンものローカル言語データで学習して初めて、GPT-3.5の英語パフォーマンス相当に達する」
という事実が、やはり途方もないなと思います。
国策あるいは極端な資金源がなければ、利用可能な水準のローカルLLMにはならないのかと思います。
注目のコメント
GPT-4やGeminiが多言語で高性能だからと言って、自国語特化のLLM開発を止める訳には行きません。
経済安全保障の観点もありますが、自国語における最後の数%の精度向上はGAFAMがやってくれるとは限らないからです。そして最後の数%が実用化のハードルだったりしますから。インド在住です。インドの言語は、世界的に見たらマイナー言語であっても、1億弱の話者がいるものもある(ベンガル語やテルグ語など)ため、取り組む意義も大きそうだと感じます。