「AIの学習データが底をつく」'2026年問題'の衝撃度とその対策とは?
Yahoo!ニュース
112Picks
コメント
選択しているユーザー
数字での検証を見てないので、あくまで私の考えだけ。
・データの量は指数関数的に増えている
・AIもデータを生み出す
学習データが不足しているときは、AIで生み出したデータで学習する手法があります。囲碁AIも人間の棋譜を学習するのから、AI自らの棋譜を学習するようになり飛躍的に強くなりました。
少し、シンギュラリティの香りがしてきませんか?
注目のコメント
言語データを食べ尽くしたとしたら、システム内の数値データとどのように紐づけるかが次の課題でしょうね。これが出来ると企業内の多くの活動がAI代替できるはずです。目的に応じてタスクを計画し、実行し、評価する、このサイクルが全部AIで可能になりそうです。
ネット上の既存データは食い尽くされ、大規模言語モデルの開発が停滞する。これまでのGPT-4の開発にかかったコストは1億ドル。この記事が示すのは、その規模の資金を投ずれば日本にも大きなチャンスがあるということ。汎用LLMの上に、多くの組織がもつ未利用のデータを食わせて、さまざまな個別AIが生まれていく。次のフェーズが見えていて、もうその競争に入るということでしょう。
チャットGPTのような大規模言語モデル(LLM)の開発には、膨大な学習データが必要ですが、使えそうなデータは徐々に使い尽くされ、良質なデータは2026年には底をつくと見られています。
ツイッターは7月初め、利用回数の制限を実施し騒動になりました。その引き金になったのも、AIの学習データ収集のためのアクセス集中だったといいます。
「大きいことはいいことだ」という大規模言語モデルの開発に、壁が立ちふさがっています。