人だと正解率92%なのに、GPT-4だと15%になる新型テスト集「GAIA」 米Metaなどが開発
コメント
注目のコメント
この質問集の特徴は、個別状況に応じた具体的な情報を特定する質問ということです。
これはヘルプデスクの問い合わせで、いまの生成AIがFAQや業務マニュアルから該当箇所を抽出するのに比べて一段難しい問題です。これをクリアできればユーザの個別状況に応じた回答を生成できることを意味します。
実現できれば、営業職のAI代替が飛躍的に進む可能性すらありますね。生成AIに出せない価値を人間が出すためにどんなタスクが考えられるか、の探究のため面白い取り組み。
ただ、一番の人間の価値は身体性かな、とは思います。引越し業者とか、しばらくAIにはできそうにない。。。確かに言うほど使えないのが現状。
コンサル実務において、LLMはサマライズやアイデア出し等限定的なタスクにおいて強力なツールであり実際多用するが、リサーチ等にはほぼ使えない。
一方、GAIAで高得点取れるようなLLMが現れたときにはジュニアの仕事の多くを奪えてしまうのではないか。