生成AIが嘘をつく「幻覚症状」問題、最新のベンチマークテストで明らかになった最も正確なAIモデルとは?
コメント
注目のコメント
GPT-4を圧倒したGeminiはまだ含まれてませんね
技術レポートを読んだところ、GeminiはGPT-4やLlama2とは異なる独自のハルシネーション対策をしているようです。
例えば、人間のフィードバックによる強化学習 (RLHF)では、GPT-4やLlama2が「役立つ (Helpfulness)」と「安全である (Safety)」の2つの報酬スコアなのに対して、Geminiは「事実である (Factuality)」の報酬スコアも加えています。
他にも工夫が見られ、noteにまとめたので、ご興味あればご覧ください。
Geminiの技術レポートを読み解く〜生成AIの最前線
https://note.com/ray_30cm_ns/n/n961ad5649ed2このデータを見るにやはりLLMの精度はOpenAIのGPT-4 Turbo一択。
GoogleのGemini Ultraは32のベンチマークのうち30の指標でGPT-4を超えているが、来年には出るであろう、GPT-4.5 or 5 に一瞬に抜かされる気もしている。