中国百度の生成AI、一部評価でチャットGPTを上回る性能
コメント
注目のコメント
Baiduが遂にGPT-4に追いついたなら大ニュースです。詳しい情報はどこでしょう?
【追記】
佐々木さんのソースを見てました。
ベンチマークがAGIEval、C-Eval、MMLUの3つ。AGIEvalは初耳だったのですが、最近出た大学入試などの公的試験相当のベンチマークでした。C-Evalは中国語、MMNUは高校大学の知識問題です。
BaiduのERNIE3.5は、このうちAGIEvalでChatGPTを超え、C-EvalでGPT-4も超えたようです。
ただし、よく見るベンチマークのMMLUでは、GPT-4の82は別格として、ChatGPTの69にわずかに及ばずERNIEは65。LLaMa65Bが64。他の論文ではPaLM-2が78、Claudeが75、GPT-3.5-turboが67ですから、充分高性能と言って良いでしょう。中国科学報が行った評価結果を見つけました
https://mp.weixin.qq.com/s/QVdkmofRSTgjQ7UOFX7s1g
どちらにしろ、GPTブランドが出来た現状で、追随者はちょっとした優位性では不十分で、特定領域での圧倒的性能とか、圧倒的なコストとかが必要ですね。
ユーザーとしても開発者としても「とりあえずトップランナーのGPTに任せて、問題あれば他の選択肢も考える」という状況なので、それを覆すのは大変です。大学入試だと、言い回しなどの表現のポイントが大きそうですが、どうなんでしょう…両方触ってみた感想としては、バイドゥはセンシティブな問題を回避する規制がオープンAIより強力で、なかなか望みの出力が出せずに苦労します