Geminiの技術レポートを読み解く〜生成AIの最前線
note(ノート)
233Picks
コメント
注目のコメント
Google DeepMindから次世代のマルチモーダル生成AI「Gemini」が発表されました。「GPT-4を圧倒」や「人間の専門家を超えた」などの華々しい評価が発表され、驚くようなデモ動画も公開されました。
断片的な情報が飛び交う中、しっかりと技術レポートを読み解いてみます。
・どんな生成AIモデル?
・定量的な評価は?
・具体例は?Geminiの以下のデモが衝撃的でした。
マルチモーダルな推論がここまで出来るとは!
Let’s see what #GeminiAI can do. Go hands-on with Gemini’s multimodal reasoning capabilities
https://youtube.com/shorts/eHchxC_SD-I?si=N6X3O95Y50skjpH6Gemini技術レポートから。
RLHFで、Geminiでは「役立つ」「安全である」の2つの報酬スコアに加えて「事実である」の報酬スコアを加えているのが特徴的。
「事実である」の意味は、具体的には:
1. 情報ソースを与えられていれば、必ずそれに則る
2. 「インドの首相は誰?」といった事実を聞いている質問には必ず事実で答える
3. 分からないものは分からないと答える
「役立つ」「事実である」を両立した体験を作るのは難しい。
今後はどの報酬スコアを重視したかによって、LLMの「性格」が分かれていきそう。