アップルが開発した「GPT-4を凌ぐ」AIとは…「ReALM」はコンテキストを理解する
コメント
選択しているユーザー
アップルの新しいAIシステム「ReALM」は、GPT-4を上回る性能を発揮しているようですね。
画面上の画像や会話の文脈を理解できるというのは、より自然で直感的なやり取りを可能にしそうです。
例えば、Siriに地元の薬局リストを表示させて、「〇〇通りにある薬局に電話して」と頼めば、ReALMなら詳細な説明なしでも適切な薬局を選んで電話をかけてくれるかもしれません。
GPT-4よりもはるかに少ないパラメータ数で同等以上の性能を達成しているのも驚きです。
AppleのAI研究の成果が、来たるWWDCでどのような形で発表されるのか楽しみですね。もしかしたら、より賢くなったSiriが新しいiPhoneに搭載されているかもしれません。
ReALMのようなコンテキスト理解力の高いAIアシスタントが普及すれば、ユーザーはより自然な対話でデバイスを操作できるようになり、テクノロジーとのインタラクションがさらに進化しそうです。
アップルらしい使いやすさと高性能のAIの組み合わせに期待が高まります!
注目のコメント
スクリーンに特化した言語画像モデルという発想が素晴らしい。確かにSiriには不可欠ですね。しかも特化した分、軽量かつ高精度なモデルでしょう。
指示代名詞は言語モデルの苦手の一つです。特に画像内オブジェクトの指示は難しいですし、さらに画像内の文脈はあまり見た記憶がありませんでした。
これは便利な予感がします。Apple Vision Proには「アイトラッキング」、人の瞳孔の動きを検知して、視線を追跡する技術が搭載されています。今まで自然言語プログラムに送るプロンプトの主語・述語・目的語などをはっきりさせないとアウトプットの精度があまり高くなかったのに対して、ユーザーの視線などを考慮してコンテキストを踏まえたアウトプットを実現すると、アウトプットが格段にレベルアップするでしょう。
>「Reference Resolution As Language Modeling(言語モデルとしてのリファレンス解決)」の略である「ReALM」システムは、曖昧な画面上の画像コンテンツ、会話上のコンテキストを理解し、AIとのより自然な対話を可能にするものだ。
社内でのメールでも、資料や画像を添付して、その内容に即してメール文面を書きますからね。
それをAIも理解可能になるというのは凄いこと。