アップルが開発した「GPT-4を凌ぐ」AIとは…「ReALM」はコンテキストを理解する
コメント
注目のコメント
スクリーンに特化した言語画像モデルという発想が素晴らしい。確かにSiriには不可欠ですね。しかも特化した分、軽量かつ高精度なモデルでしょう。
指示代名詞は言語モデルの苦手の一つです。特に画像内オブジェクトの指示は難しいですし、さらに画像内の文脈はあまり見た記憶がありませんでした。
これは便利な予感がします。Apple Vision Proには「アイトラッキング」、人の瞳孔の動きを検知して、視線を追跡する技術が搭載されています。今まで自然言語プログラムに送るプロンプトの主語・述語・目的語などをはっきりさせないとアウトプットの精度があまり高くなかったのに対して、ユーザーの視線などを考慮してコンテキストを踏まえたアウトプットを実現すると、アウトプットが格段にレベルアップするでしょう。
>「Reference Resolution As Language Modeling(言語モデルとしてのリファレンス解決)」の略である「ReALM」システムは、曖昧な画面上の画像コンテンツ、会話上のコンテキストを理解し、AIとのより自然な対話を可能にするものだ。
社内でのメールでも、資料や画像を添付して、その内容に即してメール文面を書きますからね。
それをAIも理解可能になるというのは凄いこと。