言葉の指示で高度なイラスト生成、新AI「ダリ」は起業家必見
コメント
注目のコメント
この記事で紹介されているTransformerですが、もともと言語処理で開発されたものが最近は画像の分野でも積極的に活用されるようになっています。研究の世界にいて感心することは「これ以上の進歩はないだろう」と思えるような分野でも日々イノベーションが起きること。今日も1-on-1ミーティングで多くの研究の潮流を知ることができて興奮しているところです。
GPT3 もまだ見てない方がいれば、YouTubeなどでも色々例が出ているので見ることをおすすめします。口で説明しただけでインスタグラムそっくりのウェブインターフェースを作ってくれたりするのが特に印象的でした。
Googleのjamboardでも、手書きの図をベクトルアイコン化してくれる機能が実用化されていますが、DALL-Eでは、写真として生成してくれるというのが驚きです。自分で使えるのかと見てみたところ、今のところ公開されているわけではないみたいですが、公式サイトのブログ(https://openai.com/blog/dall-e/)は、色々入力値を選択して変更できるようになっています。良い記事です。
John Raven's Matricesテストのくだりが驚きで、つい1年前ですら機械学習には難しい問題と言われていたはずです。
別の記事 https://newspicks.com/news/5512398 に書いたコメントを修正・加筆:
GPT-3がリリースされてすぐに、詩を書いたり文章を要約したりプログラムを生成したりして世界を驚かせました。インターネット全体ぐらいの大量の文章を覚えさせた言語モデルがここまでの応用力の高さがあると分かったことで一気に期待が高まりました。また、few-shot performanceといって、既に学習済みの言語モデルを使えば問題設定ごとに大量に学習データを用意しなくても少量のお手本を与えるだけで様々な問題に対応できるという意味での応用力の高さもあります。
ここまで応用性が高いと、AGI (Artificial General Intelligence = 汎用AI)への期待も高まります。近年のAIが進化したとはいえ、まだまだ人間には簡単に解けるのにAIには非常に難しい問題というのが存在します。例えば、人間であれば生まれてから身につけてきた「常識」や「類推」を使う問題です。超巨大言語モデルはこの「常識」や「類推」を要する問題へのブレイクスルーを起こしました。
つい数日前にGPT-3のチームが大量のテキストと大量の画像を使って学習したモデルを使って、文章から画像を生成するデモを公開しました。「アボカドみたいな椅子」という文章から本当にそれっぽい画像を生成していて驚愕です。
https://openai.com/blog/dall-e/
ヒトは言語を発達させたからこそ、チンパンジーなどと違って世界を論理的に捉えられるようになり、道具を使うだけではなく加工したり洗練させてきたそうです。このように、超巨大言語モデルには「言語」という分野を超えた人間らしい思考が期待されています。
さて、アボカドみたいな椅子の絵が描けるからといって、りんごが落ちることから万有引力の法則を発見するような思考ができるのか?とまでは言えなさそうです。つまり、AGIにはまだまだ何段階もハードルがあります。