Stable Diffusion 3発表　「画像内でのアルファベット表記」が可能に

Impress Watch

2024/02/23

Picks

このまま本文を読む

本文を読む

注目のコメント

和田崇
㍿Laboro.AI 執行役員／マーケティング部長
・2024年02月23日
画像内に文字を生成させるというのは、一見大したことに感じられませんが、実はすごいことだったりします。

詳しい技術はさておき、基本的に今の画像生成AIの多くのアプローチでは、画像の"見た目"に関わる情報のみを学習し、生成を行っています。いい変えれば意味を理解しているわけではないということです。

飛躍を恐れず例えみると、仮に学習データの画像内に「A」という文字列が書かれていたとしても、AIにとってはそれは「A」ではなくて、線で描かれた単なる図形であり、画像の一部でしかありません。

そのため、現状の画像生成AIでテキストを描画させようとすると、文字デザインが崩れてしまったり、スペルミスがあったりと、不完全なものが出来上がることが少なくありません。

画像情報を扱うコンピュータビジョン領域と、文字情報を扱う自然言語処理の領域、この2分野が両立しないと画像内でのテキスト描画はうまくいかず、今回のStable Diffusion3は、それだけ難易度の高いことを実現している技術だと言えます。

ちなみに記事内でも紹介されている「フローマッチング」は、今の画像生成AIモデルの多くで採用されている「拡散モデル」よりも、高精度かつ効率的な生成ができるとされていて、画像生成AIをネクストレベルに引き上げる技術などとも言われています。

OpenAIが動画生成AI「Sora」を先日発表するなどもありましたが、とにかく技術展開が早いです。。。
山浦真由子
株式会社エジソンエーアイ代表取締役
・2024年02月23日
リリースはまだのようですね。画像内の文字入力は先週リリースされた Stable Cascade でも可能だったかと思います。
倉嶌洋輔
（株）Focus on 代表取締役／『AI時代のキャリア生存戦略』著者
・2024年02月24日
新しいStable Diffusion 3では、拡張性と品質に関するさまざまなオプションを用意するとのこと。

すでに、本物と見分けのつかない性能を持っていたので、良くも悪くも、ますます磨きがかかる形です。

誰がどんな画像を作ったのか辿れるようにブロックチェーンに全て記録するような仕組みが必要なのではないかと思います。

AIのアウトプットかを見抜くAIを開発するような動きが、チャットAIでも画像AIでも後をたちませんが、AIが日進月歩で進化していく世界ではイタチごっこのため、すぐに再学習が必要となり、とても無駄な研究と言えます。
AI開発時の電力の消費や環境負荷はとても高いので、ブロックチェーンのような形で「真偽は全て辿れる形」にすべきだと思います。

また、ソラが作った動画を見た時も、素晴らしいと感じるとともに、バイトテロのフェイク動画による炎上や到底無理なパルクールの生成動画を真似て怪我や死亡事故が起こるなど、様々な混乱が起こると思うので、透かしが必ず入るような仕組みを入れるべきだと思います。

この透かしについてはStable DiffusionやMidjourney、DALL-E3にも言えることかも知れません。

生成AIの進化を止めることは難しいので、仕組みを工夫すべきだと見ています。