Stable Diffusion 3発表 「画像内でのアルファベット表記」が可能に
コメント
注目のコメント
画像内に文字を生成させるというのは、一見大したことに感じられませんが、実はすごいことだったりします。
詳しい技術はさておき、基本的に今の画像生成AIの多くのアプローチでは、画像の"見た目"に関わる情報のみを学習し、生成を行っています。いい変えれば意味を理解しているわけではないということです。
飛躍を恐れず例えみると、仮に学習データの画像内に「A」という文字列が書かれていたとしても、AIにとってはそれは「A」ではなくて、線で描かれた単なる図形であり、画像の一部でしかありません。
そのため、現状の画像生成AIでテキストを描画させようとすると、文字デザインが崩れてしまったり、スペルミスがあったりと、不完全なものが出来上がることが少なくありません。
画像情報を扱うコンピュータビジョン領域と、文字情報を扱う自然言語処理の領域、この2分野が両立しないと画像内でのテキスト描画はうまくいかず、今回のStable Diffusion3は、それだけ難易度の高いことを実現している技術だと言えます。
ちなみに記事内でも紹介されている「フローマッチング」は、今の画像生成AIモデルの多くで採用されている「拡散モデル」よりも、高精度かつ効率的な生成ができるとされていて、画像生成AIをネクストレベルに引き上げる技術などとも言われています。
OpenAIが動画生成AI「Sora」を先日発表するなどもありましたが、とにかく技術展開が早いです。。。新しいStable Diffusion 3では、拡張性と品質に関するさまざまなオプションを用意するとのこと。
すでに、本物と見分けのつかない性能を持っていたので、良くも悪くも、ますます磨きがかかる形です。
誰がどんな画像を作ったのか辿れるようにブロックチェーンに全て記録するような仕組みが必要なのではないかと思います。
AIのアウトプットかを見抜くAIを開発するような動きが、チャットAIでも画像AIでも後をたちませんが、AIが日進月歩で進化していく世界ではイタチごっこのため、すぐに再学習が必要となり、とても無駄な研究と言えます。
AI開発時の電力の消費や環境負荷はとても高いので、ブロックチェーンのような形で「真偽は全て辿れる形」にすべきだと思います。
また、ソラが作った動画を見た時も、素晴らしいと感じるとともに、バイトテロのフェイク動画による炎上や到底無理なパルクールの生成動画を真似て怪我や死亡事故が起こるなど、様々な混乱が起こると思うので、透かしが必ず入るような仕組みを入れるべきだと思います。
この透かしについてはStable DiffusionやMidjourney、DALL-E3にも言えることかも知れません。
生成AIの進化を止めることは難しいので、仕組みを工夫すべきだと見ています。