• 特集
  • 番組
  • トピックス
  • 学び
プレミアムを無料で体験

Stable Diffusion 3発表 「画像内でのアルファベット表記」が可能に

71
Picks
このまま本文を読む
本文を読む

コメント


選択しているユーザー

  • badge
    株式会社フライウィール CEO & Co-founder

    Stable Diffusionのあらたなアップデートがありましたね。画像内のアルファベット表記は、例えばお店の風景におけるロゴなどもAIで作れるようになるので、生成されるクリエイティブの幅が広がります。日本語表記にも期待しています!


注目のコメント

  • badge
    ㍿Laboro.AI 執行役員/マーケティング部長

    画像内に文字を生成させるというのは、一見大したことに感じられませんが、実はすごいことだったりします。

    詳しい技術はさておき、基本的に今の画像生成AIの多くのアプローチでは、画像の"見た目"に関わる情報のみを学習し、生成を行っています。いい変えれば意味を理解しているわけではないということです。

    飛躍を恐れず例えみると、仮に学習データの画像内に「A」という文字列が書かれていたとしても、AIにとってはそれは「A」ではなくて、線で描かれた単なる図形であり、画像の一部でしかありません。

    そのため、現状の画像生成AIでテキストを描画させようとすると、文字デザインが崩れてしまったり、スペルミスがあったりと、不完全なものが出来上がることが少なくありません。

    画像情報を扱うコンピュータビジョン領域と、文字情報を扱う自然言語処理の領域、この2分野が両立しないと画像内でのテキスト描画はうまくいかず、今回のStable Diffusion3は、それだけ難易度の高いことを実現している技術だと言えます。

    ちなみに記事内でも紹介されている「フローマッチング」は、今の画像生成AIモデルの多くで採用されている「拡散モデル」よりも、高精度かつ効率的な生成ができるとされていて、画像生成AIをネクストレベルに引き上げる技術などとも言われています。

    OpenAIが動画生成AI「Sora」を先日発表するなどもありましたが、とにかく技術展開が早いです。。。


  • badge
    株式会社エジソンエーアイ 代表取締役

    リリースはまだのようですね。画像内の文字入力は先週リリースされた Stable Cascade でも可能だったかと思います。


  • badge
    (株)Focus on 代表取締役 /『AI時代のキャリア生存戦略』著者

    新しいStable Diffusion 3では、拡張性と品質に関するさまざまなオプションを用意するとのこと。

    すでに、本物と見分けのつかない性能を持っていたので、良くも悪くも、ますます磨きがかかる形です。

    誰がどんな画像を作ったのか辿れるようにブロックチェーンに全て記録するような仕組みが必要なのではないかと思います。

    AIのアウトプットかを見抜くAIを開発するような動きが、チャットAIでも画像AIでも後をたちませんが、AIが日進月歩で進化していく世界ではイタチごっこのため、すぐに再学習が必要となり、とても無駄な研究と言えます。
    AI開発時の電力の消費や環境負荷はとても高いので、ブロックチェーンのような形で「真偽は全て辿れる形」にすべきだと思います。

    また、ソラが作った動画を見た時も、素晴らしいと感じるとともに、バイトテロのフェイク動画による炎上や到底無理なパルクールの生成動画を真似て怪我や死亡事故が起こるなど、様々な混乱が起こると思うので、透かしが必ず入るような仕組みを入れるべきだと思います。

    この透かしについてはStable DiffusionやMidjourney、DALL-E3にも言えることかも知れません。

    生成AIの進化を止めることは難しいので、仕組みを工夫すべきだと見ています。


アプリをダウンロード

NewsPicks について

SNSアカウント


関連サービス


法人・団体向けサービス


その他


© Uzabase, Inc

マイニュースに代わり
フォローを今後利用しますか