Stability AI、テキストをアニメーションに変換する「Stable Animation SDK」発表
コメント
注目のコメント
生成AIの進化は、言語生成→画像生成→動画生成へと向かいそうです。
このツール(SDK)でアニメーション動画を生成するには、3つの入力パターンがあるようです。
1. テキストのみ
2. テキスト+初期画像
3. テキスト+初期動画
手軽には1、より希望するアニメにするには3、という使い分けをするのでしょう。
ちなみに、動画生成は、1枚の画像生成を何度も繰り返すだけではない、技術的な難しさがあります。例えば、同じキャラクターが動く必要がありますが、画像生成を単純に何度もやると異なるキャラクターになってしまうため、工夫が必要です。紹介ムービーを見ると「Text to Animation」だけでなく「Image to Animation」もできるようですね。自分が作った静止画のキャラクターに動きを付けてもらうなんてこともできそうです。
画像生成AIモデル「Stable Diffusion」が登場した時も話題になりましたが、ベースとして用いられている「Diffusion(拡散)」という技術は、かなり飛躍して簡単に言ってしまうと、元となる綺麗な画像にどんどんノイズを加えていく過程を学習させ、それを逆再生させることで砂嵐的なノイズ状態から綺麗な画像を生成させる力をAIに身につけさせるというもので、今般の「Stable Animation SDK」は、それを動画生成に応用したもののようです。
画像→動画は延長にあるとはいえ、一枚の画像を生成することと、数百〜数千の連続画像で構成される動画を生成することの難易度には大きな違いあり、個人的には、かなりのスピードで技術革新が進んでいることを改めて感じます。動画生成はフェイクが怖いですが、アニメなら心配が少ないですね。
今後、プレゼンに動画生成を使わざるを得ないような予感がします。スキルを身に付けねば、、、