OpenAIが開発した動画生成AI『Sora』とは?リリース日はいつ?特徴や弱みを解説
動画生成AIに革命が起こりました。2024年2月16日、OpenAIが突如発表した動画生成AI「Sora」について、世界中で激震が走っています。
これまでの動画生成AIとは比にならないほどの高い一貫性を持ち、生成秒数も60秒と長い動画の生成やダイナミックな動画も生成できる性能を持っています。
ここでは、そんな異次元の動画生成AIであるSoraについて、特徴や機能、苦手な部分などをご紹介していきます。リリース日や価格についても筆者の推測を交えて解説しています。
ぜひこの素晴らしい技術について理解を深めてみましょう。
話題沸騰中の動画生成AI「Sora」とは?
Soraは、chatGPTなどでAI業界における地位を確率したOpenAIが開発した動画AI。テキストからリアルで高品質な動画を生成するAIモデルです。
現実世界の細かな表現をし、世界そのものを動画として表出するようにシミュレーションすることができます。Soraは言語を深く理解し、プロンプトを正確に解釈して、最長1分の自然な動画を生成します。また、生成された動画内で、人や動物、オブジェクトの構造を理解して、破綻なく正確に動画にできます。
ちなみに、日本語の「空(そら)」から命名されたとか。
Soraが動画生成を行う仕組み
Soraは拡散モデルとして機能し、静的なノイズから始まるビデオを生成し、多くのステップを経てノイズを除去しながら徐々にビデオを変換していきます。
このプロセスを通じて、Soraはビデオ全体を一度に生成することができるだけでなく、生成されたビデオを拡張して長くすることも可能です。
モデルは、一度に多くのフレームを生成する能力を持っており、被写体が一時的に見えなくなっても同じ状態を維持するという難しい問題を解決しています。
他の動画生成AIとの違い
Soraは、他の動画生成AIと比較して、特に3Dの一貫性の面で優れています。
Soraは、ダイナミックなカメラモーションを含む動画を生成する能力を持っており、これは他の多くの動画生成AIでは見られない特徴です。カメラが移動したり回転したりする際に、人物やシーンの要素が3次元空間内を一貫して移動します。
この能力により、Soraは、動画がよりリアルで没入感のあるものに仕上がっています。
また、Soraは言語を深く理解しており、プロンプトを正確に解釈して、生き生きとした感情を表現する魅力的なキャラクターを生成することができます。
生成された1つの動画内で、キャラクターやスタイルを正確に保持できるため、動画の物語やキャラクターの表現にも深みを与えます。
これにより、Soraは他の動画生成AIと比較すると異次元の性能があると言えます。
参考までに、他の動画生成AIとの比較映像をご紹介します。
Soraの特徴や機能
OpenAIが打ち出した革新的な動画生成AIのSoraですが、ここではSoraの特徴や機能について詳しく解説していきます。
テキストから60秒の動画生成
Soraは、テキストから最大60秒のビデオを生成する能力を持っています。提示したプロンプトに従いながら、その背景も考慮して高品質の動画の生成が可能です。
画像や動画からの生成
Soraは、既存の画像やビデオを使用して動画生成が可能です。
既存のコンテンツを活用し、新しいビデオシーンを作成することができます。例えば、静止画像を取り入れて、それに動きやアクションを加えることで、画像を生き生きとしたビデオに変換することができます。
また、既存のビデオに新しい要素を追加したり、ビデオの一部を変更したりすることも可能です。
複雑な動画を高品質で生成
Soraは複雑なシナリオや多様な環境を持つビデオを高品質で生成することが可能です。これには、動的なシーンの描写、リアルなキャラクターのアニメーション、自然な物体の動きなど、ビデオ制作に必要な多くの要素が含まれます。
これらが可能な理由は、Soraでは動画データに関する生成モデルの大規模トレーニングを行っているからです。その中でさまざまな長さ、解像度、アスペクト比のビデオと画像を対象にしているのに加えて、テキスト条件付きの拡散モデルで学習が繰り返されているからです。
生成した動画の延長
Soraは、生成されたビデオの時間を前後に延長することが可能です。
動画の特定のタイミングを始点として、時間を逆方向に拡張することで、動画の新しいバリエーションを作成します。
つまり、異なる始まり方で途中から同じ結末を迎える動画になるということです。この機能により、既存の動画コンテンツの新しい利用が期待できます。
違和感のないトランジションを実現
Soraは、2つの異なる入力ビデオ間を徐々に補間し、まったく異なる主題やシーン構成を持つビデオ間に違和感のないトランジションを作成する機能を持っています。
この機能は、動画の切り替えやシーンの遷移において、自然でリアルな映像体験を提供します。例えば、異なるシーンやキャラクターが登場するビデオを組み合わせる際に、Soraはこれらを自然に融合させることができます。
デジタル世界のシミュレート
Soraは、人工的な動画のシミュレーションが可能です。どういうことかと言うと、「Minecraft」という言葉をプロンプトに含めると、マインクラフトの世界を再現した動画になります。なんと、上記の動画は「Minecraft」という単語1つのゼロショットで実現しているとのことです。
この機能は、ゲームのデザイン、教育コンテンツ、エンターテイメントなど、さまざまな分野での応用が期待できるでしょう。
ダイナミックな動画の生成
Soraは大規模なトレーニングを通じて、物理世界から人、動物、環境をシミュレーションし、ドローンで撮影したかのようなダイナミックな動画を生成できます。カメラが移動したり回転したりすると、人物やシーンの要素が3次元空間内を一貫して移動します。
具体的な指示をせずとも、言語に深い理解のあるSoraだからこそがプロンプトの背景を読み取り、そこから動画を生成することが可能です。
画像生成
Soraは画像生成の機能も備えており、最大2048×2048の解像度まで、さまざまなサイズの画像を生成できます。
ユーザーが入力したテキストの説明に基づいて、特定のシーンやオブジェクトの画像を生成することが可能です。
動画制作における初期コンセプトやアイデアを視覚化する際にも役立ちます。
Soraの弱点・苦手なこと
他の追随を許さない動画生成AIのSoraですが、弱点や苦手とすることもあります。ここではSoraの弱点・苦手なことをご紹介します。
物理法則を無視してしまうことも
物理演算をシミュレーションするSoraにもいくつかの制限があります。
上記のように椅子を土から取り出す際の様子では、椅子の形が不自然になっていたり、空中に浮遊するような描写になっています。
他にもガラスの粉砕など、物理法則を完全に動画で表現することには課題を抱えています
このように、Soraは物理法則に完全に従うビデオを常に生成するわけではなく、物理的な不整合や不自然な動きが発生することがあります。
多くの要素が絡むと生成が不安定に
Soraはある程度は時間的な一貫性を保つことはできますが、常に完璧に対応できるわけではありません。
上記のように、人が息を吹きかけることでバースデーケーキの火が消えるような場合です。一定時間が経過した後に、人が行う行動による結果を動画として表すことは難しいようです。
また、たくさんのオブジェクトが関係すると、統一性も保ちにくくなります。
上記のようにたくさんの犬が出現している動画では、犬の数が増減しています。このように、多くの要素が絡むと生成が不安定になるのは、Soraの課題だと言えます。
エフェクトや表現に苦手な部分がある
流れる水や降りしきる雪などの表現は忠実なSoraですが、苦手なものもあります。
たとえば、上記はバスケットボールがゴールに入った後に爆発する動画です。現実的にはありえない描写になり、これを動画として再現するのは苦手なようです。
これは筆者の推測になりますが、現実に存在しないエフェクトや表現はそもそも学習データが足りないのではないかと思われます。
そのため、自然な表現は得意でも、意図的に非現実的な表現の動画化は難しいのかもしれません。
相互作用がある動画の生成は苦手
相互作用というのは、何かしらのアクションが起こった後、そのアクションの痕を残すことです。例えば、食べ物を食べる動画の場合、食べた後の噛み跡が必ずしも正しい状態になるとは限らないということです。
複数の要素が関与する複雑なシナリオや、物体同士の相互作用が重要な場面では、Soraが正確にこれらの相互作用を再現できない場合があります。
Soraのリリース日は?いつ使える?
気になるSoraのリリースはいつなのでしょうか?あくまで筆者の推測ですが、3月頃になるのではないかと予想できます。
OpenAIの別サービスの画像生成AI「DALL E3」の際は、発表から約10日後には先行ユーザーに開放され、1ヶ月後には全ユーザーが使えるようになりました。
それを考慮すると、2024年2月16日に発表があったため、早ければ3月中旬頃になるのかもしれません。ただし、DALL E3は画像生成AIで、Soraは動画生成AIという大きな違いがあります。もしかしたら、数ヶ月、半年先になることも考えられます。
【2024年3月12日 追記】
上記はOpenAIのSora開発チームにインタビューをした動画になります。
この動画内での情報としては下記のとおりです。
- 自然言語処理と画像生成の技術を組み合わせた先端のAIモデル
- 最長1分程度の写実的な動画を自動生成が可能
- 豊富な解像度や画角のデータから、多様なビデオコンテンツを生成
- 現状は実験的段階で、一般への製品リリースは未定
- 人々に役立つ用途を検討中
- 倫理的リスクへの対策も並行して検討中
- 物理的動作再現や音声合成の精度向上が技術課題
- 将来的には人間の目で見分けがつかない動画生成を目指す
- 生成物への透かし入れや、AI動画検出システムの開発にも取り組み
- 映像制作の手間やコストが大幅に削減される可能性
- クリエイターの表現の自由度が格段に高まることが期待される
- AIが現実世界をモデル化することで物理法則の深い理解が可能に
- 全く新しいジャンルの映像表現の実現も視野に
リリースについては未定とされています。
ただ、このようにSoraに関する公式からの情報は少なくないため、気になる方は日々情報のキャッチアップをすると良いでしょう。
Soraは無料で使える?有料ならいくら?
気になるのは、無料で使えるかというところでしょう。
こちらも推測になりますが、ChatGPTのように制限付きで無料版が触れて、有料版で完全な機能が使えるような形になると予想できます。
値段については、下記が動画生成AIの価格一覧になります。
- Runway(スタンダード):$15/月
- Pika(スタンダード):$10/月
- Kaiber(プロ):$15/月
また、OpenAIのサービスであるchatGPTのプロプランは月額20ドルです。
他にも、少々特殊な例ですが、実写動画からCG動画に変換できるWonder Studioのライトプランは月額19ドルです。
これらを考慮すると、月額15~20ドル(2200~3000円)くらいになるのではないでしょうか。
懸念される今後の課題
革新的で大絶賛されているSoraですが、懸念される今後の課題もまだまだあります。そのため、OpenAIではさまざまな専門家による検証が重ねられています。
ここでは、Soraの課題について触れていきます。
フェイク動画による詐欺やデマ
Soraのような高度な動画生成技術の出現に伴い、フェイク動画による詐欺やデマが新たな課題として浮上しています。OpenAIは、Soraを一般の製品として利用できるようにする前に、重要な安全措置を講じる予定です。
これには、Soraを敵対的にテストする専門家チームと協力して進められています。このチームは、誤った情報、憎悪に満ちたコンテンツ、偏見などの分野において、モデルを試験的に検証します。
さらに、Soraによって動画がいつ生成されたかを知ることができる検出分類子(C2PAメタデータ)など、誤解を招くコンテンツの検出に役立つツールも構築されています。
また、OpenAIサービスでは、極端な暴力、性的コンテンツ、嫌がらせ的な画像、有名人の肖像、または他人のIPを要求するなど、使用ポリシーに違反するテキスト入力プロンプトをチェックして拒否します。
これらの措置によって、フェイク動画による悪用を防ぐため、OpenAIは社会的、倫理的な課題へ取り組みを行っています。
高品質の裏に残る技術的な課題
前述したように、高品質な動画を生成できるSoraでも技術的な課題は残されています。
物理法則を再現できないこと、相互作用のある動画生成が上手くできない場合があることなどです。
しかし、AIの進歩は目覚ましく、指数関数的に発達してきています。ですので、これらの課題が解決される日も近いことでしょう。
著しい動画生成AIの進化に大注目
OpenAIが開発した動画生成AIであるSoraについて解説してきました。公式情報を中心にまとめた内容になっていますが、それだけでも凄まじい性能であることは見て取れるでしょう。
これまでの動画生成AIとは言葉通り次元が異なる技術です。今後のさらなる発展、そしてリリースが待ち遠しいですね。
Team HENSHINではAIを活用した動画などのクリエイティブ制作に注力してます。特に記事中でも少し触れたWonder Studioではおそらく日本で最も深い理解と技術を持っている自負があります。
気になる方は、ぜひ弊社のサービス実績等もご覧ください。
▼参考
Sora公式HP
Video generation models as world simulators