2024.06.24 2024.07.02

【比較】話題の動画生成AI６選！生成結果を比較してわかった特徴や違い

ryo

日進月歩の速度で動画生成AIの進化が止まりません。次々と登場する新しいAI技術が、コンテンツ制作の世界に革命をもたらしています。
これまでは専門的なスキルや高価な機材が必要だった動画制作が、今や誰でも手軽に、そして高品質に実現できるようになってきています。

ここでは、特に注目されている6つの動画生成AIを比較し、それぞれの特徴や生成結果の違いについて詳しく見ていきます。
最新の技術がどのように私たちの日常やビジネスに役立つのか、本記事を読んでぜひ検討してみてください。

Runway Gen-3 Alphaが2024年7月2日にリリースされました。こちらも検証でき次第、追記してまいります。

動画生成AIとは

動画生成AIとは、AIを使用してテキストプロンプトや画像から自動的に動画コンテンツを作成する技術です。ユーザーの入力に基づいて、さまざまな種類の動画を生成することができます。
現在、多くの動画生成AIは短い動画のみ生成可能ですが、短い動画を繋ぎ合わせることで長い動画を作成することも可能です。

動画生成AIの登場により、専門的な技術や高価な機材がなくてもアイデアを素早く視覚化し、動画コンテンツを作成することが可能になりました。
2023年以前では、人間が意図しない破綻の多い動画でした。しかし、2024年に入って技術の進歩により、破綻もだいぶ少なくなってきています。

動画生成AIの仕組み

イメージを即座に可視化することのできる動画生成AIですが、主な仕組みについては下記のとおりです。

①機械学習モデル

大規模な動画データセットを使用して訓練された深層学習モデルが核となります。これらのモデルは、画像生成AIの技術を基盤としつつ、時間軸に沿った一貫性を保つように拡張されています。

②テキスト解析

ユーザーが入力したテキストプロンプトを解析し、そこから動画の内容、スタイル、ムードなどを抽出します。

③フレーム生成

テキスト解析の結果に基づいて、連続した画像フレームを生成します。各フレームは前後のフレームとの整合性を保ちながら作成されます。

④モーション生成

静止画フレーム間の動きを計算し、滑らかな動きを作り出します。これには、オプティカルフローや補間技術が使用されます。

⑤後処理

生成された動画の品質を向上させるため、ノイズ除去、色調整、解像度向上などの処理が行われます。

この技術の発展により、個人や企業が簡単に高品質な動画コンテンツを作成できるようになり、クリエイティブな表現の可能性が大きく広がっています。
最近では、Xに投稿されたアニメワンピースの実写再現が話題になりました。

https://twitter.com/Mr_AllenT/status/1803088229572251979

一部の高度なAIは、動画に合わせた効果音やBGMも生成して統合することも可能になってきています。

https://twitter.com/GoogleDeepMind/status/1802733643992850760

話題の動画生成AIの種類と特徴

ここでは大きな話題となっている6つの動画生成AIをピックアップしてご紹介していきます。これ以外にも動画生成AIなるものはありますが、自動で動画を編集してくれるもの、特定のジャンルに特化した動画生成AIなどは含まないものとします。

あくまで、ユーザーが入力したプロンプトをもとに、あるいは画像を元にした動画生成AIに絞ってご紹介します。

Sora / Open AI

Soraは OpenAI が開発した最新の動画生成 AI です。テキストプロンプトから最大1分間の高品質な動画を生成できます。

特徴

長時間（最大60秒）の一貫した動画生成
複雑な動きや複数のシーンを含む動画生成
生成した動画の時間を前後に延長
異なる動画でも違和感のないトランジションを実現
Minecraftなどのデジタル世界をシミュレート
ドローンで撮影したかのようなダイナミックな動画の生成

2024年2月に発表されたばかりで、一般公開はされていません。リリース日も未定になっています。現在は、研究者や安全性の専門家によるテストが進行中です。

Soraについての詳細は下記の記事でもまとめていますので、ぜひこちらもご覧ください。

Kaiber / Kaiber Studio

Kaiberは、創造的な動画生成AIで、特に芸術的な表現や実験的な映像制作に適しています。特にスタイル転送機能によって、独特なスタイルによって画像から動画を生成することに長けています。

特徴

画像からの動画生成
動画や画像のスタイルを別の動画に適用
音楽に合わせた動画生成
テキスト入力による動画の内容や雰囲気の指定
ブラウザベースの使いやすいUI
イラスト系で強い生成能力がある

他の動画生成AIが現実的な映像を目指す傾向がある中、Kaiberは抽象的で創造的な表現に重点を置いています。特に視覚芸術家やミュージシャン、人とは異なる独特な映像を創りたいクリエイターに人気です。

すでに一般ユーザーでも使用することができ、1日に生成できる回数が制限されている無料版と有料版が用意されています。

▶ Kaiber 公式HP

Dream Machine / Luma AI

3Dモデルの生成に強みを持つLuma AIは動画生成が可能なDream Machine、3Dモデルの生成が可能なGENIE、動画から3Dモデルを生成可能なInteractive sceneのサービスを持っています。

Dream Machineは、3D技術と動画生成AIの融合により、従来の2D生成AIとは異なるアプローチで高品質な動画生成を実現。特に3D空間の理解と生成に強みを持っています。

特徴

テキストや画像から5秒（120フレーム）の滑らかな動画を生成
物理を考慮した一貫性のある動画を生成
流動的な画や映画のようなカメラモーションを実現
登録から利用が誰でも簡単
スマホアプリからでも生成が可能

Dream Machineは無料でも十分に使用することができ、毎月30本までの動画生成が可能です。有料版も存在し、月の生成本数が増加します。

他の動画生成AIでは、まだリリースのみで使用できない、特定の国の電話番号で登録しないといけないなどの制約が多いものです。しかし、Dream Machineは誰でも簡単に利用でき、2024年6月現在では最も簡単に使用できる動画生成AIだと言えるでしょう。

▶ Luma Dream Machine 公式HP

Pika / Pika Labs

動画の生成から既存の動画の拡張まで、生成だけでなく編集機能も充実しているのがPikaです。Pika ではテキストプロンプトから短い動画クリップを生成可能です。

特徴

直感的なテキスト入力による動画生成
既存の画像や動画からの編集・拡張機能
多様なスタイルやジャンルの動画生成が可能
音響効果の追加にも対応

無料プランでも毎日3本の動画生成が可能です。動画内のオブジェクトの動きや背景の変更など「もっとこうなったら良いのに」というのを実現できる、痒いところに手が届くような動画生成AIになっています。

▶ Pika 公式HP

KLING / Kuaishou

「リアルな動画生成」を追求しているのが、中国の企業Kuaishouが提供しているKLINGです。1枚の画像からダンス動画に仕上げるなど、動画生成だけでなく様々な機能を備えています。

特徴

テキストや画像からの動画生成
1080pで30フレームの高品質動画を生成
物理エンジンを搭載してリアルを追求
豊富なテンプレートとカスタマイズオプション
スマホアプリ(快影)から利用可能

2024年6月現在ではウィッシュリストに登録して、順次使用できるようになっています。
また、中国の電話番号がないとアプリへの登録ができません。中国の電話番号の取得は日本国内にいては難しいでしょう。筆者は中国人の友人にお願いして登録してもらいました。

▶ KLING 公式HP

Gen-3 Alpha / Runway

Runwayが開発した Gen-3 Alphaは、高度な動画編集と生成が可能な AI ツールです。Runwayは画像生成や3Dモデルの生成など、様々なAIツールを兼ね備えたプラットフォームです。その中にある動画生成技術がGenというものです。

現在では、Gen2が使用できますが、今後展開されるGen3 Alphaは現実の忠実度や一貫性が改善され、一般世界モデルの構築に向けた第一歩とRunwayは発表しています。

特徴

テキストや画像からの動画生成
既存の動画の拡張や編集機能
前後の時間関係を明確にしたカメラワーク
体の動きや表情が豊かな人物の生成

Gen-3 Alphaは発表されたのみで、まだ使用することはできません。しかし、その前のモデルであるGen-2は今すぐに利用することが可能です。

無料でも使用することはできますが、クレジットの制限があり生成できる本数に限りがあります。際限なく生成するには有料プランへの契約が必要です。

▶ Runway 公式HP

▶ Gen-3 Alpha リリース

AIで実際に動画生成して比較してみた

今話題の動画生成AIをご紹介してきましたが、実際にどれくらいのクオリティの動画が生成されるのでしょうか。各公式HPを見れば、生成された動画は見られます。しかし、HPに掲載されるくらいのハイクオリティの動画が誰もが簡単にできるわけではないでしょう。

ここでは、実際に筆者が全て同じプロンプトで生成した一発出しの動画を公開します。Soraで使用されたプロンプトを他の動画生成AIにも適用して生成します。Soraはまだ使用できないため、公式が発表した動画を掲載しています（なので当然クオリティが高いです）。
また、RunwayのGen-3 Alphaはまだ使用できないため、Gen-2で生成しています。ただし、Gen-2とGen-3 Alphaでは相当な差があるので、正確には比較できないと思ってください。

動画① プロンプト

A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

動画② プロンプト

Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. The art style is 3D and realistic, with a focus on lighting and texture. The mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with wide eyes and open mouth. Its pose and expression convey a sense of innocence and playfulness, as if it is exploring the world around it for the first time. The use of warm colors and dramatic lighting further enhances the cozy atmosphere of the image.

動画③ プロンプト

A close up view of a glass sphere that has a zen garden within it. There is a small dwarf in the sphere who is raking the zen garden and creating patterns in the sand

どの動画生成AIがおすすめ？

上記の動画を見て判断すると、現状すぐ使えて、リアルに寄せた動画を生成できるのはDream MachineとKLINGだと言えるでしょう。
ただし、KLINGは中国の電話番号が必要という制約があるので、日本人が利用しやすいのはDream Machineでしょう。

Pikaは比較してみると、たしかにプロンプトは守られているものの、実写の映像というよりもアニメーションに近いように思います。モンスターのCGアニメーションのような動画では、プロンプトはある程度守られていますが、他の動画生成AIと比較するとリアリスティックな細かい描写は少なく感じます。

Kaiberはそもそもが視覚芸術的な生成に特化していることもあり、カメラで撮影したような映像というより「画像を動かして動画にした」という印象を受けます。

Gen-2もどちらかというとKaiberに近く、現実に近い動画ではスタイルが変わっています。CGアニメーションに寄せた動画ではきちんと動画のように滑らかに動いているものの、モンスターの顔が変わるなどの破綻が見られます。
Gen-3 Alphaのデモ動画を見る限りでは、一貫性の保たれたリアルな映像になるかもしれません。

動画生成AIの今後の活用について

動画生成AIの登場により、コンテンツ制作の世界が大きく変わろうとしています。ここでは、この革新的な技術がどのように私たちの日常や仕事に影響を与えるのか、具体的な活用例を交えて見ていきましょう。

マーケティングの革新

動画生成AIは、マーケティング戦略に新たな可能性をもたらします。

例えば、ある化粧品ブランドが新製品を発表する際、顧客の肌タイプや好みに合わせてパーソナライズされた商品紹介動画を瞬時に作成できるようになるかもしれません。

これにより、一人一人の顧客に寄り添った効果的なマーケティングが可能になります。

教育コンテンツの充実

教育分野では、動画生成AIが学習体験を豊かにする可能性があります。

例えば、歴史の授業で世界各国の文化や出来事を視覚的に再現したり、科学の授業で複雑な実験過程をわかりやすく示したりすることができます。

生徒の理解度や興味に合わせて、瞬時にカスタマイズされた教材を作成することも可能になるでしょう。

エンターテインメントの新境地

映画やアニメーション制作においても、動画生成AIは大きな変革をもたらします。

例えば、監督のアイデアをすぐさま視覚化し、複数のシナリオを比較検討することが可能になります。
また、CGやVFXの制作時間を大幅に短縮し、クリエイターがより創造的な作業に集中できるようになるでしょう。

個人クリエイターの台頭

YouTubeやTikTokなどのプラットフォームでは、個人クリエイターが動画生成AIを駆使して、プロ顔負けの高品質なコンテンツを制作できるようになります。

前項と似ていますが、これまではCGやVFXを個人のクリエイターが行うと膨大な時間がかかっていましたが、AIに任せることでクリエイターが自身の創作活動にかける時間も増やせるでしょう。

そのような意味では、個人のクリエイターの表現の幅も広がると言えます。

ビジネスコミュニケーションの進化

企業内のコミュニケーションも、動画生成AIによって大きく変わる可能性があります。

例えば、社内研修や新製品の説明会など、従来は膨大な時間とリソースを要していた動画制作が、AIの力で効率化されます。
また、海外拠点とのコミュニケーションにおいて、リアルタイムで言語変換された動画を生成し、言語の壁を越えたスムーズな情報共有が可能になるかもしれません。

動画生成AIに残る課題

動画生成AIは急速に進化していますが、まだ多くの課題が残されています。これらの課題を克服することで、より幅広い活用が期待できるでしょう。ここでは、主な課題とその影響について考察します。

画質と一貫性の向上

現在の動画生成AIでは、短い動画クリップの生成は可能ですが、長時間の一貫した高画質動画の作成には課題が残っています。例えば、人物の顔や細かい動作が不自然に変化したり、背景要素が突然変わったりすることがあります。

この問題が解決されれば、映画やTVシリーズなどの長尺コンテンツ制作にも本格的に活用できるようになるでしょう。技術の進歩により、より自然で魅力的な映像表現が可能になることが期待されます。

著作権と倫理的問題

AIが生成した動画の著作権や、既存の映像を学習データとして使用することの是非など、法的・倫理的な課題が存在します。また、ディープフェイク技術の悪用による偽情報の拡散も懸念されています。

他にも、倫理的な課題としては学習モデルに偏りがあることで、生成される動画にも偏りがでてしまうことも考えられます。特定の人種や性別、文化的背景が過度に強調されたり、逆に軽視されたりする問題も起こり得るでしょう。

これらの問題への解決のために、明確なガイドラインや法整備、偏りのない正しいデータ活用が必要ですが、まだまだ追いついていないのが実情です。同時に、AIの出力の背景チェックを容易にする技術や、生成されたコンテンツの真偽を判断するツールの開発も求められていると言えます。

制御性と創造性のバランス

現状の動画生成AIでは、ユーザーの意図通りの細かい制御が難しい場合があります。
例えば、特定のキャラクターの動きや表情、シーンの雰囲気などを細部まで思い通りにコントロールすることは容易ではありません。

クリエイターの創造性最大限に活かすためには、これも課題となってくることでしょう。

生成AIで動画の可能性が広がる！

動画生成AIの登場により、私たちのコンテンツ制作や消費の在り方が大きく変わろうとしています。
高度な技術や高価な機材がなくても、アイデア次第で誰もが魅力的な動画を作れるようになるでしょう。一方で、著作権や倫理的問題、技術的な課題もまだ残されています。
これらをクリアにしていく中で、誰もが動画生成AIを自由に使えるようになり、より表現の幅を広げて発信できるようになれるのかもしれません。

Team HNESHINでは、AIに関する様々な情報を発信しています。ぜひ他の記事もご覧ください。
また、AIのビジネス活用やクリエイティブの制作にも力を入れているので、気になる方は弊社のサービスもご覧いただけますと幸いです。

▶ Team HENSHINのAIサービス

この記事の監修者