Google DeepMind「Gemini Omni」とは？動画生成AIは品質競争へ

Google DeepMindが、次世代の生成AIモデル「Gemini Omni」を発表しました。公式Xでは「anything from anything（あらゆる入力から、あらゆるものを作る）」という表現とともに、まずは動画領域から展開すると紹介されています。

今回の発表で注目すべき点は、単に「自然言語で動画を編集できる」ことだけではありません。より重要なのは、動画生成AIの出力品質が、実務での検証やクリエイティブ制作に使える水準へ近づいていることです。

これまでの動画生成AIは、短い映像を作れる一方で、人物の一貫性、動きの自然さ、物理表現、細部の安定性、編集後の破綻などに課題が残っていました。Gemini Omniは、これらの課題に対して、Google DeepMindがGeminiの推論能力と生成メディア技術を組み合わせて取り組んだモデルと位置づけられます。

AI動画生成の品質が自然な動き、一貫性、物理表現、編集耐性の面で進化するイメージ

注目点は、会話編集よりも「生成品質の進化」

Gemini Omniは、生成した動画に対して自然言語で追加指示を出し、段階的に編集できるモデルです。この点は重要ですが、会話で編集できること自体は、あくまで制作体験の変化です。

実務でより重要なのは、編集の前提となる動画そのものの品質です。出力される映像の品質が低ければ、自然言語で何度修正できても、広告、SNS、LP、採用広報、教育コンテンツなどには使いにくいままです。

Gemini Omniの価値は、会話編集の利便性と、動画として成立する品質の向上が組み合わさっている点にあります。つまり「作れる」だけでなく、「修正しながら使える品質に近づけられる」ことが重要です。

品質面で見るべき4つのポイント

動画生成AIの品質を評価するうえで、特に重要なのは次の4点です。

自然な動き：人物や物体の動きが不自然に崩れず、映像として違和感が少ないこと
一貫性：キャラクター、背景、世界観が複数カットや編集後も保たれること
物理表現：重力、反射、流体、光、接触などが映像内で自然に見えること
編集耐性：追加指示や複数回の修正を行っても、映像全体の整合性が崩れにくいこと

Googleの発表では、Gemini Omniがキャラクターの一貫性、物理表現、前後の文脈保持を重視していることが説明されています。これは、単発のデモ映像ではなく、制作プロセスの中で使えるモデルを目指していることを示しています。

Gemini Omniとは何か

Gemini Omniは、Google DeepMindが発表したマルチモーダル生成モデルです。Google DeepMindのモデルページでは「Create anything from any input – starting with video」と説明されています。

テキストだけでなく、画像、動画、音声といった複数の素材を入力として扱い、それらを組み合わせて新しい動画を生成・編集することを目指しています。現時点では動画が中心ですが、Googleは今後、画像や音声など他の出力モダリティにも対応していくと説明しています。

最初に提供されるモデルは「Gemini Omni Flash」で、Geminiアプリ、Google Flow、YouTube Shorts、YouTube Create Appに順次展開されます。

会話編集は、品質を維持できて初めて価値を持つ

Gemini Omniでは、既存の動画や生成した動画に対して「背景を変える」「登場人物の動きは残す」「照明を調整する」「カメラアングルを変える」といった指示を、自然言語で重ねることができます。

ただし、この機能の本質は、編集操作が簡単になることだけではありません。制作現場では、一度の出力で完成するケースは多くありません。必ず、見せ方、テンポ、構図、訴求、ブランドトーンの調整が入ります。

そのため、AI動画生成で実務利用に近づくには、修正を重ねても映像の品質や一貫性が崩れにくいことが重要です。Gemini Omniが目指しているのは、この反復制作のプロセスを自然言語で扱えるようにすることだと考えられます。

複数の入力を組み合わせられる意味

Gemini Omniのもう一つの特徴は、入力の幅が広いことです。公式ブログでは、画像、テキスト、動画、音声を組み合わせて、ひとつの出力動画に変換できると説明されています。

たとえば、キャラクター画像、参考動画の動き、音楽のビート、目指したい映像スタイルを組み合わせ、新しい動画を生成するような使い方が想定されます。

これは、実際の制作現場で行われる「参考素材を集め、方向性を共有し、編集を重ねる」プロセスに近いものです。AIがテキストだけでなく複数の素材を理解し、出力に反映できるようになることで、動画制作の初期工程は大きく変わる可能性があります。

Google Flow、YouTube Shortsへの展開

Gemini Omni Flashは、Geminiアプリ、Google Flow、YouTube Shorts、YouTube Create Appに順次展開されます。

Google Flowでは、映像制作者向けにOmni Flashを使った会話型の動画制作・編集が可能になります。Google Flow Musicでは、楽曲の雰囲気や展開に合わせて、共有可能なミュージックビデオを会話で演出できるようになると発表されています。

YouTube側では、Shorts RemixやYouTube Create AppにGemini Omniが導入されます。既存のShortsをもとに、テキストプロンプトや画像を追加し、別のスタイルや場面へリミックスできるようになる見込みです。

ビジネスへの影響は、動画制作の検証速度にある

Gemini Omniのようなモデルが普及すると、動画制作は「専門チームに依頼して完成物を待つもの」から、「事業側が仮説検証のために素早く作り、改善するもの」へ変わっていきます。

重要なのは、単に動画を大量生産できることではありません。一定以上の品質で動画を作れるようになることで、広告、SNS、LP、営業資料、採用広報などで、実際に検証に使えるクリエイティブを短時間で用意できるようになることです。

新商品の訴求、ターゲット別の見せ方、導入事例の表現、採用候補者向けのメッセージなど、動画で検証したい仮説は多くあります。AI動画の品質が上がるほど、こうした仮説検証のスピードは大きく変わります。

人間に求められる役割

AIの動画生成品質が上がるほど、人間の役割は「編集操作」から「意図設計」と「判断」へ移っていきます。

AIは映像を生成できますが、事業の前提、顧客の課題、購買までの心理、ブランドとしての言い方、法務・倫理面の判断までは、人間側の設計が必要です。

これからの動画活用では、編集ソフトの操作スキルだけでなく、顧客理解、ストーリー設計、仮説検証、データを見た改善判断がより重要になります。AIが制作の手を速くするほど、事業側の意図設計が成果を分けるようになります。

生成AI動画の透明性も重要になる

Googleは、Gemini Omniで生成された動画に、不可視のデジタル透かし「SynthID」を含めると説明しています。また、Geminiアプリ、Chrome内のGemini、Google検索などを通じて、Gemini Omniで生成された動画かどうかを確認できるようにする方針です。

動画生成AIが一般化すると、広告やクリエイティブ制作が速くなる一方で、フェイク動画、なりすまし、著作権、肖像権といった課題も大きくなります。生成技術と同時に、透明性や検証の仕組みが重要になります。

まとめ

Gemini Omniのポイントは、「会話で動画を編集できる」ことだけではありません。より大きいのは、動画生成AIの出力品質が、実務利用を前提にできる水準へ近づいていることです。

自然な動き、人物やシーンの一貫性、物理表現、複数素材の参照、反復編集への耐性。これらが組み合わさることで、動画制作は「作れるかどうか」から「どれだけ速く検証し、改善できるか」へ論点が移っていきます。

今後、動画制作は編集ソフトを操作できる人だけのものではなく、意図を言語化し、AIと対話しながら品質を詰められる人のものになっていくはずです。Gemini Omniは、その変化を示す重要な発表だと言えます。

サービス

メニュー