Googleの動画生成AI「Veo」が登場　Google I/O 2024で発表

投稿日： 2024年05月15日 17:12 更新日： 2024年05月15日 17:19

Googleが最新の動画生成モデル「Veo」を発表しました。Veoは、高品質な1080p解像度の動画を生成できます。この記事では、Veoの特徴や映像制作への影響、実際の活用例について詳しく見ていきます。

VeoはGoogleの開発者向けイベント「Google I/O 2024」で発表されました。Google I/Oで発表された他の新機能やアップデートについては、こちらの記事を参照してください。

Google I/O 2024の発表内容まとめ

2024年5月15日（日本時間）に開催されたGoogle I/O 2024では、GoogleのAIの情報を中心とした発表が行われました。Googleは、長年にわたるAIへの投資と研究開発の成果を披露し、AIモデル「Gemini」を中心とした新たな製品とサービスを発表しました。

Veoとは？

Veoは、テキストプロンプトから正確にニュアンスやトーンを捉える動画生成AIです。たとえば、タイムラプスや風景の空撮など、さまざまなシネマティックエフェクトを理解し、それに対応したビデオを生成できます。また、複雑なシーンの中で微細なディテールを描写することにも優れています。

類似の技術には、OpenAIが開発した「Sora」があります。Veoが発表されたGoogle I/O 2024の前日には、OpenAIの新しい言語モデル「GPT-4o」が発表されています。

GPT-4o発表！OpenAI Spring Updateの発表内容まとめ

5月14日午前2時（日本時間）から、OpenAIは「Spring Update」と題し、GPT-4関連の新機能についてのライブ配信を実施しました。この記事では、OpenAIがライブ配信で発表したSpring Updateの内容についてまとめます。

GPT-4oの概要から使い方まで徹底解説！OpenAIの次世代フラッグシップモデル

2024年5月13日、OpenAIは次世代のフラッグシップモデルであるGPT-4oを発表しました。この記事では、GPT-4oの概要から使い方までを徹底解説します。

Veoができること

Veoは、入力とする動画に編集コマンドを与えることで、新しい動画を生成できます。たとえば、海岸線の空撮ビデオにカヤックを追加するような編集も可能です。また、マスク編集機能を利用することで、特定のエリアのみを変更することもできます。さらに、画像を入力として使用し、テキストプロンプトと組み合わせて動画を生成することもできます。

Veoは、教育者にとっても非常に有用です。教育目的のビデオを簡単に制作でき、よりインタラクティブで魅力的な教材を作成する手助けになります。また、ストーリーテリングの手段としても活用でき、クリエイターが自分のアイデアを具体的な映像作品として表現しやすくなります。

Veoの仕組み

Veoは、高度な言語理解と視覚的セマンティクスにもとづいて開発されています。これにより、テキストプロンプトと視覚的な情報を正確に解釈し、統一感のあるシーンを生成できます。また、Veoは潜在拡散トランスフォーマー（Latent Diffusion Transformers）を用いて、フレーム間の一貫性を維持し、視覚的連続性を高めています。

Googleは、Generative Query Network（GQN）、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet、LumiereなどにもとづいてVeoを構築したとのことです。これらの技術により、Veoはより効率的かつ高品質なビデオを生成できます。

またVeoは、AI生成コンテンツ向けの電子透かし技術の「SynthID」や安全フィルター、プライバシー・著作権リスクの軽減策を導入しています。

Veoを使う方法

Googleは、今後数週間以内に新しい実験ツール「VideoFX」を通じて、Veoの一部の機能をクローズドベータで提供すると発表しています。アメリカに拠点を置く18歳以上のユーザーは、こちらからウェイティングリストに登録できます。

Googleは今後、Veoの機能をYouTube Shortsなど他のGoogle製品にも組み込む予定としています。これにより、より多くのユーザーのクリエイティブな活動を支援することが期待されます。

まとめ

Googleの動画生成AI「Veo」は、高品質なビデオを生成できる新しいツールです。Veoは、テキストプロンプトから正確なニュアンスやトーンを捉え、さまざまなシネマティックエフェクトを理解し、それに対応したビデオを生成できます。教育やクリエイターの活動を支援するため、GoogleはVeoの機能を他の製品にも組み込む予定です。

参考

Veo - Google DeepMind

ろぼいん

Twitter Misskey GitHub Qiita

生まれた時から、母国語よりも先にJavaScriptを使っていました。ネットの海のどこにもいなくてどこにでもいます。

Webフロントエンドプログラマーで、テクノロジーに関する話題を追いかけています。動画編集やプログラミングが趣味で、たまにデザインなどもやっています。主にTypeScriptを使用したWebフロントエンド開発を専門とし、便利で実用的なブラウザー拡張機能を作成しています。また、個人ブログを通じて、IT関連のニュースやハウツー、技術的なプログラミング情報を発信しています。