Googleのオープンな視覚言語モデル「PaliGemma」が登場 Google I/O 2024で発表

#AI#Google#ニュース#解説
投稿日: 更新日:

Googleが新たに、オープンなビジョン言語モデル(VLM)の「PaliGemma」を発表しました。このモデルは、視覚情報と言語情報を理解し、画像や短い動画のキャプションの生成、視覚的質問への応答、画像内のテキストの認識、物体検出、セグメンテーションといった多様なタスクに対応可能です。

PaliGemmaは、Googleの開発者向けイベント「Google I/O 2024」で発表されました。Google I/O 2024で発表された他の新機能やアップデートについては、こちらの記事を参照してください。

PaliGemmaとは?

PaliGemmaを実行しているHuggingFace Spaceのスクリーンショット
画像:「Introducing PaliGemma, Gemma 2, and an Upgraded Responsible AI Toolkit - Google Developers Blog」より

PaliGemmaは、PaLI-3にインスパイアされ、SigLIPビジョンモデルとGemma言語モデルを統合した、オープンなビジョン言語モデル(VLM:Visual Language Model)です。多岐にわたる視覚・言語タスクで優れたパフォーマンスを発揮するよう設計されています。

PaLI-3は、画像とテキストの統合理解を提供するモデルで、SigLIPは視覚的特徴の抽出を専門とするモデルです。一方、Gemmaは高度な言語理解を担当するモデルです。この3つのモデルが統合されることで、PaliGemmaは従来のVLMに比べてより深い分析と洞察を提供することが可能となっています。

Googleのオープンな大規模言語モデル(LLM:Large Language Model)の「Gemma」については、こちらの記事で紹介しています。

記事のサムネイル
GoogleのオープンなLLM「Gemma」を使ってみた 概要から使い方まで解説
2024年2月21日、Googleはオープンな大規模言語モデル(LLM)「Gemma」をリリースしました。Gemmaは、AI開発の責任ある進化のために制作され、Googleが以前に発表したGeminiモデルと同じ研究と技術を基にしています。このモデルは、開発者と研究者がAIをより責任を持って構築するためのオープンモデルとして位置づけられています。この記事では、Gemmaについて詳しく解説したあと、実際にGemmaを使ってみます。

PaliGemmaの最大のメリットは、マルチモーダルに対応している点です。これにより、画像と言語の両方を同時に理解し、幅広いタスクに利用できます。

また、PaliGemmaが発表されたGoogle I/O 2024の前日には、OpenAIが新しいマルチモーダルAI「GPT-4o」を発表しています。

PaliGemmaを使う方法

PaliGemmaは、Hugging FaceKaggleからダウンロードでき、Google Colabノートブックやローカルで利用可能です。複数の解像度で事前学習されたチェックポイントとファインチューニング済みのチェックポイントが提供されています。

また、Googleは学術研究者を支援しており、Google Cloudのクレジットを利用することで、PaliGemmaを活用した高度な研究が可能です。学術研究をしている場合は、Google Cloudクレジットをこちらから申請できます。

Googleによると、paligemma-3b-mixを除くPaliGemmaモデルは、有用な結果を生成するためにファインチューニングを必要とするとのことです。エンドユーザーにデプロイする前に、ファインチューニングして出力を確認することが推奨されています。

まとめ

Googleのオープンなビジョン言語モデル「PaliGemma」は、視覚情報と言語情報を統合し、さまざまなタスクに対応可能なモデルです。PaLI-3、SigLIP、Gemmaの3つのモデルを統合することで、より深い分析と洞察を提供します。PaliGemmaは、Hugging FaceやKaggleからダウンロードでき、Google Cloudのクレジットを利用することで高度な研究が可能です。

参考

Twitterのアイコン LINEのアイコン Threadsのアイコン Misskeyのアイコン Misskeyのアイコン
著者のアイコン画像