Googleのオープンな視覚言語モデル「PaliGemma」が登場 Google I/O 2024で発表
Googleが新たに、オープンなビジョン言語モデル(VLM)の「PaliGemma」を発表しました。このモデルは、視覚情報と言語情報を理解し、画像や短い動画のキャプションの生成、視覚的質問への応答、画像内のテキストの認識、物体検出、セグメンテーションといった多様なタスクに対応可能です。
PaliGemmaは、Googleの開発者向けイベント「Google I/O 2024」で発表されました。Google I/O 2024で発表された他の新機能やアップデートについては、こちらの記事を参照してください。
PaliGemmaとは?
PaliGemmaは、PaLI-3にインスパイアされ、SigLIPビジョンモデルとGemma言語モデルを統合した、オープンなビジョン言語モデル(VLM:Visual Language Model)です。多岐にわたる視覚・言語タスクで優れたパフォーマンスを発揮するよう設計されています。
PaLI-3は、画像とテキストの統合理解を提供するモデルで、SigLIPは視覚的特徴の抽出を専門とするモデルです。一方、Gemmaは高度な言語理解を担当するモデルです。この3つのモデルが統合されることで、PaliGemmaは従来のVLMに比べてより深い分析と洞察を提供することが可能となっています。
Googleのオープンな大規模言語モデル(LLM:Large Language Model)の「Gemma」については、こちらの記事で紹介しています。
PaliGemmaの最大のメリットは、マルチモーダルに対応している点です。これにより、画像と言語の両方を同時に理解し、幅広いタスクに利用できます。
また、PaliGemmaが発表されたGoogle I/O 2024の前日には、OpenAIが新しいマルチモーダルAI「GPT-4o」を発表しています。
PaliGemmaを使う方法
PaliGemmaは、Hugging FaceやKaggleからダウンロードでき、Google Colabノートブックやローカルで利用可能です。複数の解像度で事前学習されたチェックポイントとファインチューニング済みのチェックポイントが提供されています。
- PaliGemma:さまざまなタスクでファインチューニングできる汎用できな事前学習済みモデル
- PaliGemma-FT:研究データセットに微調整された研究目的モデル
また、Googleは学術研究者を支援しており、Google Cloudのクレジットを利用することで、PaliGemmaを活用した高度な研究が可能です。学術研究をしている場合は、Google Cloudクレジットをこちらから申請できます。
Googleによると、paligemma-3b-mix
を除くPaliGemmaモデルは、有用な結果を生成するためにファインチューニングを必要とするとのことです。エンドユーザーにデプロイする前に、ファインチューニングして出力を確認することが推奨されています。
まとめ
Googleのオープンなビジョン言語モデル「PaliGemma」は、視覚情報と言語情報を統合し、さまざまなタスクに対応可能なモデルです。PaLI-3、SigLIP、Gemmaの3つのモデルを統合することで、より深い分析と洞察を提供します。PaliGemmaは、Hugging FaceやKaggleからダウンロードでき、Google Cloudのクレジットを利用することで高度な研究が可能です。