GoogleのGemini APIの使い方
投稿日:
Google製の大規模言語モデル(LLM)のGeminiのAPIを使ってみたので、その使い方を紹介します。
Geminiとは
Geminiは、Googleが開発した大規模言語モデル(LLM)です。ChatGPTのように、テキストで対話できるAIです。Google I/O 2023で発表され、12月7日に公開されました。
GeminiにはUltra、Pro、Nanoの3つのサイズがあり、もっとも小さいNanoではGoogle Pixel 8 Proで動作します。また、ProはGoogle Bardの英語版のモデルとして採用されており、APIとしても利用できます。
Ultraはデモ動画が公開されており、YouTubeで閲覧できます。ただし、このデモはねつ造だったと報道されています。
Play
Gemini APIの価格
Gemini APIは記事執筆時点では1分あたり60クエリーまで、入力・出力ともに無料です。
これを超えると、入力は1,000文字あたり$0.00025、出力は1,000文字あたり$0.0005です。また、画像も入力でき、1枚あたり$0.0025です。
ChatGPTやGPT-3.5、GPT-4などのOpenAIのAPIではトークン数に応じて課金されるのに対し、Gemini APIでは文字数に応じて課金されるのが特徴です。
英語では1トークン≒1単語ですが、日本語では1トークン≒1文字です。そのため、OpenAIのAPIでは英語の方が安くなる傾向がありますが、Gemini APIでは日本語の方が安くなると思われます。
また、無料版では入力したテキストがAIの学習に利用されますが、有料版では利用されません。
Geminiの使い方
APIキーの取得
まずは、Geminiの公式サイトにアクセスし、[Get API key in Google AI Studio]をクリックします。
注意書きが表示されるので、よく読んで理解したらチェックボックスにチェックを入れて[Continue]をクリックします。3つのチェックボックスのうち、下の2つは必須ではありません。
もし、APIを使うことが目的ではなく単にGeminiを試してみたいだけなら、中央の大きなテキストボックスにテキストを入力して[Run]をクリックすれば使えます。
APIとして使いたい場合は、左上から[Get API key]をクリックします。
新しくプロジェクトを作成してAPIキーを追加するか、既存のプロジェクトにAPIキーを追加するか尋ねられるので、どちらかを選択します。
APIキーが生成されるので、コピーしておきます。APIキーは他人に知られないように注意してください。
APIを使う
ここからは、取得したAPIキーで実際にAPIを使ってみます。
ここではJavaScript(Node.js)を使います。Pythonの場合は、公式のノートブックが分かりやすいです。他のプログラミング言語を使う場合は、公式チュートリアルを参考にしてみてください。
Node.jsでGemini APIを使うには、Google AI JavaScript SDKをインストールします。
Gemini APIでは、テキストからテキストの生成と、マルチターンのチャットが用意されています。また、ここでは説明しませんが、テキストと画像からテキストの生成もできます。
テキストからテキストを生成するには、次のようにします。
スクリプトを実行します。
すると、次のようなテキストが出力されます。出力結果は実行するたびに変わります。
次に、マルチターンのチャットを試してみます。
スクリプトを実行すると、コマンドラインに[ユーザー:]と表示されるので、そこにテキストを入力してEnterキーを押します。すると、[モデル:]と表示され、AIの返答が表示されます。
実際に試したところ、次のようになりました。
また、先ほどのコードは完全に応答が返ってくるまでテキストが表示されませんが、次のようにすると応答の途中経過が表示されます。
まとめ
GoogleのGemini APIの使い方を紹介しました。Gemini APIは無料でもかなり使えるので、ぜひ試してみてください。