OpenAIがブラウザー操作を自動化するAI「Operator」を発表

サムネイル
画像:OpenAI

OpenAIは、AIがネット上のさまざまなブラウザー操作を自動化する「Operator」を発表しました。Operatorは、GPT-4oの高い認識能力と高度な推論を組み合わせることで、何気ないWeb操作をそのままAIに任せられるようにするものです。

Operatorの特徴

Play

従来のチャットボットやAIアシスタントは、テキストベースで指示や問い合わせに応じるだけにとどまっていました。一方、Operatorの場合は、人間が画面を見て操作するのと同じように「視覚」と「操作」の両面に対応している点が大きな特徴です。

Operatorは、スクリーンショットをもとにブラウザーの画面レイアウトを理解し、マウスクリックやテキスト入力、スクロールといった操作をします。

OpenAIが「Computer-Using Agent(CUA)」と呼ぶモデルによって実現されており、普段のWebサイトの閲覧やフォーム入力、決済などを、ほぼそのままの形で代理で実行できるとのことです。

これまでの音声アシスタントや会話型AIは、あくまでAPIベースで外部サービスと連携し、限定的なタスクをこなすケースが主流でした。

ところが、Operatorはブラウザーに映し出されるあらゆるWebサイトに対応できる可能性があります。

専用のAPIを用意しなくても、画面上のボタンを押したり、フォームに入力したり、リンクをたどるといった人間の操作をまねするわけです。

Operatorを使うためには、「してほしいタスク」を文章で説明します。するとOperatorは自律的にブラウザーを開き、ユーザーが指定したサイトにアクセスし、必要な入力項目やボタンを探して操作を進めます。

ログイン情報の入力やクレジットカード番号の入力などが必要になる場合は、Operatorがユーザーに「ここはあなたが直接入力してください」と交代を促す仕組みになっています。

機密性の高い操作や決済に関連する部分では、AIが勝手に実行することはなく、ユーザーのコントロールが優先されます。

また、Operatorは「うまくいかない」「わからない」といった状態になると、自動的にユーザーにヘルプを求めます。サイトによってはCAPTCHAの入力が必要だったり、フォームがエラーになったりすることも考えられます。そんなときは必要に応じて手動で操作を再開できます。

Operatorの料金と使い方

Operatorは現在、研究プレビューという形で米国のChatGPT Proユーザーに提供されており、対象ユーザーはoperator.chatgpt.comから利用できます。将来的には、ChatGPT Plus、Team、Enterpriseなどのユーザーレベルにも拡大される予定です。

つまり、記事執筆時点ではOperatorは日本では利用できず、米国でも一部の有料ユーザーに限られているという状態です。

ChatGPTの有料プランの価格や各プランの違いについては、こちらの記事で紹介しています。

安全性とプライバシー保護

個人情報を入力する必要がある場面では必ずユーザーの手動操作に切り替えるモードが用意されており、AIが勝手に入力や送信することはないとのことです。また、購買や契約、メール送信など重要なアクションを完了させる直前には、確認を求める仕組みが導入されています。

さらに、Operatorが作業中に取得するスクリーンショットや操作ログなどのデータは、必要に応じてまとめて削除できるよう配慮されています。ワンクリックで閲覧履歴を削除し、同時に関連サイトからログアウトする機能もあります。

アカウント設定で学習へのデータ利用をオプトアウトしていれば、Operatorでの操作履歴もモデル学習に利用されることはないと説明されています。オプトアウトの方法は、こちらの記事で紹介しています。

まとめ

Operatorは、AIがWebブラウザーを操作することで、ユーザーの代理としてさまざまなタスクをこなせる新しい機能です。AIが画面を見て操作するという点で、従来のチャットボットや音声アシスタントとは異なる特徴を持っています。

Operatorは、現在はChatGPT Proユーザー向けの研究プレビューとして提供されており、将来的には他のプランにも拡大される予定です。

参考リンク

#AI#ChatGPT#OpenAI#ニュース#解説
Xに共有する Blueskyに共有する Misskeyに共有する LINEに共有する Threadsに共有する

おすすめアイテム

※このリンクを経由して商品を購入すると、当サイトの運営者が報酬を得ることがあります。詳細はこちら

著者のアイコン画像

生まれた時から、母国語よりも先にJavaScriptを使っていました。ネットの海のどこにもいなくてどこにでもいます。

Webフロントエンドプログラマーで、テクノロジーに関する話題を追いかけています。動画編集やプログラミングが趣味で、たまにデザインなどもやっています。主にTypeScriptを使用したWebフロントエンド開発を専門とし、便利で実用的なブラウザー拡張機能を作成しています。また、個人ブログを通じて、IT関連のニュースやハウツー、技術的なプログラミング情報を発信しています。