
OpenAIは2025年1月23日(米国時間)、Webブラウザを直接操作してタスクを実行するAIエージェント『Operator』を発表しました。従来のチャットAIが文章での応答に特化していたのに対し、Operatorはマウスやキーボードを使用して直接ブラウザを操作し、実際のタスクを遂行可能です。これまでユーザー自身が行っていたフォーム入力や予約、注文などの日常的なオンラインタスクを、すべてAIに任せられるようになることで、大幅に時間を節約できるようになります。
本記事では、Operatorの概要や料金体系、セキュリティ対策について詳しく解説します。ぜひ最後まで記事をご覧ください。
Operatorとは
Operatorは、OpenAIが開発した新しいタイプのAIエージェントで、クラウド上の仮想ブラウザを使用してWebタスクを実行できます。
従来のAIツールでは、Webサイトと連携するためには、そのサイト専用のAPI(プログラムの連携用インターフェース)が必要でした。例えば、レストランの予約サイトと連携するには、そのサイトが提供するAPIを使用する必要があり、APIが提供されていないサイトでは自動化が困難でした。
一方、Operatorは画面の表示内容を人間のように認識し、マウスとキーボードの操作を模倣することで、APIの有無に関係なく、Webサイトを操作できます。具体的には、ブラウザ画面のスクリーンショットを分析し、ボタンの位置を特定してクリックしたり、入力フォームを見つけて文字を入力したり、人間と同等の作業が可能です。
Computer-Using Agent (CUA)モデル
Operatorは、Computer-Using Agent (CUA)という特殊な技術を搭載しています。CUAは、人間がコンピュータを操作する方法を学習し、それを再現できるAIです。
たとえば、人間が新しいスマートフォンの使い方を覚えるように、CUAモデルもコンピュータの画面を見て「これはボタンだ」「ここをクリックすると次の画面に進める」といった判断ができます。
CUAの特徴は、以下3つの能力を組み合わせている点です:
1.見る力
GPT-4oの視覚認識技術により、画面の内容を理解できます。人間が目で見て情報を得るように、AIも画面から情報を読み取ります。
2.考える力
強化学習により、次にどんな操作をすべきか判断可能です。例えば「予約をするためには、まず日付を選んで、次に時間を選ぶ必要がある」といった手順を理解できます。
3.操作する力
マウスのクリックやキーボード入力といった基本的なコンピュータ操作を実行できます。人間が手でマウスを動かすように、AIも正確な位置でクリックできます。
Operatorは、上記のようなCUAの能力を組み合わせることで、人間がコンピュータを操作する際の「見て」「考えて」「操作する」という一連の流れを再現しています。
Operatorの主な機能
基本的なブラウザ操作機能
Webサイトの閲覧、検索、スクロールといった基本的な操作を自動で行います。例えば「〇〇予約サイトで今晩8時のレストランを予約して」と指示すると、予約サイトにアクセスし、条件に合う席を探してくれます。
操作引き継ぎ機能
ログインやパスワード入力など、セキュリティが重要な場面では、自動的にユーザーに操作を引き継ぎます。
また、ユーザーはいつでも手動で操作を引き継ぐことができ、必要な修正を加えた後で再びAIに制御を戻すことも可能です。例えば、買い物カートの商品数を急遽変更したいときなど、柔軟に対応できます。
マルチタスク処理機能
複数の作業を同時に進めることができます。例えば、食料品の注文をしながら、別のブラウザでコンサートのチケットを予約するといった並行作業が可能です。
各タスクの進行状況は個別に確認でき、必要に応じて個々のタスクで操作を引き継ぐこともできます。
カスタマイズ機能
特定のWebサイトに対して、ユーザー独自の設定や指示を保存できます。例えば「Booking.comでは必ずキャンセル無料のプランを選択する」といった指示を事前に設定しておくことで、予約時に自動的にその条件を考慮してくれます。
Operatorの現状と制限事項
Operatorは現在(2025年1月時点)、試験運用段階(research preview)として提供されており、いくつかの制限事項があります。ここでは「現在利用可能な機能」と「制限されている機能」を紹介します。
現在利用可能な機能
OpenAIは、現時点でOperatorが以下のようなWeb操作を安定して実行できることを確認しています。
- 基本的なWeb操作:Webサイトの閲覧、検索、スクロール、リンクのクリックなど
- フォーム入力:連絡先情報や配送先情報などの定型的な入力作業
- 情報検索:指定された条件に基づくWebサイト内での情報収集
- シンプルな予約処理:レストランやイベントチケットなどの基本的な予約手続き
- オンラインショッピング:商品の検索、カートへの追加、数量の変更など
各機能は、必要に応じてユーザーが操作を引き継いで修正することも可能です。
制限事項
OpenAIは、安全性とユーザー体験の品質を確保するため、以下の操作を現時点で制限しています。
- 複雑なインターフェース操作
- カレンダーアプリケーションでの予定調整やスライドショー作成ツールの操作、高度なグラフィックデザインツールの使用など
- セキュリティ重視の操作
- オンラインバンキングの操作や株式取引、暗号資産の取引、重要な契約手続きなど
【その他の制限】
- 複雑な判断が必要な意思決定
- メール送信(誤送信防止のため)
- カレンダーイベントの削除(重要な予定の誤削除防止)
- 大規模なデータ操作
これらの制限は、ユーザーの安全性確保とサービスの信頼性向上のために設けられています。OpenAIは、フィードバックを基に段階的に機能を拡張していく方針です。
Operatorの利用料金
現在、OperatorはChatGPT Proプラン(月額200ドル)のユーザーのみが利用可能です。今後、Plus、Team、Enterpriseプランへの展開も予定されていますが、具体的な料金体系は明らかにされていません。
安全性・プライバシー保護の取り組み
「AIに自身のコンピュータを操作される」という機能は、セキュリティやプライバシーの観点で不安を感じる方もいるでしょう。OpenAIは、Operatorに以下の安全対策を実装しています。
1.ユーザー確認システム
・ 重要な操作前に必ずユーザーの承認を要求
・ 購入手続きやメール送信など、取り消しが困難な操作には特に厳格な確認プロセスを実装
2.プライバシー保護
・ ログインや支払い情報の入力時は自動的にユーザー操作に切り替え
・ 機密情報入力中はスクリーンショットを一切取得しない
3.セキュリティ対策
・ 悪意のあるWebサイトからの攻撃を検知・ブロック
・ プロンプトインジェクション(AIへの不正な命令)の監視
・ 自動的な安全性チェックシステムの導入
これらの対策により、ユーザーは安全にOperatorを利用できます。ただ、まだリリースされたばかりのresearch preview版なので、プライバシーや安全性に関わる作業をする際は、慎重に行いましょう。
日本ではいつから使える?今後のサービス展開は?
現在、Operatorは米国のProユーザーのみが利用可能です。日本を含む他の地域への展開時期は明確に示されていませんが、OpenAIは段階的な展開を計画しています。
今後の主な展開予定として、具体的には以下が発表されています。
- CUAモデルのAPI公開
- Plus、Team、Enterpriseユーザーへのアクセス拡大
- ChatGPTへの機能統合
- より複雑なワークフローへの対応強化
現在、Operatorの展開は慎重に進められており、各地域での安全性確認やユーザーフィードバックを重視しています。日本でのサービス開始時期は未定ですが、OpenAIは各地域の法規制やプライバシー保護要件に配慮しながら、グローバル展開を進めていく方針を示しています。
まとめ
本記事では、OpenAIが発表した自律型AIエージェント「Operator」について解説しました。Webブラウザを直接操作できる革新的な機能を持つOperatorは、日常的なオンラインタスクの自動化を実現するでしょう。
現在は米国のProユーザーのみが利用可能ですが、いずれ日本でも利用できるはずです。今後の展開を期待しつつ、今のうちにAIエージェントの基礎知識を身につけておきましょう。

AIメディアライター・植田遊馬
Webライター歴4年目。ChatGPTの登場で生成AIの可能性に衝撃を受け「生成AIオタク」に。さまざまな生成AIを駆使しながらライター業を営む傍ら「多くの人に生成AIの魅力を伝えたい!」という想いで、生成AI系メディアでの記事執筆を行っている。
生成AIによる専門文書の精密な翻訳ソリューション
T-4OOは、LLM (大規模言語モデル) を用いた画期的な翻訳アルゴリズムにより、従来のNMTモデルとの比較で文脈や語調・書き振りをより自然に反映しながら、専門用語や参考文献に基づいた高い翻訳精度を実現。
細分化された2000の分野に対応し、ビジネス・研究開発の専門文書の翻訳など、様々なシーンで活用されてます。

「T-4OO」の機能と特徴
- 専門2000分野・100言語をカバー
- スキャン画像PDFも丸ごと翻訳
- 社内・業界フレーズを自動学習
- Web上でラクラク訳文編集
- その場で解決 電話でサポート
単に文字を翻訳するだけでいいというわけではありません。
T-4OOは、業務フローにこだわった多彩な便利機能で業務効率化を強力にサポートします。