TOP ナレッジ OpenAIが発表した自律型AIエージェント『Operator』とは?概要や利用料金などを徹底解説 

knowledgeナレッジ

OpenAIが発表した自律型AIエージェント『Operator』とは?概要や利用料金などを徹底解説 

January 30, 2025

  • AI
  • Share
OpenAIが発表した自律型AIエージェント『Operator』とは?

OpenAIは2025年1月23日(米国時間)、Webブラウザを直接操作してタスクを実行するAIエージェント『Operator』を発表しました。従来のチャットAIが文章での応答に特化していたのに対し、Operatorはマウスやキーボードを使用して直接ブラウザを操作し、実際のタスクを遂行可能です。これまでユーザー自身が行っていたフォーム入力や予約、注文などの日常的なオンラインタスクを、すべてAIに任せられるようになることで、大幅に時間を節約できるようになります。 

本記事では、Operatorの概要や料金体系、セキュリティ対策について詳しく解説します。ぜひ最後まで記事をご覧ください。 

Operatorとは

Operatorは、OpenAIが開発した新しいタイプのAIエージェントで、クラウド上の仮想ブラウザを使用してWebタスクを実行できます。 

従来のAIツールでは、Webサイトと連携するためには、そのサイト専用のAPI(プログラムの連携用インターフェース)が必要でした。例えば、レストランの予約サイトと連携するには、そのサイトが提供するAPIを使用する必要があり、APIが提供されていないサイトでは自動化が困難でした。 

一方、Operatorは画面の表示内容を人間のように認識し、マウスとキーボードの操作を模倣することで、APIの有無に関係なく、Webサイトを操作できます。具体的には、ブラウザ画面のスクリーンショットを分析し、ボタンの位置を特定してクリックしたり、入力フォームを見つけて文字を入力したり、人間と同等の作業が可能です。 

Computer-Using Agent (CUA)モデル

Operatorは、Computer-Using Agent (CUA)という特殊な技術を搭載しています。CUAは、人間がコンピュータを操作する方法を学習し、それを再現できるAIです。 

たとえば、人間が新しいスマートフォンの使い方を覚えるように、CUAモデルもコンピュータの画面を見て「これはボタンだ」「ここをクリックすると次の画面に進める」といった判断ができます。 

CUAの特徴は、以下3つの能力を組み合わせている点です:

1.見る力 

GPT-4oの視覚認識技術により、画面の内容を理解できます。人間が目で見て情報を得るように、AIも画面から情報を読み取ります。 

2.考える力 

強化学習により、次にどんな操作をすべきか判断可能です。例えば「予約をするためには、まず日付を選んで、次に時間を選ぶ必要がある」といった手順を理解できます。 

3.操作する力 

マウスのクリックやキーボード入力といった基本的なコンピュータ操作を実行できます。人間が手でマウスを動かすように、AIも正確な位置でクリックできます。 

Operatorは、上記のようなCUAの能力を組み合わせることで、人間がコンピュータを操作する際の「見て」「考えて」「操作する」という一連の流れを再現しています。 

Operatorの主な機能

基本的なブラウザ操作機能

Webサイトの閲覧、検索、スクロールといった基本的な操作を自動で行います。例えば「〇〇予約サイトで今晩8時のレストランを予約して」と指示すると、予約サイトにアクセスし、条件に合う席を探してくれます。 

操作引き継ぎ機能

ログインやパスワード入力など、セキュリティが重要な場面では、自動的にユーザーに操作を引き継ぎます。 

また、ユーザーはいつでも手動で操作を引き継ぐことができ、必要な修正を加えた後で再びAIに制御を戻すことも可能です。例えば、買い物カートの商品数を急遽変更したいときなど、柔軟に対応できます。 

マルチタスク処理機能

複数の作業を同時に進めることができます。例えば、食料品の注文をしながら、別のブラウザでコンサートのチケットを予約するといった並行作業が可能です。 

各タスクの進行状況は個別に確認でき、必要に応じて個々のタスクで操作を引き継ぐこともできます。 

カスタマイズ機能

特定のWebサイトに対して、ユーザー独自の設定や指示を保存できます。例えば「Booking.comでは必ずキャンセル無料のプランを選択する」といった指示を事前に設定しておくことで、予約時に自動的にその条件を考慮してくれます。 

Operatorの現状と制限事項

Operatorは現在(2025年1月時点)、試験運用段階(research preview)として提供されており、いくつかの制限事項があります。ここでは「現在利用可能な機能」と「制限されている機能」を紹介します。 

現在利用可能な機能

OpenAIは、現時点でOperatorが以下のようなWeb操作を安定して実行できることを確認しています。 

  • 基本的なWeb操作:Webサイトの閲覧、検索、スクロール、リンクのクリックなど 
  • フォーム入力:連絡先情報や配送先情報などの定型的な入力作業 
  • 情報検索:指定された条件に基づくWebサイト内での情報収集 
  • シンプルな予約処理:レストランやイベントチケットなどの基本的な予約手続き 
  • オンラインショッピング:商品の検索、カートへの追加、数量の変更など 

各機能は、必要に応じてユーザーが操作を引き継いで修正することも可能です。 

制限事項

OpenAIは、安全性とユーザー体験の品質を確保するため、以下の操作を現時点で制限しています。 

  • 複雑なインターフェース操作 
    • カレンダーアプリケーションでの予定調整やスライドショー作成ツールの操作、高度なグラフィックデザインツールの使用など 
  • セキュリティ重視の操作 
    • オンラインバンキングの操作や株式取引、暗号資産の取引、重要な契約手続きなど 

【その他の制限】 

  • 複雑な判断が必要な意思決定 
  • メール送信(誤送信防止のため) 
  • カレンダーイベントの削除(重要な予定の誤削除防止) 
  • 大規模なデータ操作 

これらの制限は、ユーザーの安全性確保とサービスの信頼性向上のために設けられています。OpenAIは、フィードバックを基に段階的に機能を拡張していく方針です。 

Operatorの利用料金

現在、OperatorはChatGPT Proプラン(月額200ドル)のユーザーのみが利用可能です。今後、Plus、Team、Enterpriseプランへの展開も予定されていますが、具体的な料金体系は明らかにされていません。 

安全性・プライバシー保護の取り組み

「AIに自身のコンピュータを操作される」という機能は、セキュリティやプライバシーの観点で不安を感じる方もいるでしょう。OpenAIは、Operatorに以下の安全対策を実装しています。 

1.ユーザー確認システム 

 ・ 重要な操作前に必ずユーザーの承認を要求 

 ・ 購入手続きやメール送信など、取り消しが困難な操作には特に厳格な確認プロセスを実装 

2.プライバシー保護 

 ・ ログインや支払い情報の入力時は自動的にユーザー操作に切り替え 

 ・ 機密情報入力中はスクリーンショットを一切取得しない 

3.セキュリティ対策 

 ・ 悪意のあるWebサイトからの攻撃を検知・ブロック 

 ・ プロンプトインジェクション(AIへの不正な命令)の監視 

 ・ 自動的な安全性チェックシステムの導入 

これらの対策により、ユーザーは安全にOperatorを利用できます。ただ、まだリリースされたばかりのresearch preview版なので、プライバシーや安全性に関わる作業をする際は、慎重に行いましょう。 

日本ではいつから使える?今後のサービス展開は?

現在、Operatorは米国のProユーザーのみが利用可能です。日本を含む他の地域への展開時期は明確に示されていませんが、OpenAIは段階的な展開を計画しています。 

今後の主な展開予定として、具体的には以下が発表されています。 

  • CUAモデルのAPI公開 
  • Plus、Team、Enterpriseユーザーへのアクセス拡大 
  • ChatGPTへの機能統合 
  • より複雑なワークフローへの対応強化 

現在、Operatorの展開は慎重に進められており、各地域での安全性確認やユーザーフィードバックを重視しています。日本でのサービス開始時期は未定ですが、OpenAIは各地域の法規制やプライバシー保護要件に配慮しながら、グローバル展開を進めていく方針を示しています。 

まとめ

本記事では、OpenAIが発表した自律型AIエージェント「Operator」について解説しました。Webブラウザを直接操作できる革新的な機能を持つOperatorは、日常的なオンラインタスクの自動化を実現するでしょう。 

現在は米国のProユーザーのみが利用可能ですが、いずれ日本でも利用できるはずです。今後の展開を期待しつつ、今のうちにAIエージェントの基礎知識を身につけておきましょう。 

AIメディアライター植田遊馬

Webライター歴4年目。ChatGPTの登場で生成AIの可能性に衝撃を受け「生成AIオタク」に。さまざまな生成AIを駆使しながらライター業を営む傍ら「多くの人に生成AIの魅力を伝えたい!」という想いで、生成AI系メディアでの記事執筆を行っている。

生成AIによる専門文書の精密な翻訳ソリューション

T-4OOは、LLM (大規模言語モデル) を用いた画期的な翻訳アルゴリズムにより、従来のNMTモデルとの比較で文脈や語調・書き振りをより自然に反映しながら、専門用語や参考文献に基づいた高い翻訳精度を実現。

細分化された2000の分野に対応し、ビジネス・研究開発の専門文書の翻訳など、様々なシーンで活用されてます。

「T-4OO」の機能と特徴

  • 専門2000分野・100言語をカバー
  • スキャン画像PDFも丸ごと翻訳
  • 社内・業界フレーズを自動学習
  • Web上でラクラク訳文編集
  • その場で解決 電話でサポート

単に文字を翻訳するだけでいいというわけではありません。
T-4OOは、業務フローにこだわった多彩な便利機能で業務効率化を強力にサポートします。

T-4OOの詳細を確認す

  • Share
一覧へ