OpenAIは2024年12月13日、同社が開催中の「12 Days of OpenAI」Day6の発表として、AIアシスタント「ChatGPT」に画期的な機能を追加しました。音声での会話に加え、カメラ映像や画面共有を通じて視覚的な情報も理解できるようになったのです。
OpenAIの公式YouTubeの動画を見る限り、人間のアシスタントのように、見て、理解して、会話できる新時代のAIツールだと感じました。
本記事では「12 Days of OpenAI」Day6の発表内容をまとめています。ぜひ最後までご覧ください。
「12 Days of OpenAI」とは?
OpenAIは2024年12月5日から、12営業日連続で新機能や新製品を発表する「12 Days of OpenAI」を開催しています。クリスマスソング「12 Days of Christmas」にちなんで名付けられた企画で、CEOのサム・アルトマン氏自らがライブ配信で新機能を紹介しています(ライブ配信に出演していない日もあります)。
Day5までの発表内容は以下のとおりです。
- Day1:最新モデル「o1」正式リリースとChatGPT Pro(月額200ドル)発表
- Day2:強化学習型ファインチューニング機能の実装
- Day3:動画生成AI「Sora」の正式リリース
- Day4:Canvas機能の全ユーザー開放と機能強化
- Day5:Apple製品との完全統合を発表。iPhoneやMac、iPadでSiriを通じてChatGPTを利用可能に
【Day 6の発表内容】ビデオ&画面共有が可能に!
従来より、アプリ版のChatGPTの音声アシスタント「Advanced Voice Mode」が実装されていましたが、今回の新機能は、ビデオと画面共有機能です。スマートフォンのカメラを通じて映像を取り込み、リアルタイムで状況を理解しながら会話ができるようになりました。
引用元:OpenAI社公式YouTube(https://www.youtube.com/@OpenAI)
OpenAIの公式YouTube動画を見ると、Advanced Voice Modeを起動したままカメラをONにして、リアルタイムでやり取りができています(保存した動画を送信するなどの行動はしていません)。また、演者を全員映して各演者がAdvanced Voice Modeに対して自己紹介したあと「それでは、クイズを出してみましょう!トナカイの角をつけていた同僚は誰だったか覚えていますか?」と質問。問題なくトナカイの角を付けていた同僚の名前を答えていました。
本当の人間に質問しているみたいですね…。
さらにYouTube動画ではデモンストレーションが続きます。
演者が用意したのはコーヒーを淹れるための道具一式。動画でその道具たちを音声アシスタントに見せながら「コーヒーの淹れ方を教えてくれますか?」と質問します。
そうすると、動画内にある道具をしっかりと認識しながら、コーヒーの淹れ方を説明しているのです。「ゆっくり丁寧に注いでください。その方が風味を均等に抽出できます。」などと、美味しいコーヒーの淹れ方のコツなども補足情報としていれており、的確なアドバイスをしてくれます。
この機能は日常やビジネス、さまざまな場所で活用できそうですね。パソコンを全く知らない初心者の人がパソコン教室に通うように、カメラでパソコン画面を見せながら、音声アシスタントに操作方法を教えてもらうなどの活用もできそうです。
ちなみに、クリスマスシーズン限定で「サンタモード」の音声アシスタントも追加されました。OpenAIらしい、遊び心のある発表ですね。
新機能の利用方法
新機能を利用するには、ChatGPTアプリの最新版へのアップデートが必要です(利用は有料プランユーザーが優先されます)。最新版へのアップデートが完了したら、会話画面下部の「Advanced Voice Mode」ボタンをタップし、ビデオまたは画面共有のアイコンを選択します。カメラ使用の許可を与えると、すぐに映像を通じた会話が始められます。
ただし、2024年12月13日時点で、筆者がアプリを最新版へアップデートしても「ビデオまたは画面共有のアイコン」は表示されませんでした。ユーザーによっては、まだ数日待つ必要があるかもしれませんね。
サンタモードは、ホーム画面のスノーフレークアイコンから簡単にアクセスできます。また、ChatGPT設定画面からも選択可能です。
今後の展望
Advanced Voice Modeへの視覚機能の追加により、AIアシスタントの活用シーンは大きく広がります。料理のレシピ指導、DIYの手順説明、スポーツフォームの改善アドバイスなど、実生活のさまざまな場面でAIの支援が受けられるようになるでしょう。
教育分野では、生徒が数学の問題を見せながら質問したり、実験の様子を撮影しながらアドバイスを受けたりと、個別指導の可能性が広がります。
筆者の体感ですと、これから「〇〇教室」といったビジネスは、どんどんAIに置き換わっていくと感じます。これから世界がどのように変化していくのか、本当に楽しみです。
まとめ
ChatGPTへの視覚機能の追加は、AIアシスタントの可能性を大きく広げました。音声だけでなく、映像や画面も理解できるようになったことで、より直感的で自然なコミュニケーションが実現するでしょう。
現在はチームユーザーとPlus/Proユーザーが優先的に利用できますが、将来的には多くのユーザーがアクセスできるようになる見込みです。
また「12 Days of OpenAI」の発表も折り返しとなりました。あと6つの発表となりましたが、どんな発表があるのかとても楽しみです。
AIメディアライター・植田遊馬
Webライター歴4年目。ChatGPTの登場で生成AIの可能性に衝撃を受け「生成AIオタク」に。さまざまな生成AIを駆使しながらライター業を営む傍ら「多くの人に生成AIの魅力を伝えたい!」という想いで、生成AI系メディアでの記事執筆を行っている。
生成AIによる専門文書の精密な翻訳ソリューション
T-4OOは、LLM (大規模言語モデル) を用いた画期的な翻訳アルゴリズムにより、従来のNMTモデルとの比較で文脈や語調・書き振りをより自然に反映しながら、専門用語や参考文献に基づいた高い翻訳精度を実現。
細分化された2000の分野に対応し、ビジネス・研究開発の専門文書の翻訳など、様々なシーンで活用されてます。
「T-4OO」の機能と特徴
- 専門2000分野・100言語をカバー
- スキャン画像PDFも丸ごと翻訳
- 社内・業界フレーズを自動学習
- Web上でラクラク訳文編集
- その場で解決 電話でサポート
単に文字を翻訳するだけでいいというわけではありません。
T-4OOは、業務フローにこだわった多彩な便利機能で業務効率化を強力にサポートします。