OpenAIは12月20日「12 Days of OpenAI」の最終日となるDay12で、新たなAIモデル「o3」と「o3-mini」を発表しました。o3は数学、プログラミング、推論などあらゆる分野で人間の専門家を上回る性能を示し、AGI(汎用人工知能)のベンチマークでも史上最高スコアを記録。単なる進化にとどまらない、AIの新時代の幕開けを予感させる発表となりました。
本記事では「12 Days of OpenAI」最終日の発表内容を解説します。新機能について詳しく知りたい方は、ぜひ最後までご覧ください。
「12 Days of OpenAI」とは
OpenAIは2024年12月5日から、12営業日連続で新機能や新製品を発表する「12 Days of OpenAI」を開催しています。クリスマスソング「12 Days of Christmas」にちなんで名付けられた企画で、CEOのサム・アルトマン氏自らがライブ配信で新機能を紹介しています(サム・アルトマン氏は毎回出演するわけではありません)。
Day11までの発表内容は以下のとおりです。
- Day1:最新モデル「o1」正式リリースとChatGPT Pro(月額200ドル)発表
- Day2:強化学習型ファインチューニング機能の実装
- Day3:動画生成AI「Sora」の正式リリース
- Day4:Canvas機能の全ユーザー開放と機能強化
- Day5:Apple製品との完全統合を発表。iPhoneやMac、iPadでSiriを通じてChatGPTを利用可能に
- Day6:Advanced Voice Modeにビデオ機能を追加
- Day7:Projects機能の追加。チャットの整理とカスタマイズが可能に
- Day8:検索機能の大幅強化。リアルタイムの情報へのアクセスを改善
- Day9:開発者向け機能の強化。アプリケーション開発がより簡単に
- Day10:電話とWhatsAppを通じたChatGPTの利用が可能に
- Day11:Mac版ChatGPTアプリがBBEditやMatLabなどのアプリと連携可能に
o3モデルとは
o3は、OpenAIの最新AIモデルで、o1の次世代モデルとして開発されました。スペインの通信業者“Telefonica”のブランド「O2」との混同を避けるため「o3」という名称になったとのことです。
性能面では、あらゆるベンチマークで驚異的な結果を示しています。プログラミングの分野では、競技プログラミングサイト「Codeforces」で2727 Eloという、トッププログラマーを超えるスコアを達成。数学では、PhD(博士)レベルの問題集「GPQA」で87.7%の正答率を記録し、従来の最高記録を大幅に更新しました。
特に注目すべきは「Frontier Math」での成績です。Frontier Mathは、Epic AIが開発した数学ベンチマークで、未発表の新しい数学の問題のみで構成されています。一問解くのに数時間から数日かかるような難問ばかりで、プロの数学者でも苦戦する内容。従来のAIモデルは2%程度の正答率でしたが、o3は25.2%という驚異的な成績を収めました。
暗記や既存の解法の応用だけでは解けない問題で高い正答率を示したことは、従来のAIモデルとは推論能力が桁違いであることがわかります。
o3-miniモデルとは
o3-miniは、o3の小型版として開発された効率重視のモデルです。3段階の「思考時間」設定(低・中・高)を備えていることで、ユーザーは問題の複雑さに応じて適切な処理時間を選択できます。
性能面では、プログラミングや数学のベンチマークでo1-miniを大きく上回る結果を示しています。特筆すべきは、低い思考時間設定でもo1-miniと同等以上の性能を発揮し、中程度の設定ではo1本体に匹敵する結果を出せることです。
また、開発者向けの機能も充実しており、構造化出力や関数呼び出しなどのAPI機能をサポート。OpenAIの公式YouTube動画では、Python言語での開発や自己評価プログラムの作成など、実践的な用途での有用性も示されました。o3-miniは、コストパフォーマンスを重視するユーザーに最適な選択肢となりそうです。
o3モデルでは安全性が向上した?
OpenAIは新たな安全性強化技術「Deliberative Alignment」を導入し、安全性の向上にも力を入れています。従来の安全対策が単純な「安全or危険」の判断だったのに対し、Deliberative Alignmentはモデルの推論能力を活用して、より深い文脈理解に基づく判断を行います。
たとえば、ユーザーの質問の背後にある意図を分析し、悪意のある要求を適切に検知・拒否できるようになりました。OpenAIによると「拒否すべき内容の判断精度と、受け入れるべき内容の判断精度の両方が向上している」とのことです。
現在、OpenAIは2025年1月10日まで研究者向けに「安全性テストプログラムの参加者」を募集中です。研究者たちは実際にモデルを使用し、潜在的な問題点や改善点を探ることができます。
o3・o3-minモデルはいつから使える?
OpenAIは2025年1月末にo3-miniの一般提供を開始し、その後すぐにo3の提供を開始する予定です。ただし、具体的な提供開始日は安全性テストの結果次第で変更される可能性があります。
o3モデルが示す今後の展望
o3は、AGIの能力を測定する「ARC-AGI」ベンチマークで最大87.5%のスコアを達成しました。人間の平均が85%であることを考えると、AIが人間レベルの知能に近づいていることを示唆しています。AGI(Artificial General Intelligence:汎用人工知能)とは、人間のように柔軟に思考し、さまざまな問題を解決できるAIを指します。
この結果は、2025年にはAIが人間の能力を超える可能性を示唆しており、社会や産業に大きな変革をもたらすかもしれません。2025年は競合モデルも含めて「AIモデルの進化」に注目する必要があるでしょう。
まとめ
「ARC-AGI」ベンチマークの結果を見る限り、OpenAIの新モデル「o3」と「o3-mini」は、AIの進化が加速していることを明確に示す画期的な発表となりました。「12 Days of OpenAI」の最終日にはどのような発表があるのかとワクワクしていましたが、予想通り大きな発表がありましたね。2024年はさまざまなAI関連の発表がありましたが、年末にOpenAIがさらに楽しませてくれました。
また、2025年1月末からのo3-mini提供開始を皮切りに、他社からも続々とAIモデルが発表されるでしょう。今後のAI関連のニュースに、引き続き注目しましょう。
AIメディアライター・植田遊馬
Webライター歴4年目。ChatGPTの登場で生成AIの可能性に衝撃を受け「生成AIオタク」に。さまざまな生成AIを駆使しながらライター業を営む傍ら「多くの人に生成AIの魅力を伝えたい!」という想いで、生成AI系メディアでの記事執筆を行っている。
生成AIによる専門文書の精密な翻訳ソリューション
T-4OOは、LLM (大規模言語モデル) を用いた画期的な翻訳アルゴリズムにより、従来のNMTモデルとの比較で文脈や語調・書き振りをより自然に反映しながら、専門用語や参考文献に基づいた高い翻訳精度を実現。
細分化された2000の分野に対応し、ビジネス・研究開発の専門文書の翻訳など、様々なシーンで活用されてます。
「T-4OO」の機能と特徴
- 専門2000分野・100言語をカバー
- スキャン画像PDFも丸ごと翻訳
- 社内・業界フレーズを自動学習
- Web上でラクラク訳文編集
- その場で解決 電話でサポート
単に文字を翻訳するだけでいいというわけではありません。
T-4OOは、業務フローにこだわった多彩な便利機能で業務効率化を強力にサポートします。