OpenAIは現在、12営業日連続で新サービスやアップデートを発表する「12 Days of OpenAI」を開催中。9日目となる2024年12月16日、開発者がAIを活用したサービスやアプリケーションを作るために必要不可能な「API」に関する大幅な機能強化が発表されました。
本記事では、「12 Days of OpenAI」9日目で、開発者向けに発表された内容を、わかりやすく解説します。ぜひ最後までご覧ください。
「12 Days of OpenAI」とは
OpenAIは2024年12月5日から、12営業日連続で新機能や新製品を発表する「12 Days of OpenAI」を開催しています。クリスマスソング「12 Days of Christmas」にちなんで名付けられた企画で、CEOのサム・アルトマン氏自らがライブ配信で新機能を紹介しています(サム・アルトマン氏は毎回出演するわけではありません)。
Day8までの発表内容は以下のとおりです。
- Day1:最新モデル「o1」正式リリースとChatGPT Pro(月額200ドル)発表
- Day2:強化学習型ファインチューニング機能の実装
- Day3:動画生成AI「Sora」の正式リリース
- Day4:Canvas機能の全ユーザー開放と機能強化
- Day5:Apple製品との完全統合を発表。iPhoneやMac、iPadでSiriを通じてChatGPTを利用可能に
- Day6:Advanced Voice Modeにビデオ機能を追加
- Day7:Projects機能の追加。チャットの整理とカスタマイズが可能に
- Day8:検索機能の大幅強化。リアルタイムの情報へのアクセスを改善
開発者向け「Mini Dev Day」の発表内容とは
12 Days of OpenAI の9日目は、開発者向けの特別イベント「Mini Dev Day」と銘打っての発表でした。「Dev Day」とは、開発者(デベロッパー)のための発表会のことです。
以下では「Mini Dev Day」で開発者向けに発表された内容を、生成AIに詳しくない方でもわかりやすいように解説します。
1. o1 APIの一般公開で開発の可能性が広がる
OpenAIは、最新のAIモデル「o1」を開発者が自由に利用できるように、APIを公開しました。
o1は、ChatGPTの最新版で使われている高性能なAIモデル。従来のモデルと比べて、より賢く、より正確な応答が可能です。12 Days of OpenAIでアップデートされた画像認識機能では、写真や図表を理解し、それに基づいた応答ができます。
o1モデルのAPIが公開されたことにより、より高性能なAIモデルを活用したソフトやアプリケーションの開発が可能になりました。具体的な活用例として、レシートの写真を撮影すると、支出内容を自動で分析して家計簿に記録するアプリケーションの開発や、高度な画像認識機能を活用して、製造業などの正確な品質チェックツールなどの開発が可能になります。
2. リアルタイム音声APIで開発の手間を大幅に削減
OpenAIは「リアルタイム音声API」も大きく進化させました。
まず注目すべきは、WebRTC技術を導入したことにより「リアルタイム音声API」を活用したアプリ開発が簡単になったことです。WebRTC技術とは、ウェブブラウザやモバイルアプリで、リアルタイムに音声や映像データのやり取りを可能にする技術です。WebRTC技術を活用すれば簡単に音声アプリなどを開発できます。
さらに、音声処理の料金体系も見直され、GPT-4oの音声処理コストが60%値下げされました。また、処理速度が速く軽量な「GPT-4o Mini」も、GPT-4oの10分の1の価格で利用できます。用途に応じて最適なモデルを選べるため、開発コストの大幅な削減が可能です。
OpenAIの公式YouTubeでは、小型のマイクロコンピュータ(1円玉ほどの大きさの小さなコンピュータ)にAI機能を組み込み、音声で会話するぬいぐるみも披露されました。このように、音声APIの進化により、スマートスピーカーやウェアラブルデバイス、家庭内のAIアシスタントなど、さまざまな製品開発の可能性が広がります。
3.「Preference Fine-Tuning」機能の公開
OpenAIは、AIを自分好みに「育てる」ことができる新機能「Preference Fine-Tuning」を公開しました。
Preference Fine-Tuningとは、AIに「どちらの回答が良いか」を教えることで、望ましい応答ができるように調整する新しい学習方法です。たとえば「より親しみやすい応答にしたい」と考えた場合、以下のような2つの“望ましい例”と“望ましくない例”を用意します。
望ましい例:「おはようございます!今日も素敵な一日になりますように」
望ましくない例:「おはようございます。今日もよろしくお願いします」
このように2つの回答を比較しながらAIに「こちらの方が良い応答だよ」と教えることで、AIは徐々に望ましい応答パターンを学習していきます。
この機能を使うと、以下のようなカスタマイズが可能です。
- より自然な会話調に調整
- 企業の文体ガイドラインに合わせた応答スタイルの統一
- 専門用語の使用頻度の調整
- 親しみやすさと礼儀正しさのバランス調整
従来の学習方法(教師あり学習)では「これが正解」という形で一つ一つ教える必要がありました。しかし、Preference Fine-Tuningでは「AとBではAの方が良い」という形で教えるだけでOK。より直感的にAIの応答を調整できるようになりました。
まとめ
「12 Days of OpenAI」9日目の発表は、開発者向けの重要な機能強化が中心でした。o1 APIの一般公開により、より高度なAIアプリケーションの開発が可能になりますし、リアルタイム音声APIの強化とコスト削減は、音声AIアシスタントをより身近なものにするでしょう。
また、AIのカスタマイズ機能の進化により、さまざまなニーズに合わせたサービスが誕生するかもしれません。今回の発表のようにAI開発の環境が整えば、一般ユーザーの私生活やビジネスも、より効率化できます。今後の発表に注目しつつ、便利なツールを使いこなせるように知識をつけていきましょう。
AIメディアライター・植田遊馬
Webライター歴4年目。ChatGPTの登場で生成AIの可能性に衝撃を受け「生成AIオタク」に。さまざまな生成AIを駆使しながらライター業を営む傍ら「多くの人に生成AIの魅力を伝えたい!」という想いで、生成AI系メディアでの記事執筆を行っている。
生成AIによる専門文書の精密な翻訳ソリューション
T-4OOは、LLM (大規模言語モデル) を用いた画期的な翻訳アルゴリズムにより、従来のNMTモデルとの比較で文脈や語調・書き振りをより自然に反映しながら、専門用語や参考文献に基づいた高い翻訳精度を実現。
細分化された2000の分野に対応し、ビジネス・研究開発の専門文書の翻訳など、様々なシーンで活用されてます。
「T-4OO」の機能と特徴
- 専門2000分野・100言語をカバー
- スキャン画像PDFも丸ごと翻訳
- 社内・業界フレーズを自動学習
- Web上でラクラク訳文編集
- その場で解決 電話でサポート
単に文字を翻訳するだけでいいというわけではありません。
T-4OOは、業務フローにこだわった多彩な便利機能で業務効率化を強力にサポートします。