TOP ナレッジ OpenAI、ChatGPT o1のAPIを一般公開!開発者向けに発表された「Mini Dev Day」の概要を解説!

knowledgeナレッジ

OpenAI、ChatGPT o1のAPIを一般公開!開発者向けに発表された「Mini Dev Day」の概要を解説!

December 21, 2024

  • AI
  • Share
Mini Dev Dayの概要

OpenAIは現在、12営業日連続で新サービスやアップデートを発表する「12 Days of OpenAI」を開催中。9日目となる2024年12月16日、開発者がAIを活用したサービスやアプリケーションを作るために必要不可能な「API」に関する大幅な機能強化が発表されました。 

本記事では、「12 Days of OpenAI」9日目で、開発者向けに発表された内容を、わかりやすく解説します。ぜひ最後までご覧ください。 

「12 Days of OpenAI」とは

OpenAIは2024年12月5日から、12営業日連続で新機能や新製品を発表する「12 Days of OpenAI」を開催しています。クリスマスソング「12 Days of Christmas」にちなんで名付けられた企画で、CEOのサム・アルトマン氏自らがライブ配信で新機能を紹介しています(サム・アルトマン氏は毎回出演するわけではありません)。 

Day8までの発表内容は以下のとおりです。 

開発者向け「Mini Dev Day」の発表内容とは

12 Days of OpenAI の9日目は、開発者向けの特別イベント「Mini Dev Day」と銘打っての発表でした。「Dev Day」とは、開発者(デベロッパー)のための発表会のことです。 

以下では「Mini Dev Day」で開発者向けに発表された内容を、生成AIに詳しくない方でもわかりやすいように解説します。 

1. o1 APIの一般公開で開発の可能性が広がる

OpenAIは、最新のAIモデル「o1」を開発者が自由に利用できるように、APIを公開しました。 

o1は、ChatGPTの最新版で使われている高性能なAIモデル。従来のモデルと比べて、より賢く、より正確な応答が可能です。12 Days of OpenAIでアップデートされた画像認識機能では、写真や図表を理解し、それに基づいた応答ができます。 

o1モデルのAPIが公開されたことにより、より高性能なAIモデルを活用したソフトやアプリケーションの開発が可能になりました。具体的な活用例として、レシートの写真を撮影すると、支出内容を自動で分析して家計簿に記録するアプリケーションの開発や、高度な画像認識機能を活用して、製造業などの正確な品質チェックツールなどの開発が可能になります。 

2. リアルタイム音声APIで開発の手間を大幅に削減

OpenAIは「リアルタイム音声API」も大きく進化させました。 

まず注目すべきは、WebRTC技術を導入したことにより「リアルタイム音声API」を活用したアプリ開発が簡単になったことです。WebRTC技術とは、ウェブブラウザやモバイルアプリで、リアルタイムに音声や映像データのやり取りを可能にする技術です。WebRTC技術を活用すれば簡単に音声アプリなどを開発できます。 

さらに、音声処理の料金体系も見直され、GPT-4oの音声処理コストが60%値下げされました。また、処理速度が速く軽量な「GPT-4o Mini」も、GPT-4oの10分の1の価格で利用できます。用途に応じて最適なモデルを選べるため、開発コストの大幅な削減が可能です。 

OpenAIの公式YouTubeでは、小型のマイクロコンピュータ(1円玉ほどの大きさの小さなコンピュータ)にAI機能を組み込み、音声で会話するぬいぐるみも披露されました。このように、音声APIの進化により、スマートスピーカーやウェアラブルデバイス、家庭内のAIアシスタントなど、さまざまな製品開発の可能性が広がります。 

3.「Preference Fine-Tuning」機能の公開

OpenAIは、AIを自分好みに「育てる」ことができる新機能「Preference Fine-Tuning」を公開しました。 

Preference Fine-Tuningとは、AIに「どちらの回答が良いか」を教えることで、望ましい応答ができるように調整する新しい学習方法です。たとえば「より親しみやすい応答にしたい」と考えた場合、以下のような2つの“望ましい例”と“望ましくない例”を用意します。 

望ましい例:「おはようございます!今日も素敵な一日になりますように」 

望ましくない例:「おはようございます。今日もよろしくお願いします」 

このように2つの回答を比較しながらAIに「こちらの方が良い応答だよ」と教えることで、AIは徐々に望ましい応答パターンを学習していきます。 

この機能を使うと、以下のようなカスタマイズが可能です。 

  • より自然な会話調に調整 
  • 企業の文体ガイドラインに合わせた応答スタイルの統一 
  • 専門用語の使用頻度の調整 
  • 親しみやすさと礼儀正しさのバランス調整 

従来の学習方法(教師あり学習)では「これが正解」という形で一つ一つ教える必要がありました。しかし、Preference Fine-Tuningでは「AとBではAの方が良い」という形で教えるだけでOK。より直感的にAIの応答を調整できるようになりました。 

まとめ

「12 Days of OpenAI」9日目の発表は、開発者向けの重要な機能強化が中心でした。o1 APIの一般公開により、より高度なAIアプリケーションの開発が可能になりますし、リアルタイム音声APIの強化とコスト削減は、音声AIアシスタントをより身近なものにするでしょう。 

また、AIのカスタマイズ機能の進化により、さまざまなニーズに合わせたサービスが誕生するかもしれません。今回の発表のようにAI開発の環境が整えば、一般ユーザーの私生活やビジネスも、より効率化できます。今後の発表に注目しつつ、便利なツールを使いこなせるように知識をつけていきましょう。 

AIメディアライター植田遊馬

Webライター歴4年目。ChatGPTの登場で生成AIの可能性に衝撃を受け「生成AIオタク」に。さまざまな生成AIを駆使しながらライター業を営む傍ら「多くの人に生成AIの魅力を伝えたい!」という想いで、生成AI系メディアでの記事執筆を行っている。

生成AIによる専門文書の精密な翻訳ソリューション

T-4OOは、LLM (大規模言語モデル) を用いた画期的な翻訳アルゴリズムにより、従来のNMTモデルとの比較で文脈や語調・書き振りをより自然に反映しながら、専門用語や参考文献に基づいた高い翻訳精度を実現。

細分化された2000の分野に対応し、ビジネス・研究開発の専門文書の翻訳など、様々なシーンで活用されてます。

「T-4OO」の機能と特徴

  • 専門2000分野・100言語をカバー
  • スキャン画像PDFも丸ごと翻訳
  • 社内・業界フレーズを自動学習
  • Web上でラクラク訳文編集
  • その場で解決 電話でサポート

単に文字を翻訳するだけでいいというわけではありません。
T-4OOは、業務フローにこだわった多彩な便利機能で業務効率化を強力にサポートします。

T-4OOの詳細を確認す

  • Share
一覧へ