OpenAI社は2024年2月15日に『Sora』という動画生成AIモデルを公開しました。これまでのどの動画生成AIよりも高品質で、最長1分の動画を生成できます。
以下の動画は実際にSoraで生成された動画です。
Prompt: Historical footage of California during the gold rush.
https://openai.com/sora#capabilities
(プロンプト:ゴールドラッシュ時代のカリフォルニアの歴史的映像)
たった1文のプロンプトで、これほどまでに高品質な動画を生成してくれるのです。
今回の記事ではSoraの概要や機能、問題点について解説します。ぜひ最後までご覧ください。
Soraとは?
Soraとは、2024年2月15日にOpenAI社が公開した動画生成AIモデルです。
現時点(2024年2月時点)では、一般公開されていないものの、いずれ一般ユーザーでも使用可能になる予定です。
Soraはこれまでの動画生成AIと比べて、はるかに高品質な動画が生成可能で、最長1分までの動画を作成できます。実際に生成された下記動画を見ても、実写と見分けがつかないレベルに到達していることがわかります。
Prompt: Extreme close up of a 24 year old woman’s eye blinking, standing in Marrakech during magic hour, cinematic film shot in 70mm, depth of field, vivid colors, cinematic
https://openai.com/sora#capabilities
(プロンプト:24歳の女性のまばたきの極端なクローズアップ、マジックアワーにマラケシュに立つ、70mmで撮影された映画のようなフィルム、被写界深度、鮮やかな色彩、映画のような)
Soraは何ができる?
OpenAI社が公開した「Sora」ですが、テキストから動画を生成するだけの機能ではないようです。
どんな機能があるのか、見ていきましょう。
1.Text-to-Video
まずはText-to-Videoの機能です。テキストで指示するだけで、動画を生成してくれるという機能になります。
これまでの一般的なText-to-Videoの動画生成AIは、長くても十数秒程度の動画しか生成出来ませんでした。ところがSoraは最長1分の動画を生成し、品質も実写と見違えるほどです。
たとえば、Soraでは以下のような1分尺の動画が生成できます。
Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.
https://openai.com/sora#capabilities
(プロンプト:暖かく光るネオンとアニメーションの街の看板で埋め尽くされた東京の通りを、スタイリッシュな女性が歩いている。黒のレザージャケットに赤いロングドレス、黒のブーツを履き、黒い財布を持っている。サングラスをかけ、赤い口紅を塗っている。彼女は自信に満ち、さりげなく歩いている。通りは湿っていて反射し、色とりどりのライトの鏡のような効果を生み出している。多くの歩行者が歩いている。)
背景の日本語などに違和感があるものの、実際に撮影した映像との違いがわからない程です。
かんたんなテキストの指示だけで1分ほどの高品質な動画を生成できれば、TikTokへ投稿するショート動画や、広告用ショート動画などの作成で十分に活用できるでしょう。
2.Image-to-Video
Soraはテキスト入力だけでなく、画像入力にも対応しています。つまり、画像をアニメーション化してくれるのです。
たとえば、下記のような画像にアニメーション加工を施せます。
引用元:https://openai.com/research/video-generation-models-as-world-simulators
ChatGPTの画像生成機能で任意の画像を作成し、その画像をアニメーション化できるとなれば、活用の幅がぐっと広がりそうです。
3.Video-to-Video
先程の画像と同様、Soraは動画の入力も可能です。
たとえば、下記の元動画を水中の世界観に変更することができます。
元動画
引用元:https://openai.com/research/video-generation-models-as-world-simulators
水中の世界観に変換
引用元:https://openai.com/research/video-generation-models-as-world-simulators
上記のように、Soraでは元動画にさまざまな編集を加えられます。
通常であれば、上記のような動画編集は極めて困難ですし、できたとしても編集作業に膨大な時間とコストがかかります。生成AIに丸投げするだけで、編集作業の工程を削減できるので、映像制作に携わっている方の仕事がどんどん減少する可能性が高いでしょう。
4.画像生成
Soraは高品質な画像を生成することも可能です。最大2048×2048の解像度の画像を生成し、下記のような“写真と見違えるほどの人物画像”も生成してくれます。
Prompt Close-up portrait shot of a woman in autumn, extreme detail, shallow depth of field
https://openai.com/research/video-generation-models-as-world-simulators
(プロンプト:秋の女性のクローズアップ・ポートレートショット、極端なディテール、浅い被写界深度)
このように、写真と言われてもわからないレベルの品質で、画像を生成してくれます。
ちなみに現在のChatGPT有料版は「DALL-E 3」という画像生成AIが採用されています。試しに上記の画像と同じプロンプト(指示文)で、下記の画像を生成してもらいました。
こちらの画像も品質は高いですが、Soraが生成した画像のほうがより実写に近いと感じる方が多いでしょう。
SoraもChatGPTを運営しているOpenAI社が開発しているサービスなので、ChatGPTでの画像生成の品質が、さらに向上することが予想されます。
Soraの課題
高品質な動画を生成できるSoraですが、課題もいくつか存在します。
たとえば、AIが物理を完全に理解しているわけではないので、下記のような「ガラスが割れる」などの表現は難しかったようです。
引用元:https://openai.com/research/video-generation-models-as-world-simulators
また「人や動物などの実体が大量に含まれるシーンでは、不自然な場所からその実体が突如現れることがある」という問題も発生しています。
高品質な動画を生成できるということは「リアルな映像を悪用される」というリスクもあり、現在OpenAI社は問題点の改善のために研究を続けているようです。
いずれ体制が整えば、一般ユーザーでもSoraを使える日がくるでしょう。
まとめ
今回の動画ではOpenAI社が公開した動画生成AI『Sora』について解説しました。
2022年末にChatGPTがリリースされてから、生成AIが著しい進化を遂げています。どんどん新しいサービスが公開され、AIが当たり前の時代がもう目の前です。
AI時代を上手く生きていけるよう、生成AIに関する知識を身につけながら、どんどんビジネスや私生活で活用していきましょう。
AIメディアライター・植田遊馬
Webライター歴4年目。ChatGPTの登場で生成AIの可能性に衝撃を受け「生成AIオタク」に。さまざまな生成AIを駆使しながらライター業を営む傍ら「多くの人に生成AIの魅力を伝えたい!」という想いで、生成AI系メディアでの記事執筆を行っている。
製薬業界で生成AIを活用する「ラクヤクAI」
このように今後の活用が期待される生成AIですが、中でも注目を集めるのが製薬分野です。
「ラクヤクAI」は、治験関係書類や添付文書といった社内外の膨大なデータを活用し
製薬事業のあらゆるシーンを効率化する専門文書AIサービスです。
基礎研究から製造販売後調査まで、多岐に渡る製薬業務の中で取り扱われる
様々な文書の作成・チェック作業を自動化し、圧倒的な業務スピード改善を実現します。
「ラクヤクAI」ご活用シーン(例):
■ 治験関連文書やプロモーション資料の自動生成
■ 作成資料のクオリティチェックや、資料間の整合性チェック
■ 講演内容(資料・音声)の適用外表現モニタリング
■ 薬剤情報やナレッジの検索・調査
その他、個別カスタマイズが可能な生成AI環境で、
社内の知見を統合的に分析・集約したアウトプットをセキュアな環境をご提供します。