TOP ナレッジ 【世界が激震】OpenAIが開発した動画生成AI『Sora』とは?

knowledgeナレッジ

【世界が激震】OpenAIが開発した動画生成AI『Sora』とは?

February 22, 2024

  • AI
  • Share

OpenAI社は2024年2月15日に『Sora』という動画生成AIモデルを公開しました。これまでのどの動画生成AIよりも高品質で、最長1分の動画を生成できます。 

以下の動画は実際にSoraで生成された動画です。 

Prompt: Historical footage of California during the gold rush. 
(プロンプト:ゴールドラッシュ時代のカリフォルニアの歴史的映像) 

https://openai.com/sora#capabilities 

たった1文のプロンプトで、これほどまでに高品質な動画を生成してくれるのです。 

今回の記事ではSoraの概要や機能、問題点について解説します。ぜひ最後までご覧ください。 

Soraとは?

Soraとは、2024年2月15日にOpenAI社が公開した動画生成AIモデルです。 
現時点(2024年2月時点)では、一般公開されていないものの、いずれ一般ユーザーでも使用可能になる予定です。 

Soraはこれまでの動画生成AIと比べて、はるかに高品質な動画が生成可能で、最長1分までの動画を作成できます。実際に生成された下記動画を見ても、実写と見分けがつかないレベルに到達していることがわかります。 

Prompt: Extreme close up of a 24 year old woman’s eye blinking, standing in Marrakech during magic hour, cinematic film shot in 70mm, depth of field, vivid colors, cinematic 
(プロンプト:24歳の女性のまばたきの極端なクローズアップ、マジックアワーにマラケシュに立つ、70mmで撮影された映画のようなフィルム、被写界深度、鮮やかな色彩、映画のような) 

https://openai.com/sora#capabilities 

Soraは何ができる?

OpenAI社が公開した「Sora」ですが、テキストから動画を生成するだけの機能ではないようです。
どんな機能があるのか、見ていきましょう。

1.Text-to-Video

まずはText-to-Videoの機能です。テキストで指示するだけで、動画を生成してくれるという機能になります。
これまでの一般的なText-to-Videoの動画生成AIは、長くても十数秒程度の動画しか生成出来ませんでした。ところがSoraは最長1分の動画を生成し、品質も実写と見違えるほどです。

たとえば、Soraでは以下のような1分尺の動画が生成できます。

Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.
(プロンプト:暖かく光るネオンとアニメーションの街の看板で埋め尽くされた東京の通りを、スタイリッシュな女性が歩いている。黒のレザージャケットに赤いロングドレス、黒のブーツを履き、黒い財布を持っている。サングラスをかけ、赤い口紅を塗っている。彼女は自信に満ち、さりげなく歩いている。通りは湿っていて反射し、色とりどりのライトの鏡のような効果を生み出している。多くの歩行者が歩いている。)

https://openai.com/sora#capabilities

背景の日本語などに違和感があるものの、実際に撮影した映像との違いがわからない程です。
かんたんなテキストの指示だけで1分ほどの高品質な動画を生成できれば、TikTokへ投稿するショート動画や、広告用ショート動画などの作成で十分に活用できるでしょう。

2.Image-to-Video 

Soraはテキスト入力だけでなく、画像入力にも対応しています。つまり、画像をアニメーション化してくれるのです。

たとえば、下記のような画像にアニメーション加工を施せます。

引用元:https://openai.com/research/video-generation-models-as-world-simulators

ChatGPTの画像生成機能で任意の画像を作成し、その画像をアニメーション化できるとなれば、活用の幅がぐっと広がりそうです。

3.Video-to-Video 

先程の画像と同様、Soraは動画の入力も可能です。
たとえば、下記の元動画を水中の世界観に変更することができます。

元動画

引用元:https://openai.com/research/video-generation-models-as-world-simulators

水中の世界観に変換

引用元:https://openai.com/research/video-generation-models-as-world-simulators

上記のように、Soraでは元動画にさまざまな編集を加えられます。
通常であれば、上記のような動画編集は極めて困難ですし、できたとしても編集作業に膨大な時間とコストがかかります。生成AIに丸投げするだけで、編集作業の工程を削減できるので、映像制作に携わっている方の仕事がどんどん減少する可能性が高いでしょう。

4.画像生成

Soraは高品質な画像を生成することも可能です。最大2048×2048の解像度の画像を生成し、下記のような“写真と見違えるほどの人物画像”も生成してくれます。

Prompt Close-up portrait shot of a woman in autumn, extreme detail, shallow depth of field
(プロンプト:秋の女性のクローズアップ・ポートレートショット、極端なディテール、浅い被写界深度)

https://openai.com/research/video-generation-models-as-world-simulators

このように、写真と言われてもわからないレベルの品質で、画像を生成してくれます。

ちなみに現在のChatGPT有料版は「DALL-E 3」という画像生成AIが採用されています。試しに上記の画像と同じプロンプト(指示文)で、下記の画像を生成してもらいました。

こちらの画像も品質は高いですが、Soraが生成した画像のほうがより実写に近いと感じる方が多いでしょう。

SoraもChatGPTを運営しているOpenAI社が開発しているサービスなので、ChatGPTでの画像生成の品質が、さらに向上することが予想されます。

Soraの課題

高品質な動画を生成できるSoraですが、課題もいくつか存在します。

たとえば、AIが物理を完全に理解しているわけではないので、下記のような「ガラスが割れる」などの表現は難しかったようです。

引用元:https://openai.com/research/video-generation-models-as-world-simulators

また「人や動物などの実体が大量に含まれるシーンでは、不自然な場所からその実体が突如現れることがある」という問題も発生しています。

高品質な動画を生成できるということは「リアルな映像を悪用される」というリスクもあり、現在OpenAI社は問題点の改善のために研究を続けているようです。

いずれ体制が整えば、一般ユーザーでもSoraを使える日がくるでしょう。

まとめ

今回の動画ではOpenAI社が公開した動画生成AI『Sora』について解説しました。

2022年末にChatGPTがリリースされてから、生成AIが著しい進化を遂げています。どんどん新しいサービスが公開され、AIが当たり前の時代がもう目の前です。

AI時代を上手く生きていけるよう、生成AIに関する知識を身につけながら、どんどんビジネスや私生活で活用していきましょう。

この記事を書いた人

AIメディアライター植田遊馬

Webライター歴4年目。ChatGPTの登場で生成AIの可能性に衝撃を受け「生成AIオタク」に。さまざまな生成AIを駆使しながらライター業を営む傍ら「多くの人に生成AIの魅力を伝えたい!」という想いで、生成AI系メディアでの記事執筆を行っている。

  • Share
一覧へ