
生成AIは高精度、高品質の動画作成にも利用可能に?!
OpenAI社は2024年2月15日に『Sora』という動画生成AIモデルを公開しました! 今回の内容は、Soraの情報について紹介して行きます!
これまでのどの動画生成AIよりも高品質で、最長1分の動画生成が提供できます。以下の動画は実際にSoraで生成された動画です。
Prompt: Historical footage of California during the gold rush.
https://openai.com/sora#capabilities
(プロンプト:ゴールドラッシュ時代のカリフォルニアの歴史的映像)
たった1文のプロンプトで、これほどまでに高品質で高精度な動画を生成してくれるのです。
今回のコンテンツではSoraの概要や機能、問題点について紹介します。ぜひ最後までご覧ください!
Soraとは?
Soraとは、2024年2月15日にOpenAI社が公開した動画生成AIモデルです。
現時点(2024年2月時点)では、一般公開されていないものの、いずれ一般ユーザーでも利用可能になる予定です。
Soraはこれまでの動画生成AIと比べて、はるかに高品質な動画が生成可能で、最長1分までの動画を作成できます。実際に生成された下記動画を見ても、実写と見分けがつかないレベルに到達していることがわかります。
Prompt: Extreme close up of a 24 year old woman’s eye blinking, standing in Marrakech during magic hour, cinematic film shot in 70mm, depth of field, vivid colors, cinematic
https://openai.com/sora#capabilities
(プロンプト:24歳の女性のまばたきの極端なクローズアップ、マジックアワーにマラケシュに立つ、70mmで撮影された映画のようなフィルム、被写界深度、鮮やかな色彩、映画のような)
Soraは何ができる?
OpenAI社が公開した「Sora」ですが、テキストから動画を生成するだけの機能ではないようです。どんな機能があるのか、見ていきましょう!
1.Text-to-Video
まずはText-to-Videoの機能です。テキストで指示するだけで、動画を生成してくれるという機能になります。
これまでの一般的なText-to-Videoの動画生成AIは、長くても十数秒程度の動画しか生成出来ませんでした。ところがSoraは最長1分の動画を生成し、品質も実写と見違えるほどです。
たとえば、Soraでは以下のような1分尺の動画が生成できます。
Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.
https://openai.com/sora#capabilities
(プロンプト:暖かく光るネオンとアニメーションの街の看板で埋め尽くされた東京の通りを、スタイリッシュな女性が歩いている。黒のレザージャケットに赤いロングドレス、黒のブーツを履き、黒い財布を持っている。サングラスをかけ、赤い口紅を塗っている。彼女は自信に満ち、さりげなく歩いている。通りは湿っていて反射し、色とりどりのライトの鏡のような効果を生み出している。多くの歩行者が歩いている。)
背景の日本語などに違和感があるものの、実際に撮影した映像との違いがわからない程です。
かんたんなテキストの指示だけで1分ほどの高品質な動画を生成できれば、TikTokへ投稿するショート動画や、広告用ショート動画などの作成で十分に活用する可能で、デジタルキャンペーンなどへのサポートも、効率の向上や効果が期待出来るでしょう。
2.Image-to-Video
Soraはテキスト入力だけでなく、イラストの入力にも対応しています。つまり、画像をアニメーション化を実現してくれるのです。
たとえば、下記のような画像にアニメーション加工を施せます。
引用元:https://openai.com/research/video-generation-models-as-world-simulators
ChatGPTの画像生成機能で任意のイラストを作成し、その画像をアニメーション化できるとなれば、活用の幅がぐっと広がりそうです。
3.Video-to-Video
先程の画像と同様、Soraは動画の入力も可能です。
たとえば、下記の元動画を水中の世界観に変更することが可能です。
元動画
引用元:https://openai.com/research/video-generation-models-as-world-simulators
水中の世界観に変換
引用元:https://openai.com/research/video-generation-models-as-world-simulators
上記のように、Soraでは元動画にさまざまな編集を加えることができます。動画編集は通常、極めて困難で、編集作業には膨大な時間とコストがかかります。
しかし、生成AIを利用することで、編集作業の工程を大幅に削減することが可能です。これにより、映像制作に携わる方々の負担が軽減され、映像制作業務の効率化が進みます。AI活用によるコスト削減や時間短縮が可能となり、業界に革新をもたらすでしょう。生成AIの導入が進むことで、映像制作の未来は大きく変わる可能性があります。
4.画像生成
Soraは高品質な画像を生成することも可能です。最大2048×2048の解像度の画像を生成し、下記のような“写真と見違えるほどの人物画像”も提供してもらえます。

Prompt Close-up portrait shot of a woman in autumn, extreme detail, shallow depth of field
https://openai.com/research/video-generation-models-as-world-simulators
(プロンプト:秋の女性のクローズアップ・ポートレートショット、極端なディテール、浅い被写界深度)
このように、写真と言われてもわからないレベルの品質で、画像を生成してくれます。
ちなみに現在のChatGPT有料版は「DALL-E 3」という画像生成AIが採用されています。試しにDALL-E 3を使い、上記の画像と同じプロンプト(指示文)で、下記の画像を生成してもらいました。

こちらの画像も品質は高いですが、Soraが生成した画像のほうがより人間の実写に近いと感じる方が多いでしょう。
SoraもChatGPTを運営しているOpenAI社が開発しているサービスなので、ChatGPTでの画像生成の品質が、さらに向上することが予想されます。
Soraの課題
高精度、高品質な動画を生成できるSoraですが、課題もいくつか存在します。
たとえば、AIが物理を完全に理解しているわけではないので、下記のような「ガラスが割れる」などのコンテンツを表現することが難しかったようです。
引用元:https://openai.com/research/video-generation-models-as-world-simulators
また「人や動物などの実体が大量に含まれるシーンでは、不自然な場所からその実体が突如現れることがある」という問題も多く発生しているようです。
高品質な動画を生成できるということは「リアルな映像を悪用される」というリスクもあり、現在OpenAI社は問題点の改善に応じて研究を続けているようです。
いずれ体制が整えば、一般ユーザーでもSoraを運用出来る日がくるでしょう。
まとめ
今回の動画ではOpenAI社が公開した動画生成AI『Sora』の情報について紹介しました。
2022年末にChatGPTがリリースされてから、生成AIが著しい進化を遂げています。どんどん新しいサービスが公開され、AIが当たり前の時代がもう目の前です。
AI時代を上手く生きていけるよう、生成AIに関する知識を身につけながら、どんどんビジネス向けの利用や私生活の体験で、活用していきましょう!

AIメディアライター・植田遊馬
Webライター歴4年目。ChatGPTの登場で生成AIの可能性に衝撃を受け「生成AIオタク」に。さまざまな生成AIを駆使しながらライター業を営む傍ら「多くの人に生成AIの魅力を伝えたい!」という想いで、生成AI系メディアでの記事執筆を行っている。
生成AIによる専門文書の精密な翻訳ソリューション
T-4OOは、LLM (大規模言語モデル) を用いた画期的な翻訳アルゴリズムにより、従来のNMTモデルとの比較で文脈や語調・書き振りをより自然に反映しながら、専門用語や参考文献に基づいた高い翻訳精度を実現。
細分化された2000の分野に対応し、ビジネス・研究開発の専門文書の翻訳など、様々なシーンで活用されてます。

「T-4OO」の機能と特徴
- 専門2000分野・100言語をカバー
- スキャン画像PDFも丸ごと翻訳
- 社内・業界フレーズを自動学習
- Web上でラクラク訳文編集
- その場で解決 電話でサポート
単に文字を翻訳するだけでいいというわけではありません。
T-4OOは、業務フローにこだわった多彩な便利機能で業務効率化を強力にサポートします。