2024年10月22日にStability AIが、画像生成AIの「Stable Diffusion 3.5」を発表しました。Stable Diffusion 3.5は、高品質な画像生成が可能で、カスタマイズ性とパフォーマンスを大幅に向上させています。
今回の記事では、Stable Diffusion 3.5の特徴について詳しく解説します。画像生成AIの導入を検討している方は、ぜひ参考にしてください。
Stable Diffusion 3.5とは
Stable Diffusion 3.5は、2024年10月22日にStability AIが発表した画像生成AIの新モデルです。前バージョンの反省を活かし、カスタマイズ性を重視して開発されました。画像生成における柔軟性が向上し、ユーザーのニーズに合わせた調整が容易になっています。
また、Stable Diffusion 3.5は以下の3つのモデルで構成されています。
- Stable Diffusion 3.5 Large
- Stable Diffusion 3.5 Large Turbo
- Stable Diffusion 3.5 Medium
それぞれ、詳しく解説します。
Stable Diffusion 3.5 Large
80億のパラメーター(AIモデルの学習量を示す数値)を持つ基本モデルです。1メガピクセルの高解像度画像生成に対応し、プロンプト(AIへの指示)の忠実度では業界トップクラスの性能を実現しています。
プロフェッショナルな用途に最適で、3D、写真、絵画、線画などさまざまなスタイルの画像生成が可能です。
Stable Diffusion 3.5 Large Turbo
Largeモデルの高速版です。わずか4ステップという短時間で高品質な画像生成を実現しています。一般的な画像生成AIは、画像を作り上げるまでに20回から50回程度の計算(ステップ)を必要としますが、Stable Diffusion 3.5 Large Turboは、わずか4回の計算で高品質な画像を生成できるのです。
通常のLargeモデルと比較して処理速度が大幅に向上し、画質やプロンプトの再現性も競争力を保っています。迅速な画像生成が必要な場面で力を発揮するでしょう。
Stable Diffusion 3.5 Medium
26億パラメーターの軽量モデルで、一般的なコンピューターでも快適に動作するよう最適化されています。必要なVRAM(グラフィックス用メモリ)は9.9GBのみで、ほとんどの一般向けGPUで利用可能です。
0.25から2メガピクセルまでの幅広い解像度に対応しています。
何が進化した?
生成される画像の品質はもちろんですが(上記画像参照)、最大の進化点は、カスタマイズ性の向上です。例えば、以下のような調整が容易になりました。
スタイルの細かな調整:写真のような写実的な画像から、アニメ調、水彩画風、3DCGなど、さまざまな表現スタイルを、詳細な指示なしでも生成できるようになりました。
画像の一貫性:同じテーマで複数の画像を生成する際、画風や雰囲気を統一しやすくなりました。これにより、商品カタログやキャラクターデザインなど、一連の画像制作が効率的に行えます。
精度の向上:新しい画像処理の仕組みを導入したことで、ユーザーの意図をより正確に理解し、求める画像に近い結果を生成できるようになりました。
また、一般的なパソコンでも快適に動作するよう最適化され、専用の高性能マシンがなくても利用できるようになっています。
Stable Diffusion 3.5の利用料金
Stable Diffusion 3.5は、非営利目的での利用は無料です。また、年間収益100万ドル未満の企業や個人クリエイターも、商用利用を含めて無料で利用できます。
生成された画像の著作権は利用者に帰属するため、ほとんどのユーザーが気軽に利用できるでしょう。
まとめ
今回の記事では、Stability AI が発表したStable Diffusion 3.5について解説しました。カスタマイズ性の向上で、さらに品質の高い画像生成が可能になりました。
一般的なユーザーは無料で利用できるため、画像生成AIの活用を検討している方は、ぜひ利用してみてください。
AIメディアライター・植田遊馬
Webライター歴4年目。ChatGPTの登場で生成AIの可能性に衝撃を受け「生成AIオタク」に。さまざまな生成AIを駆使しながらライター業を営む傍ら「多くの人に生成AIの魅力を伝えたい!」という想いで、生成AI系メディアでの記事執筆を行っている。
生成AIによる専門文書の精密な翻訳ソリューション
T-4OOは、LLM (大規模言語モデル) を用いた画期的な翻訳アルゴリズムにより、従来のNMTモデルとの比較で文脈や語調・書き振りをより自然に反映しながら、専門用語や参考文献に基づいた高い翻訳精度を実現。
細分化された2000の分野に対応し、ビジネス・研究開発の専門文書の翻訳など、様々なシーンで活用されてます。
「T-4OO」の機能と特徴
- 専門2000分野・100言語をカバー
- スキャン画像PDFも丸ごと翻訳
- 社内・業界フレーズを自動学習
- Web上でラクラク訳文編集
- その場で解決 電話でサポート
単に文字を翻訳するだけでいいというわけではありません。
T-4OOは、業務フローにこだわった多彩な便利機能で業務効率化を強力にサポートします。