
2025年1月、中国のAIスタートアップ企業DeepSeekが、新しい画像生成AI「Janus Pro(ヤヌスプロ)」を発表しました。Janus Proは、OpenAIのDALL-E 3やStability AIのStable Diffusion XLなど、競合他社の画像生成AIと肩を並べる性能を持つと評価されています。
本記事では、今話題のDeepSeekやJanus Proの概要を解説した後、Janus ProとDALL-E3・ImageFXの画像生成品質を徹底比較します。
DeepSeekとは
DeepSeekは、2023年に設立された中国のAI企業です。GPT-4を超える性能を持つとされる大規模言語モデル「DeepSeek V3」の開発で一躍注目を集めました。開発コストを抑えながら高性能なAIモデルを生み出す技術力が評価され、NVIDIAの株価にも影響を与えるほど、世界中で話題になっています。
DeepSeekについて詳しく知りたい方は、以下の記事をご覧ください。
Janus Proとは
Janus Pro(ヤヌスプロ)は、テキストと画像を統合的に扱うマルチモーダルAIモデルです。1Bパラメータ(10億個)と7Bパラメータ(70億個)の2つのバージョンが用意されています。
※マルチモーダル=複数の異なる情報や形式(テキスト、画像、動画など)を統合して処理する技術やシステムのこと
※パラメータ=AIの脳に当たる部分。パラメータ数が多いほど複雑な処理が可能だが、その分計算処理に負荷がかかる
Janus Proの最大の特徴は「デカップリング」と呼ばれる手法を採用している点です。デカップリングとは、画像の理解と生成を別々の経路で処理する方法です。従来の画像生成AIは、画像の理解と生成を同じ経路で処理していたため、2つの作業が互いに干渉し合い、処理効率が低下することがありました。
一方、デカップリング技術では「画像を理解するチーム」と「画像を生成するチーム」に分かれて作業することで、より効率的で質の高い処理が可能になります。
画像サイズは384×384ピクセルまで対応しており、MITライセンスの下でオープンソース化されているため、商用利用も可能です。現時点では、Hugging Faceなどからダウンロードして利用できます。
Janus Pro とDALL-E3・ImageFX を比べてみた
ここでは実際に「Janus Pro」を使って画像を生成してみます。比較のために、同じプロンプトをOpenAIの「DALL-E 3」、Googleの「ImageFX」に入力し、生成された画像を比較してみましょう。 「Janus Pro」は こちら から利用できます。
まずは、人物の画像を生成してもらいます。入力したプロンプトは以下のとおりです(英語で入力したほうが品質が上がりやすいため、英語訳してプロンプトを入力します)。

プロンプト:
「Portrait of a young woman with natural lighting, realistic skin texture, sharp focus, and shallow depth of field. She is looking directly at the camera with a neutral expression. The image is ultra-detailed, photorealistic, and taken with a 50mm f/1.8 lens on a high-end DSLR camera. Background is softly blurred (bokeh). High-resolution, professional fashion photography style.
(自然なライティング、リアルな肌の質感、シャープなピント、浅い被写界深度の若い女性のポートレート。 彼女はニュートラルな表情でカメラを直視している。 ハイエンドデジタル一眼レフカメラの50mm F1.8レンズで撮影された、超詳細で写実的な画像。 背景はソフトにぼかしている(ボケ)。 高解像度、プロフェッショナルなファッション写真スタイル。)」
生成結果は以下のとおりです。
Janus Pro

DALL-E3

ImageFX

人物の画像生成は圧倒的にImageFXの品質が勝っています。筆者の主観ではありますが、DALL-E3とJanus Proは「AIっぽさ」が残る画像と感じました。
また、Janus Proは384×384ピクセルまでしか対応していないため、画質がやや荒いですね。
では次に、アニメ調の画像を生成してみましょう。 打ち込んだプロンプトは、以下のとおりです。

プロンプト:
「A vibrant anime-style portrait of a young adventurer wearing a fantasy outfit. Big expressive eyes, stylish colorful hair, dynamic lighting, and delicate line art. Inspired by popular Japanese RPG character designs. High detail, cel-shaded shading, soft pastel palette, and intricate background with a fantasy cityscape.
(ファンタジーの衣装を着た若い冒険家の生き生きとしたアニメスタイルのポートレート。 表情豊かな大きな目、スタイリッシュでカラフルな髪、ダイナミックなライティング、繊細なラインアート。 日本の人気RPGのキャラクターデザインにインスパイアされています。 高いディテール、セル画のような陰影、ソフトなパステルカラー、ファンタジーな街並みの複雑な背景。)」
結果は以下のとおりです。
Janus Pro

DALL-E3

ImageFX

アニメ調の画像生成では、DALL-E3とImageFXともに、高品質ですね(筆者はDALL-E3のほうが高品質に感じました)。一方でJanus Proは、画質の粗さもありますが品質も低く感じます。
DeepSeekは、独自テストの結果を公開しており「Stability AIの『Stable Diffusion』やOpenAIの『DALL-E』を上回った」などと主張していますが、まだまだ品質は低く感じます。
まとめ
本記事では、DeepSeekが発表した新しい画像生成AI「Janus Pro」について解説しました。
DeepSeekは「低コストで開発しながらも高い性能を実現した」と主張していますが、実際に試してみると、競合他社の画像生成AIのほうが依然として高品質です。ただ「デカップリング」という独自の手法は、効率的なAIモデル開発を可能にし、今後のスタンダードになる可能性を秘めています。
Janus Proに興味のある方は、実際に試してみてください。

AIメディアライター・植田遊馬
Webライター歴4年目。ChatGPTの登場で生成AIの可能性に衝撃を受け「生成AIオタク」に。さまざまな生成AIを駆使しながらライター業を営む傍ら「多くの人に生成AIの魅力を伝えたい!」という想いで、生成AI系メディアでの記事執筆を行っている。
生成AIによる専門文書の精密な翻訳ソリューション
T-4OOは、LLM (大規模言語モデル) を用いた画期的な翻訳アルゴリズムにより、従来のNMTモデルとの比較で文脈や語調・書き振りをより自然に反映しながら、専門用語や参考文献に基づいた高い翻訳精度を実現。
細分化された2000の分野に対応し、ビジネス・研究開発の専門文書の翻訳など、様々なシーンで活用されてます。

「T-4OO」の機能と特徴
- 専門2000分野・100言語をカバー
- スキャン画像PDFも丸ごと翻訳
- 社内・業界フレーズを自動学習
- Web上でラクラク訳文編集
- その場で解決 電話でサポート
単に文字を翻訳するだけでいいというわけではありません。
T-4OOは、業務フローにこだわった多彩な便利機能で業務効率化を強力にサポートします。