TOP ナレッジ Sakana AIが日本語対応の新たな視覚言語モデル(VLM)を開発?概要や活用方法を解説

knowledgeナレッジ

Sakana AIが日本語対応の新たな視覚言語モデル(VLM)を開発?概要や活用方法を解説

September 04, 2024

  • AI
  • Share

設立からわずか1年で「日本初のAIユニコーン企業」になったAIスタートアップのSakana AIが、複数の画像を扱える日本語対応の視覚言語モデル「Llama-3-EvoVLM-JP-v2」を開発しました。

「進化的モデルマージ」という技術を用いて、効率的なAI開発を行うSakana AI。今回の記事では、今注目されている新しい視覚言語モデルの概要や活用方法を解説します。

当メディアではSakana AIに関する記事も公開しています。Sakana AIについて詳しく知りたい方は、下記の記事をご覧ください。

そもそも視覚言語モデル(VLM)とは?

視覚言語モデル(VLM)とは、画像と言語を同時に理解し処理できる人工知能モデルです。VLMは、写真や図を「見て」その内容を理解し、それに関する質問に答えたり、説明を生成したりすることができます。

例えば、下記の犬の画像を見せて「この犬の特徴は?」と尋ねると、VLMは「茶色い毛で、長い耳を持つ大型犬です。座っている姿勢で、舌を出しています。」のように回答できます。

VLMは、画像認識技術と自然言語処理技術を組み合わせることで実現されています。まるで人間が目で見て言葉で表現するように、AIが画像を「理解」し、言語で表現できるのです。

大規模言語モデル(LLM)との違い

大規模言語モデル(LLM)と視覚言語モデル(VLM)は、どちらもAIの一種ですが、その能力と用途に大きな違いがあります。

LLMは主にテキストデータを扱います。膨大な量のテキストデータを学習し、人間のような自然な文章を生成したり、質問に答えたりできます。一方、VLMは画像とテキストの両方を扱えます。LLMの言語処理能力に加えて、画像を理解する能力も持っているのです。

つまり、LLMが「言葉の世界」だけで活躍するのに対し、VLMは「言葉の世界」と「視覚の世界」の両方で活躍できます。この違いによりVLMは、画像に関する質問に答えたり、画像の内容を説明したりするタスクで特に力を発揮します。

Llama-3-EvoVLM-JP-v2の概要

『Llama-3-EvoVLM-JP-v2』は「進化的モデルマージ」という手法を用いてSakana AIが開発した、日本語対応の視覚言語モデル(VLM)です。名前のとおりMeta社の「Llama-3」をベースに開発されています。特筆すべき点は、複数の画像を同時に処理し、それらについて日本語で質疑応答ができる点です。

従来のChatGPTやGeminiなどの生成AIと比べ、Llama-3-EvoVLM-JP-v2には以下のような違いがあります。

  • 複数画像対応:一度に複数の画像を入力し、それらの関係性を理解できます
  • 日本語特化:日本語での質問に対して、自然な日本語で回答します
  • オープンソース:モデルがオープンソースで公開されており、研究や開発に利用できます

ChatGPTやGeminiは主に英語での利用を想定していますが、Llama-3-EvoVLM-JP-v2は日本語ユーザーのために特別に開発されました。日本語に特化したモデルということで、日本語での画像理解や質疑応答がより自然になります。

進化的モデルマージとは

進化的モデルマージとは、Sakana AIが提案した独自のAI開発手法です。この手法では、異なる特徴を持つ複数のAIモデルを組み合わせて、新しい能力を持つモデルを作り出します。

Llama-3-EvoVLM-JP-v2の場合「複数の画像を扱える英語のVLM」「日本語の能力に長けたLLM」「単一画像の説明能力が高いVLM」という3つの異なるモデルを組み合わせて作られました。結果的に「複数の画像を扱える日本語VLM」という新しい能力を持つモデルが誕生したのです。

Llama-3-EvoVLM-JP-v2の活用法は?

Llama-3-EvoVLM-JP-v2は、様々な場面で活用できる可能性があります。以下にいくつかの例を挙げ、解説します。

医療分野での診断支援

Llama-3-EvoVLM-JP-v2は、複数の医療画像を同時に解析し、それぞれの画像に基づいて診断をサポートすることが可能です。例えば、患者のCTスキャンやX線画像を分析し、それらの画像から得られる情報を総合して診断を行う医師を支援する機能などに活用できるでしょう。

自動車業界における製品開発と品質管理

自動車製造の現場では、部品や完成品の品質チェックが非常に重要です。Llama-3-EvoVLM-JP-v2を活用すれば、製品の複数の画像を比較し、微細な違いや不良箇所を自動で検出することもできるでしょう。

また、日本語に特化したモデルのため、日本語が多く記載されている製品の品質チェックにも役立つかもしれません。

小売業における顧客対応とマーケティング

Llama-3-EvoVLM-JP-v2は、オンラインショッピングサイトでの顧客対応にも活用できるでしょう。

例えば、顧客が複数の商品画像をアップロードすると、AIが自動で商品ごとの違いを説明し、顧客に最適な選択を提案できます。

またマーケティング分野でも、キャンペーンや広告に使用するビジュアル素材の効果を分析し、どの画像が最も効果的かを判断するサポートが可能です。

観光業におけるガイド支援

観光地のガイドブックや地図をもとに、Llama-3-EvoVLM-JP-v2が観光客に対してリアルタイムで質問に答えられます。例えば、観光客がスマホで撮影した複数の観光地の画像をアップロードすると、AIがその場所の歴史や見どころを日本語で解説します。これにより、個人旅行者でも質の高い観光体験を得られるでしょう。

まとめ

今回の記事ではSakana AIが開発したLlama-3-EvoVLM-JP-v2の概要や活用法、進化的モデルマージの解説などを行いました。画像に関するAIモデルは多いですが、非英語圏で複数の画像を扱えるVLMは少なく、画期的な開発といえるでしょう。

今後、このようなスタートアップ企業の開発が活発化し、AIモデルがさらに進化することで、日本人の日常生活や常識がガラリと変わるかもしれません。Sakana AIの今後の展開に注目です。

Sakana AIに関して詳しく知りたい方は、下記の記事もご覧ください。

AIメディアライター植田遊馬

Webライター歴4年目。ChatGPTの登場で生成AIの可能性に衝撃を受け「生成AIオタク」に。さまざまな生成AIを駆使しながらライター業を営む傍ら「多くの人に生成AIの魅力を伝えたい!」という想いで、生成AI系メディアでの記事執筆を行っている。

生成AIによる専門文書の精密な翻訳ソリューション

T-4OOは、LLM (大規模言語モデル) を用いた画期的な翻訳アルゴリズムにより、従来のNMTモデルとの比較で文脈や語調・書き振りをより自然に反映しながら、専門用語や参考文献に基づいた高い翻訳精度を実現。

細分化された2000の分野に対応し、ビジネス・研究開発の専門文書の翻訳など、様々なシーンで活用されてます。

「T-4OO」の機能と特徴

  • 専門2000分野・100言語をカバー
  • スキャン画像PDFも丸ごと翻訳
  • 社内・業界フレーズを自動学習
  • Web上でラクラク訳文編集
  • その場で解決 電話でサポート

単に文字を翻訳するだけでいいというわけではありません。
T-4OOは、業務フローにこだわった多彩な便利機能で業務効率化を強力にサポートします。

T-4OOの詳細を確認す

  • Share
一覧へ