TOP ナレッジ Google Pixel 9に搭載されるマルチモーダル生成AI『Gemini』とは?知っておきたい基本を徹底解説

knowledgeナレッジ

Google Pixel 9に搭載されるマルチモーダル生成AI『Gemini』とは?知っておきたい基本を徹底解説

August 22, 2024

  • AI
  • Share

2024年8月、Googleは最新スマートフォン「Pixel 9」シリーズを発表しました。注目すべき特徴は、同社が開発した生成AI「Gemini」の搭載です。

ただ、下記のような疑問をお持ちの方もいるのでないでしょうか?

「Geminiってなに?」
「生成AIとかあまり使わないからわからない…」

本記事では、Pixel 9に搭載されるGeminiの機能や活用法について詳しく解説します。Geminiや生成AIの基本情報を知っておくことでPixel 9を最大限活用できると思いますので、ぜひ最後までご覧ください。

Pixel 9に生成AI『Gemini』が搭載される?

Pixel 9シリーズには、Geminiの軽量版である「Gemini Nano」が端末内で実行可能になります。端末内で処理を完結することで、クラウドにデータを送ることなく、プライバシーを保護しながらAI処理が可能です。

Gemini Nanoの搭載により、Pixel 9ではさまざまな便利な機能が利用できるようになります。例えば、電話内容の要約や暗号化されたテキストメッセージの処理など、プライベートな情報の取り扱いが容易になるでしょう。
また、テキストだけでなく音声や画像も扱えるマルチモーダル機能により、日常生活のさまざまな場面でAIのサポートを受けられるようになります。

さらにPixel 9では、カメラ機能の強化にもGeminiを活用。AIによる画像処理により、写真の画角調整や複数の写真合成が容易になり、より高品質な写真撮影が楽しめます。

そもそも『Gemini』とは?

Geminiとは、Googleが開発した最新のマルチモーダル生成AIです。テキスト、画像、音声、動画などの複数の情報を同時に処理し、高度な言語理解や生成を行えます。Geminiは、大規模言語モデル(LLM)の一種で、ChatGPTなどの他のAIモデルと同様に、膨大なデータを学習することで高度な処理能力を獲得しているのです。

Geminiには、用途に応じて下記3つのバージョンが用意されています。

  • Gemini Ultra
    最も高度な処理能力を持ち、有料サービスとして提供
  • Gemini Pro
    Gemini Ultraよりも性能は劣るものの、高性能な生成AIモデル。無料で利用可能なWEBサービスとして提供
  • Gemini Nano(Pixel 9に搭載されているモデル)
    最も軽量なモデル。スマートフォンなどのモバイルデバイスでの利用に適している

Geminiの特徴として、Googleの検索エンジンと連携していることが挙げられます。リアルタイムの情報を取り込むことで、常に最新の情報に基づいた回答を提供してくれるのです。

Geminiについて詳しく知りたい方は、下記の記事もご覧ください。

マルチモーダルとは?

生成AIには「マルチモーダル」というキーワードがあります。実際、Pixel 9を紹介するニュース記事などでは「Pixel 9にマルチモーダル生成AI搭載!」などと強調されているため、疑問に思っていた方も多いのではないでしょうか?

マルチモーダルとは、複数の情報処理を組み合わせる技術のことを指します。Geminiの場合、テキスト、画像、音声、動画などの異なる形式の情報を同時に処理し、統合的な理解や生成を行えます。
例えば、画像を認識してその内容を説明したり、音声指示に基づいて文章を生成したり、画像と音声を同時に処理して理解を深めたりできるのです。

実はPixel 8 Proでも端末内でGemini Nanoの実行は可能でした。ただ、テキストの入力しか対応しておらず、画像や音声、動画などの形式は非対応だったのです。

スマートフォンがマルチモーダル入力に対応したことにより、生成AIをさらに活用できるようになり、私生活やビジネスでさらに活躍してくれるでしょう。

Pixel 9でのAI活用法

YouTubeチャンネル『docomoOfficial』が公開しているプロモーション動画では、冷蔵庫の中身を写真で撮影し「現在ある食材を使って10分以内に作れる可愛い手料理とデザートを考えて」と音声で指示しています。

それに対してGeminiは、画像認識と音声認識処理を組み合わせ、利用可能な食材を把握し、短時間で作れる料理のレシピを提案してくれます。

上記の活用法はほんの一例に過ぎませんが、画像を高精度に認識できるため、多くの場面で活躍できるでしょう。例えば、建物の写真を撮って認識させ「あの建造物の名前は?」などと質問したり、疑問に思ったことを会話形式で音声入力したり、従来のネット検索よりも格段に便利になることは間違いありません。

まとめ

Google Pixel 9に搭載されるマルチモーダル生成AI「Gemini」は、スマートフォンの利用体験を大きく変える可能性を秘めているといえるでしょう。テキストや画像、音声を統合的に処理する能力により、日常生活の様々な場面でAIのサポートを受けられるようになります。

また今後、Geminiの機能はさらに進化していくことが期待されます。Pixel 9は、AI技術の進歩を身近に体験できる先進的なデバイスとして、これからも多くのユーザーの注目を集めるでしょう。

もしもGoogle Geminiについて詳しく知りたい方は、他の記事でも解説していますので、ぜひご覧ください。

AIメディアライター植田遊馬

Webライター歴4年目。ChatGPTの登場で生成AIの可能性に衝撃を受け「生成AIオタク」に。さまざまな生成AIを駆使しながらライター業を営む傍ら「多くの人に生成AIの魅力を伝えたい!」という想いで、生成AI系メディアでの記事執筆を行っている。

生成AIによる専門文書の精密な翻訳ソリューション

T-4OOは、LLM (大規模言語モデル) を用いた画期的な翻訳アルゴリズムにより、従来のNMTモデルとの比較で文脈や語調・書き振りをより自然に反映しながら、専門用語や参考文献に基づいた高い翻訳精度を実現。

細分化された2000の分野に対応し、ビジネス・研究開発の専門文書の翻訳など、様々なシーンで活用されてます。

「T-4OO」の機能と特徴

  • 専門2000分野・100言語をカバー
  • スキャン画像PDFも丸ごと翻訳
  • 社内・業界フレーズを自動学習
  • Web上でラクラク訳文編集
  • その場で解決 電話でサポート

単に文字を翻訳するだけでいいというわけではありません。
T-4OOは、業務フローにこだわった多彩な便利機能で業務効率化を強力にサポートします。

T-4OOの詳細を確認す

  • Share
一覧へ