Googleから最強AI登場！大規模言語モデルGemini【akutaji Vol.253】

Google は 2023 年 12 月上旬、最先端の大規模言語モデル「Gemini」を発表しました。

「Gemini」は、テキスト / コード / オーディオ / 画像 / 動画などのさまざまな種類の情報を理解して翻訳 / 要約 / 質問への回答などの自然言語処理タスクをより正確かつ効率的に実行できる自然言語処理機能、画像や動画から情報を抽出して物体認識 / 顔認識 / 異常検知などの視覚的タスクを精度良く実行できるコンピュータービジョンを実装し、さらに機械学習モデルの開発をより迅速かつ簡単に行うことができる次世代大規模言語モデルです。そのパーフォマンスは、数学 / 物理学 / 歴史 / 法律 / 医学 / 倫理など、さまざまな分野に関する専門家を上回るほど。

「Gemini」は、非常に複雑なタスクを実行できる最上位サイズ「Gemini Ultra」、幅広いタスクに対応できる汎用サイズ「Gemini Pro」、オンデバイスのタスクに最適なサイズ「Gemini Nano」の 3 つのサイズが用意されています。理解と要約 / 推論 / コーディングなどの能力がはるかに向上する「Gemini Pro」は対話型ジェネレーティブ AI サービス「Bard」に「レコーダー」アプリに対する要約機能や「Gbaord」アプリの「スマートリプライ」強化する「Gemini Nano」が Google Pixel スマートフォン「Pixel 8 Pro」に提供。最上位サイズ「Gemini Ultra」は、2024 年始めに提供予定の最先端 AI エクスペリエンス「Bard Advanced」に実装される予定です。