「Google Gemini」と「Pika」って何がすごいの? ビジネスパーソンに与える“衝撃”を解説「AIが卵より安くなる時代」に向けて

最近発表された「Google Gemini」と「Pika」はビジネスパーソンにとってどのような影響をもたらすのでしょうか。生成AIを日々仕事でゴリゴリ使っている筆者が「AI革命の衝撃はまだ始まったばかりだ」と言う意味とは。

» 2023年12月13日 08時00分 公開
[永田豊志ITmedia]

この記事は会員限定です。会員登録すると全てご覧いただけます。

この連載について

AI(人工知能)を仕事で利用するのが当たり前になりつつあります。高価だったAIがコモディティ化して「卵よりも安く利用できる」近い将来、「副操縦席」に追いやられないために、われわれは何をすべきでしょうか。

AIをビジネスで生かすべく日々実践している永田豊志さんが、ビジネスパーソンの生産性向上に役立つ情報と、そこにとどまらない、将来を見据えた挑戦のためのヒントをお届けします。

※この連載のバックナンバーはこちら

 前回は、テキストの代わりに画像を含むPDF形式のドキュメントや「Microsoft Excel」のファイルをAI(人工知能)に読み込ませて、分析させる「マルチモーダル」という方法を紹介しました。詳しい方法は記事を参照いただくとして、結果だけ紹介すると、「ドキュメントからテキストがうまく抽出できる場合は分析できる」というものでした。

 画像や表計算ソフトで作成したファイルなどいろいろな情報ソースをAIが解析して返答するマルチモーダルにはさまざまな可能性がありますが、現在の「GPT‐4」はまだまだ「テキストありき」のようです。

 こうした記事を投稿した直後に衝撃的なニュースが2つ入ってきました。今回はそれらを紹介して、「われわれが仕事をしていく上で何が衝撃的なのか」を解説したいと思います。

Googleから「Gemini」が登場 AI革命の衝撃はまだ始まったばかりだ

 一つは「ChatGPT」の対抗馬として最も期待されていた「Google Gemini」(以下、Gemini)の登場です。現在は一部サービスのみの提供で、試すことはできません。ただし、発表内容は衝撃的です。何が衝撃的かというと、AIの学習段階からマルチモーダルになっているのです。つまり画像や映像、テキスト、音声などあらゆるタイプのソースを同時に学習しているようです。

 そのため、前回の記事で紹介したような「テキストありきでドキュメントからデータ抽出する」手法ではなく、Geminiは画像であれば画像のまま、テキストはテキストで、映像に音声などが入っていた場合は音声も含めて分析して回答するとされています。

 例えば、算数の試験問題で「次の図の立方体上の3つの点を通る断面の面積を求めなさい」という問題をGeminiに投げると、

  • 問題テキストを認識する
  • 図から立方体上の3点の座標を認識する
  • 3点を通る断面を作る
  • 断面の面積を計算する

 というプロセスを同時にやってのけることができるでしょう。これは衝撃的です。もはや問題集の解説テキストなど必要なくなるのではないでしょうか。

 Googleが公開したビデオでも、Geminiに高度な物理計算の問題を解かせています。手書きの解答が正解かどうかを判定するだけでなく、間違った場合はアドバイスも提供しています。「家庭教師がAIにすっかり置き換わるのではないか」という可能性を感じさせます。もちろん教師の仕事は勉強を教えるだけではないので、生徒の精神的なサポートなどに重きが置かれるようになるかもしれません。

Gemini: Explaining reasoning in math and physics(Google)

「想像できるものは、作ることができる」ステージに突入

 もう一つの衝撃的なニュースは、生成するアウトプットのマルチメディア化です。

 既にAIを活用した画像生成や音楽生成などのサービスがローンチされていますが、今度発表されたのは動画生成です。

 「Pika」というサービスで、現在はまだ正式リリース前です。ウエイトリストに登録可能ですので、興味のある方はどうぞ。

 衝撃的なのは、テキストから動画を作れるということです。動画のクオリティーはすさまじく、簡単に編集したり作り直せたりできます。

 筆者は20年前、CG制作の現場で働いたので、3Dモデルを制作して1コマずつ動かし、1フレーム分の画像を何分もかけてレンダリングして、それをつなげてやっと数分の動画を作っていました。こうした動画制作を経験した者としてがくぜんとするサービスです。

 既にYouTuberの中には自前で動画制作している人もいます。しかし、これは「カメラで撮影した映像を自分で手軽に編集できる」のであって、全くの素人がアニメーションを自在に制作することは想像できませんでした。

 映像生成AIの登場で、時代はまさに「想像できるものは、作ることができる」というステージに入りました。

 こうしたサービスは、個人にとっては自己表現や新たなビジネス展開の強力なツールになります。一方で映像を制作するビジネスサイドからすると、うまくポジションをピボットしなければ、ディスラプト(創造的破壊)されてしまう可能性もあります。

 今回の2つのサービスのローンチを受けて、筆者が思いを強くしたのは「想像する側に回るようにならなければならない」ということです。

 「想像→アウトプット」のプロセスは今後、AIが限りなくうまくやってくれるようになるでしょう。そこで人間が競争優位性を作るのは並大抵のことではありません。そこで、まず「想像ありき」です。

 今こそ、皆さんの創造力を開花させて「何が求められているのか」「何を実現したいのか」といった人生のパーパスを見直す時に来ているのではないでしょうか。

著者紹介 永田豊志(ながた・とよし)

知的生産研究家、起業家、上場企業の経営者。現在、DX支援クラウドを提供する株式会社ショーケース(東証3909)とリユースモバイル事業を運営する日本テレホン株式会社(東証9425)、2社の上場企業の経営者。

企業経営と並行し、新規ビジネス開発、働く人の生産性向上をライフワークとした執筆、講演活動などを行う。

自著に『知的生産力が劇的に高まる最強フレームワーク100』(ソフトバンククリエイティブ刊)、『頭がよくなる「図解思考」の技術』(中経出版刊)、『会社では教えてもらえない仕事がデキる人の資料作成のキホン』(すばる舎刊)がある。

著書一覧:https://www.amazon.co.jp/s?k=%E6%B0%B8%E7%94%B0%E8%B1%8A%E5%BF%97

連絡先: nagata@showcase-tv.com

Webサイト: www.showcase-tv.com、https://www.n-tel.co.jp

Copyright © ITmedia, Inc. All Rights Reserved.