画像や音声といった複数の形式のデータを扱うことができるマルチモーダル化も、生成AIの可能性を広げている。
ChatGPTでは、画像解析の機能が9月から利用可能になった。これは、画像をアップロードしてその内容について質問できるものだ。例えば、写真をアップロードして「ここは何が写っていますか?」と質問すれば、写真の内容について説明した回答が返ってくる。紙の書類を撮影したものをアップロードしてその内容についてやりとりするといったことも可能なので、デジタル化されていない資料も扱いやすくなった。
また、同じく9月から提供されている音声会話は、ユーザーが音声で質問して、それに対してChatGPTから音声で回答を得るやりとりを連続で行える機能だ。日本語にも対応しており、イントネーションもかなり自然なので、人間同士の会話に近い感覚でやりとりできる。リリース当初は有料プランのみで利用できる機能だったが、現在は無料プランのユーザーにも開放されている。実際に使ってみるとかなり「未来」を感じられる機能なので、まだ使ったことのない方はぜひ試してみてほしい。
そしてGoogleも、マルチモーダルAIモデルの「Gemini」を12月に発表。実際にどの程度の性能を備えているのかはまだ見えていない部分も多いものの、GPT-4の対抗モデルということで寄せられる期待は大きい。Bardの英語版ですでに提供されているほか、今後はGoogle PixelやGoogle検索、Chromeといった同社の主要な製品やサービスで利用できるようにしていく予定だという。
24年はこれらがさらに進化し、これまでは扱いづらかった情報が扱えるようになったり、生成AIでは十分な成果が得られなかった作業を問題なく行えるようになったりしていきそうだ。
生成AIが進化し、できることが増えていくのは喜ばしいことだが、それによって「うまく使いこなす人」と、「積極的に使おうとしない人」の差はより広がっていくかもしれない。置いていかれないためには、自分の仕事に対して「この作業は本当に自分でやる必要があるのか?」「AIに任せたり、協業したりできる可能性はないか?」という視点をもち、実際にトライしていく姿勢が重要になるだろう。
記事の後編では「今からでも遅くない!ビジネスシーンで使えるおすすめプロンプト」の事例を紹介する。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR注目記事ランキング