検索
ニュース

ChatGPT、“目”と“耳”の実装を発表 写真の内容を認識、発話機能でおしゃべりも可能に

米OpenAIのチャットAI「ChatGPT」に、画像認識、音声認識、発話機能が搭載された。今後2週間かけて、PlusユーザーとEnterpriseユーザーに展開するという。

Share
Tweet
LINE
Hatena

 米OpenAIは9月25日(現地時間)、同社のチャットAI「ChatGPT」に、画像認識、音声認識、発話機能が搭載されたと発表した。今後2週間かけて、PlusユーザーとEnterpriseユーザーに展開するという。画像機能はPCやスマートフォンなど全てのプラットフォームからアクセスでき、音声機能はiOS/Androidで利用可能。

 画像認識機能は、写真やスクリーンショット、テキストと画像の両方を含むドキュメントなどの読み取りが可能。OpenAIでは「グリルが起動しない原因を解決したり、冷蔵庫の中身を調べて食事の計画を立てたり、仕事関連のデータの複雑なグラフを分析したりできる」としている。

 複数枚の画像読み取りにも対応。認識してほしい部分を丸で囲ってChatGPTに読み込ませることができる他、ChatGPTと話している内容を画像で表示させることも可能という。こうした画像認識は、マルチモーダルに対応したGPT-3.5およびGPT-4によって実現している。


自転車のサドルを調整する方法をChatGPTに聞くデモ

「これがレバーか?」という画像付きの質問にも回答。丸で囲われた部分を認識している様子がわかる

 音声認識は、OpenAIの音声認識システム「Whisper」を使用。スマートフォンアプリの「Settings」から「New Features」に進み、音声会話機能を有効にすることで利用できる。音声は5つの種類から選択可能だ。

 音声機能は、新しいtext-to-speechモデルを採用しており、テキストと数秒のサンプル音声のみで人間のような声を生成可能。モデルの開発にはプロの声優と協力して声を作成したという。なお、この音声合成技術は米Spotifyでも音声翻訳機能として試験運用されているという。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る