米OpenAIは9月25日（現地時間）、同社のチャットAI「ChatGPT」に、画像認識、音声認識、発話機能が搭載されたと発表した。今後2週間かけて、PlusユーザーとEnterpriseユーザーに展開するという。画像機能はPCやスマートフォンなど全てのプラットフォームからアクセスでき、音声機能はiOS／Androidで利用可能。

　画像認識機能は、写真やスクリーンショット、テキストと画像の両方を含むドキュメントなどの読み取りが可能。OpenAIでは「グリルが起動しない原因を解決したり、冷蔵庫の中身を調べて食事の計画を立てたり、仕事関連のデータの複雑なグラフを分析したりできる」としている。

　複数枚の画像読み取りにも対応。認識してほしい部分を丸で囲ってChatGPTに読み込ませることができる他、ChatGPTと話している内容を画像で表示させることも可能という。こうした画像認識は、マルチモーダルに対応したGPT-3.5およびGPT-4によって実現している。

自転車のサドルを調整する方法をChatGPTに聞くデモ

「これがレバーか？」という画像付きの質問にも回答。丸で囲われた部分を認識している様子がわかる

　音声認識は、OpenAIの音声認識システム「Whisper」を使用。スマートフォンアプリの「Settings」から「New Features」に進み、音声会話機能を有効にすることで利用できる。音声は5つの種類から選択可能だ。

　音声機能は、新しいtext-to-speechモデルを採用しており、テキストと数秒のサンプル音声のみで人間のような声を生成可能。モデルの開発にはプロの声優と協力して声を作成したという。なお、この音声合成技術は米Spotifyでも音声翻訳機能として試験運用されているという。

「GPT-4」発表　日本語でもChatGPT英語版より高性能、司法試験で上位10％、「この画像何が面白いの？」にも回答
大規模言語モデル「GPT-4」が登場。テキストでのやり取りだけでなく、ユーザーから画像も受け取れるようになった。司法試験の模擬問題を解かせると上位10％のスコアで合格する。ChatGPTの有料版やAPI経由でこれから利用可能になる。
GPT-4をいち早く試すなら「ChatGPT Plus」　月額2400円だが、画像入力など「お楽しみはこれから」
米OpenAIが3月14日（現地時間）に公開した、次世代大規模言語モデル「GPT-4」。これまでのGPT-3や、「ChatGPT」に搭載されたGPT-3.5よりも推論性能を向上させた他、入力された画像に対してコメントしたりなど、マルチモーダル対応を果たしている。
自動運転には「LLM」が必須？　国内AIベンチャーが“目や耳”を持った大規模言語モデルを開発へ
自動運転車の開発・販売に取り組むTuringは3月20日、大規模言語モデル（LLM）を独自開発すると発表した。同社はLLMを開発する理由として「完全自動運転を実現するため」としている。
生成AIに“視覚”与える学習ライブラリ、自動運転EVベンチャー公開　最大700億パラメータの学習済みモデルも
自動運転車を開発するTuringは、日本語などの複数言語対応のマルチモーダルな学習ライブラリ「Heron」を公開した。ソースコードは、研究・商用利用が可能。併せて、最大700億パラメータの学習済みモデル群なども公開している。