OpenAIの文字起こしAI「Whisper」、医療現場での利用に研究者らが警鐘
ed Pressが多数の研究者らへのインタビューに基づいて報じた。既に多数の医療機関がWhisperベースのツールを診察に利用していることに警鐘を鳴らす。
米OpenAIが2022年に発表した音声テキスト変換AI「Whisper」に、文章の一部または全部を捏造してしまういわゆる「幻覚」による重大な欠陥があると、米Associated Pressは10月26日(現地時間)、多数のエンジニアや研究者へのインタビューに基づいて報じた。
Whisperは、インタビューの翻訳や文字起こし、消費者向け技術でのテキスト生成、動画の字幕作成など、世界中の様々な業界で使用されている。Associated Pressは、医療機関でもWhisperベースのツールが診察の会話の文字起こしで使われ始めていることが、深刻な懸念を引き起こしていると指摘する。
Whisperのトレーニングには、ネット上の膨大な音声データと、それに対応する文字起こしテキストから構成される、68万時間に及ぶ大規模なデータセットが使われたとしているが、トレーニングに使った具体的なソースは明示していない。
OpenAIはAssociated Pressを含む多数のメディアやRedditなどとコンテンツ利用に関する契約を結んでいる。
記事によると、ミシガン大学の研究者は、公開会議の研究において、Whisperによる文字起こしの10件中8件に幻覚を発見した。コーネル大学とバージニア大学の教授らは、カーネギーメロン大学が主催するTalkBankから入手した数千の短い音声サンプルを調査した。その結果、幻覚の約40%が話し手の誤解や歪曲につながる可能性があるため、有害または懸念されるものであると判断した。
例えば、話し手が「他の2人の女の子と1人の女性」について話している箇所の文字起こしで、Whisperは「他の2人の女の子と1人の女性、えーと、その人は黒人だった」と人種に関するコメントを捏造した。
OpenAIは論文(PDF)で、データセット固有の癖を反映してしまう可能性や、言語識別精度の低さなどの問題点を課題として挙げている。
Associated Pressによると、3万人以上の臨床医と40の医療システムが、米Nabla社が開発したWhisperベースのツールを使用しているという。
NablaはWhisperが幻覚を起こす可能性を認識しており、この問題に対処していると述べている。だが、このツールは患者のプライバシーを保護するため、文字起こしの元となる音声録音は削除しており、音声と文字起こしの違いを確認することはできない。
Associated Pressは、Whisperの出力を鵜呑みにせず、特に医療現場など重要な意思決定の場面では慎重に確認する必要があるとしている。Whisperの幻覚問題がAI全般における倫理的な問題を提起していることも示唆し、AIの利用が拡大する中で、その潜在的なリスクを認識し、適切な対策を講じることの重要性を強調した。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
OpenAI、RedditのデータをAI学習に利用する契約締結
OpenAIとRedditはパートナーシップを結んだと発表した。OpenAIはRedditのデータにアクセスできるようになり、RedditはOpenAIのAIツールをユーザーに提供できるようになる。
マイクロソフト提供の“社内GPT基盤”もGPT-4 Turboなどに対応
米Microsoftが、大規模言語モデル「GPT-4」などのAPIをクラウドサービス「Microsoft Azure」経由で使える「Azure OpenAI Service」の新機能を発表した。米OpenAIが発表したばかりの「GPT-4 Turbo」や「GPT-3.5 Turbo」の新バージョンに対応する他、画像生成AI「DALL-E 3」や音声認識システム「Whisper 3」もサポートするという。
ChatGPT、“目”と“耳”の実装を発表 写真の内容を認識、発話機能でおしゃべりも可能に
米OpenAIのチャットAI「ChatGPT」に、画像認識、音声認識、発話機能が搭載された。今後2週間かけて、PlusユーザーとEnterpriseユーザーに展開するという。
OpenAI、「ChatGPT API」と企業向け専用容量プランの提供開始 「gpt-3.5-turbo」も発表
OpenAIは「ChatGPT API」と「Whisper API」の提供を開始した。ChatGPT APIの価格は1000トークン当たり0.002ドル。Azureの専用インスタンスプランも提供する。

