「音声認識」関連の最新ニュース・レビュー・解説記事まとめ

組み込み開発ニュース：新バージョンのHMI開発ツールでワイヤーフレームや音声認識AIに対応

加賀FEIは、HMI開発ツールの最新版「CGI Studio 3.15」をリリースした。ワイヤーフレーム表示をサポートする他、音声認識アプリと連携した音声操作に対応する。

(2025/5/9)

生成AIで顧客対応を革新　SBI損保、オペレーターの記録業務を35％削減できるか

SBI損保はアルティウスリンクと共同で生成AIを活用した顧客体験向上の実証実験を開始した。音声認識と自動要約で記録作業を効率化し、顧客満足度の相関分析やサービス改善要望の抽出も実施する。AIの実業務導入と応用範囲拡大を目指す。

(2025/4/22)

文字起こし精度が向上、特定の話し方を指示することも可能：OpenAI、音声エージェントを強化する新しい3つのモデルをAPIで提供開始　Whisperとは何が違う？

OpenAIは、新しい音声認識モデル「gpt-4o-transcribe」と「gpt-4o-mini-transcribe」および音声合成モデル「gpt-4o-mini-tts」のAPIを提供開始した。

(2025/3/26)

AI：AI音声認識を用いた現場報告システムを開発　実証で年2000時間の作業時間を削減

ファイナンシャルテクノロジーシステムは、建築現場向けにリアルタイムAI音声認識を用いた現場報告システムを開発した。LINEを介して音声報告するとテキスト化される手軽さから、導入企業では報告率が400％向上し、年2000時間の管理時間の削減につながったという。

(2025/2/18)

「音声」が業務を変える――AI音声認識を最大限に活用するための音響設備とは

(2025/1/23)

「音声認識」が広がると、PCやスマホのUIはどう進化する？

音声認識が普及し、当たり前になっていくことによってUI（ユーザーインターフェース）革命が起こります。スマートフォンやコンピューターなどに入力する手段が大きく変わるのです。

(2025/1/2)

東京都町田市、議事録作成にかかる時間を96％削減　どうやって実現したのか

東京都町田市が「議事録サポートAI」を導入した。高精度な音声認識技術によって議事録作成を効率化でき、試験導入段階で96％の作業時間を削減した。

(2024/12/26)

NEC、コンタクトセンター向けプラットフォーム発表　生成AIと音声認識技術を活用

NECは、独自の音声認識技術と生成AIを組み合わせたコンタクトセンター向けプラットフォーム「NEC Speech Analysis Platform」の提供を開始した。

(2024/9/26)

「生成AI」が運行情報を案内　JR東、音声アシスタントで実証実験

JR東日本は9月3日から、生成AIを搭載した自動音声アシスタントによって、列車の運行情報を案内する実証実験を開始する。生成AIの活用により、高精度での音声認識が可能になったとしている。

(2024/9/3)

MCUとNPUを統合：エッジに高度な音声認識をもたらすスパースAIマイコン

Femtosenseは、同社のNPU（ニューラルプロセッシングユニット）とABOV SemiconductorのMCUを統合した、スパースAI（人工知能） MCU「AI-ADAM-100」を開発した。クラウドに接続されていないデバイスでも、エッジに音声言語インタフェースを実装できるという。

(2024/7/24)

現場管理：建築仕上げ検査用の音声認識エンジンを強化、工場やオフィスビルにも対応

アドバンスト・メディアは、マンションの仕上げ検査などで利用されている建築工程管理プラットフォームサービス「AmiVoiceスーパーインスペクションプラットフォーム」について、病院、介護施設、工場、倉庫、学校、オフィスビルといった幅広い現場でも利用できるよう、音声認識エンジンを強化する。

(2024/6/26)

現場管理：工事写真の撮影／管理を効率化するアプリをアドバンスト・メディアが開発

アドバンスト・メディアは、画像／文字／音声認識を活用して配筋写真撮影の事前準備を省力化するアプリ「AmiVoice 配筋TORUZO」に新機能を追加し、建設工事全般の写真管理を効率化するアプリ「AmiVoice 写真TORUZO」を開発した。

(2024/5/17)

建設業界の新3Kを支援するソリューション：建設業務に特化した音声入力で2024年問題に対応　デジタル化断念した現場にも採用された理由

2024年問題を目前に、建設DXによる業務効率化が急務となっている。だが、デジタルツールを導入してみたものの、使いこなせず成果を得られない中小企業は多い。建設業に特化したAI音声認識サービスを提供するアドバンスト・メディアに、建設現場でのデジタル活用の課題や解決につながる生成AIを活用した新サービスなどを聞いた。

(2024/3/29)

音声AI技術の進化　オレオレ詐欺が無くなる未来が来るか

AIの音声認識技術が発達するにつれて、「オレオレ詐欺」などの犯罪に対抗できる日が来るかもしれない。

(2023/12/25)

マイクロソフト提供の“社内GPT基盤”もGPT-4 Turboなどに対応

米Microsoftが、大規模言語モデル「GPT-4」などのAPIをクラウドサービス「Microsoft Azure」経由で使える「Azure OpenAI Service」の新機能を発表した。米OpenAIが発表したばかりの「GPT-4 Turbo」や「GPT-3.5 Turbo」の新バージョンに対応する他、画像生成AI「DALL-E 3」や音声認識システム「Whisper 3」もサポートするという。

(2023/11/8)

製造ITニュース：NSW、スマートグラスに生成AI搭載した対話型作業支援ソリューション提供

NSWは、音声認識機能を持つ産業用スマートグラス「RealWear」にMicrosoftの生成AI「Azure OpenAI Service」を搭載した、対話型作業支援ソリューションのトライアル提供を開始した。

(2023/10/5)

組み込み採用事例：コイズミのタワーファンが音声認識AI技術を採用、オフライン音声操作が可能に

菱洋エレクトロの音声認識AI技術が、小泉成器の冷暖房機器「ホット＆クールプレミアム」に採用された。ユーザーの仕様にカスタマイズして提供する音声認識モジュールを内蔵し、オフラインでの音声操作と音声応答機能を搭載した。

(2023/10/5)

ChatGPT、“目”と“耳”の実装を発表　写真の内容を認識、発話機能でおしゃべりも可能に

米OpenAIのチャットAI「ChatGPT」に、画像認識、音声認識、発話機能が搭載された。今後2週間かけて、PlusユーザーとEnterpriseユーザーに展開するという。

(2023/9/25)

AI・データサイエンス超入門：知識ゼロからのビジネスAI活用。議事録AIを作ってみよう

生成系AIが注目を集める中、従来の画像認識や音声認識のAIも依然として非常に有用です。この記事では、誰でも手軽にできる疑似体験を通じて、会議時の音声を文字起こしをする「議事録AI」の作成を試みます。一緒にAIの世界へ一歩踏み出しましょう！

(2023/9/7)

Innovative Tech：隣の防音部屋をミリ波で盗聴、瞬時にテキスト化する技術　中国の研究者らが開発

香港大学や清華大学に所属する研究者らは、ミリ波（mmWave）信号から音声を認識するストリーミング自動音声認識（ASR）システムを提案した研究報告を発表した。

(2023/9/1)

特選プレミアムコンテンツガイド音声認識の「3大技術」でオフィスを安心・安全にする方法

従業員にとって安心・安全なオフィスを実現する手段となり得るのが「音声認識」技術だ。どのように役立てることができるのか。音声認識の主要3技術を例に、具体的な生かし方を紹介する。

(2023/8/17)

人工知能ニュース：音声認識対応のIoT向け低フットプリントAIスイート製品を発表

セレンスは、IoTアプリケーション向けに設計した低フットプリントAIスイート製品「Cerence Audio AI Lite」「Cerence Input AI Lite」を発表した。

(2023/8/8)

開発プロセスはオープンで、誰でも参加できる：ggml.ai、GPUなしでチャットAIを動作させるライブラリ「GGML」開発中　Raspberry Pi上で音声認識モデルを実行可能

ggml.aiは、GPUなしでチャットAIを動作させる機械学習用のtensorライブラリ「GGML」を開発していると発表した。

(2023/6/26)

iOS版「ChatGPT」アプリはブラウザ版と何が違う？　便利だと感じた機能はコレ

5月末から日本でもiOS向け「ChatGPT」アプリが利用可能になりました。基本的な機能や使い勝手はWebと変わりませんが、オープンソースの音声認識システム「Whisper」による音声入力に対応しているのが大きな違いです。もう1つ。便利な機能があります。

(2023/6/19)

対応言語をタスクに応じて従来の10～40倍に：Meta、1000以上の言語に対応する音声認識モデルなどを構築、オープンソースで公開

Metaは、音声技術の対応言語を拡大することを目指す「Massively Multilingual Speech」（MMS）プロジェクトの成果として、音声認識モデル、音声合成モデル、言語識別モデルとコードをGitHubで公開した。

(2023/5/25)

OpenAI、「ChatGPT」のiOS向けアプリ配信　音声認識システム「Whisper」で言語の聞き分けが可能

米OpenAIは5月18日（現地時間）、対話型AIの「ChatGPT」をiPhone（iOS）向けアプリとしてリリース。まずは米国で提供し、今後数週間以内に他の国への展開も予定する。音声認識システム「Whisper」への対応で言語の聞き分けが可能。

(2023/5/19)

音響感知と人工知能を利用し無発声でコマンド認識：口の形を読み取ってスマートフォンに入力できる眼鏡型デバイス「EchoSpeech」を発表　コーネル大学

コーネル大学の研究所は、低電力のウェアラブル無声音声認識インタフェース「EchoSpeech」を発表した。

(2023/4/28)

特選プレミアムコンテンツガイド「Alexa、荷物は今どこ？」を現実に　AIで生まれる「音声認識」の新たな用途

業務プロセスを抜本的に変革したいとき、音声認識の技術をどのように取り入れるかが重要だ。現実的なユースケースを紹介する。

(2023/3/30)

小寺信良のIT大作戦：「新しいBing×音声認識」で感じた“検索新時代”　スマートスピーカーはもう古い

Microsoftのブラウザ「Edge」にAIを搭載した「新しいBing」が搭載されたことで、ブラウザをEgdeに乗り換える人もそこそこあったのではないだろうか。筆者もAI搭載のBingを使ってみたい一心で、ChromeからEdgeに乗り換えてみたところだ。

(2023/3/24)

専用インスタンスも提供：OpenAI、「ChatGPT」と「Whisper」のAPIを公開　料金体系、データの利用ポリシーは？

OpenAIは、対話に特化した言語モデル「ChatGPT」と音声認識モデル「Whisper」をAPIで利用できるようにした。

(2023/3/6)

新ベンダー／新製品じろじろウオッチ（6）：OpenAIのテクノロジーも活用した、英会話学習アプリが登場　Speakeasy Labsが「Speak」日本版をリリース

Speakeasy Labsは、英語スピーキングに特化した特化型学習アプリ「Speak（スピーク）」の日本語正式版を2023年2月9日にリリースした。独自開発の自動音声認識技術やChatGPTを支えるAI技術、英語学習ノウハウにより対人英会話以上の体験を提供するとしている。

(2023/3/6)

ソニーのゆるふわロボット「poiq」との日々：「poiq」とAlexaの性能が良すぎて少し困ってる話

今回は、poiqの頭脳の部分の話である音声認識とかAIとの対話の話。実はAlexaとの連携機能もあり、poiq経由でAlexaの処理をするのは、poiqオーナーにとってすごく自然なことでもあります。

(2023/1/31)

「音声認識だからレジに向かってペイペイって叫べばいいよ」　友人にうそを教えられて実行した結果……

仕込むなら怒られない程度にしましょう。

(2023/1/1)

「Amazon Echo Show 15」にFire TV機能を追加するアップデート！　Primeビデオ、ネトフリやYouTubeをリモコン経由で快適に楽しめる！

Amazonのスマートディスプレイ「Echo Show 15」にソフトウェア更新が行われ、新たにFire TVとして利用できる機能が追加される。別売の音声認識リモコンを用意すれば、通常のFire TVシリーズと同じように使える（タッチパネル上の仮想リモコンでも操作は可能）。

(2022/12/7)

CEATEC 2022：村田製作所が超小型エッジAIモジュールを開発、消費電力0.2mWで音声認識が可能

村田製作所は、「CEATEC 2022」において、開発中の小型かつ低消費電力のエッジAI（人工知能）モジュールを披露した。同社は既に、グーグルと共同開発した「Coral Accelerator Module」を製品化し量産しているがその小型版の位置付けとなる。

(2022/10/27)

車載情報機器：電波が届かない場所でも高度な音声認識が可能に、トヨタとグーグルが協業拡大

トヨタ自動車とGoogle Cloudは2022年10月11日（米国時間）、次世代インフォテインメントシステムに関するパートナーシップを拡大すると発表した。

(2022/10/17)

トヨタとGoogleが連携強化　ネット不要のAI音声認識システムを「カローラ」「LEXUS NX」に提供

米Google Cloudが、トヨタとのパートナーシップを強化。トヨタ北米法人に、インターネット接続が不要なAI音声認識システム「Speech On-Device」を提供する。

(2022/10/14)

Fire TV向け「Alexa対応音声認識リモコン」にProモデル登場　バックライトやプログラマブルボタン付きで3980円

Amazonの「Fire TVシリーズ」で使える音声認識リモコンに、上位モデルが登場する。ボタンバックライトやプログラマブルボタンを搭載した他、リモコンを捜索する機能も追加されている。

(2022/9/29)

最大8モードを自動で切り替え：AKM、車載機器に向けたDSP内蔵のCODECを開発

旭化成エレクトロニクス（AKM）は、車載機器の音声認識／処理に向けたDSP内蔵CODEC「AK7749」を開発、サンプル出荷を始めた。

(2022/8/18)

「Python＋PyTorch」と「JoeyNMT」で学ぶニューラル機械翻訳（終）：「JoeyNMT」で音声データを使った自動音声認識、音声翻訳モデルを作る

精度向上により、近年利用が広まっている「ニューラル機械翻訳」。その仕組みを、自分で動かしながら学んでみましょう。第3回は「JoeyNMT」を音声に対応させて、音声認識や音声翻訳のタスクをエンドツーエンドで解くモデルを構築してみましょう。

(2022/8/17)

製造現場向けAI技術：現場でハンズフリーのデータ入力可能に、騒音下でも高精度の音声認識

アドバンスト・メディアは2022年7月26日、対話型AI音声入力で現場作業中のデータ入力を効率化するMicrosoft Excel向けアドイン「AmiVoice スーパーボイスエントリー for Excel」の提供を開始すると発表した。

(2022/8/3)

PCでもスマホでも使える！：無料で自動文字起こしが可能な「CLOVA Note」を試して分かったこと

現在、β版として無料で提供中の文字起こしアプリ「CLOVA Note」。LINEの音声認識AI「CLOVA Speech」を使った文字起こしの精度はどの程度なのか、実際に試してみた。

(2022/8/2)

行政サービスにおけるAI活用【前編】“デジタル先進国”エストニアの国民向け「仮想アシスタント」開発の裏側

エストニア政府は、行政サービスの仮想アシスタントの運用を開始した。AI技術や音声認識技術を活用した先進的なプロジェクトはどのように開始し、どこまで進んでいるのか。

(2022/7/22)

人工知能ニュース：話者の感情分析もできる、開発者向け音声認識AIエンジンプラットフォーム

アドバンスト・メディアは2022年7月7日、同社の音声認識AI技術をアプリケーションに組み込んで活用できる開発者向けプラットフォーム「AmiVoice Cloud Platform」の説明会を開催した。自社のアプリケーションに音声認識エンジンを利用したサービスや機能を実装できる。

(2022/7/8)

現行製造プロセスとも高い親和性：FeFETによる機械学習、音声認識の精度は95.9％

東京大学は、強誘電体トランジスタ（FeFET）を用いた「リザバーコンピューティング」と呼ばれる機械学習方式を開発し、高い精度で音声認識を行うことに成功した。採用したFeEFTは現行の製造プロセスと親和性が高く、LSIの大規模化も比較的容易とみている。

(2022/6/15)

アナリストの“眼”で世界をのぞく：議事録作りだけではない　AI「音声認識」の可能性を考える

画像認識技術に比べて音声認識技術の用途は限定されている。ビジネスの場での活用は、コールセンターでの電話音声の文字起こしや会議の議事録作成にとどまっているのが現状だ。しかし、将来的には売り上げに貢献することが期待されているという。

(2022/5/27)

LINE、AI文字起こしサービス「CLOVA Note」を提供　複数話者の聞き分けも可能

LINEは5月24日、AI文字起こしアプリ「CLOVA Note」（iOS／Android、Webブラウザ）ベータ版の提供を始めた。CLOVA NoteはAI音声認識技術「CLOVA Speech」を活用し、収録した音声をテキストに変換できるサービス。ブックマーク機能やキーワード検索も可能だ。

(2022/5/24)

「Microsoft Teams」×「Cortana」で会議改革かTeamsのWeb会議を快適にしたいなら「Cortana」を使うべし？

オフィス出勤再開の動きを受け、Microsoftが「Microsoft Teams」のさらなる利用促進策として打ち出したのが、音声認識技術「Cortana」との連携だ。TeamsとCortanaの組み合わせは、会議をどう変えるのか。

(2022/5/9)

本体にも付属へ：「Fire TVシリーズ」の第3世代リモコンに「ABEMAボタン付き」登場　2980円

Amazonの映像デバイス「Fire TVシリーズ」に対応する音声認識リモコンに、Amazon Musicボタンの代わりに「ABEMA（アベマ）ボタン」が搭載されたものが登場する。ボタンを押すと「ABEMA」アプリが一発起動するもので、Amazon.co.jpや家電量販店ではこのリモコンが付属するFire TVシリーズも順次発売される。

(2022/4/15)

Microsoft、約200億ドルでの音声認識のNuance買収完了

Microsoftは音声認識大手Nuance Communicationsの買収を完了した。「ヘルスケア、金融、サービス、小売、通信を含む業界全体の会話型AIおよびアンビエントインテリジェンスのリーダー」である同社と成果ベースのAIを構築していく。

(2022/3/7)

「音声認識」関連の最新 ニュース・レビュー・解説 記事 まとめ