最新記事一覧
JR東日本は9月3日から、生成AIを搭載した自動音声アシスタントによって、列車の運行情報を案内する実証実験を開始する。生成AIの活用により、高精度での音声認識が可能になったとしている。
()
Femtosenseは、同社のNPU(ニューラルプロセッシングユニット)とABOV SemiconductorのMCUを統合した、スパースAI(人工知能) MCU「AI-ADAM-100」を開発した。クラウドに接続されていないデバイスでも、エッジに音声言語インタフェースを実装できるという。
()
アドバンスト・メディアは、マンションの仕上げ検査などで利用されている建築工程管理プラットフォームサービス「AmiVoiceスーパーインスペクションプラットフォーム」について、病院、介護施設、工場、倉庫、学校、オフィスビルといった幅広い現場でも利用できるよう、音声認識エンジンを強化する。
()
アドバンスト・メディアは、画像/文字/音声認識を活用して配筋写真撮影の事前準備を省力化するアプリ「AmiVoice 配筋TORUZO」に新機能を追加し、建設工事全般の写真管理を効率化するアプリ「AmiVoice 写真TORUZO」を開発した。
()
2024年問題を目前に、建設DXによる業務効率化が急務となっている。だが、デジタルツールを導入してみたものの、使いこなせず成果を得られない中小企業は多い。建設業に特化したAI音声認識サービスを提供するアドバンスト・メディアに、建設現場でのデジタル活用の課題や解決につながる生成AIを活用した新サービスなどを聞いた。
()
AIの音声認識技術が発達するにつれて、「オレオレ詐欺」などの犯罪に対抗できる日が来るかもしれない。
()
米Microsoftが、大規模言語モデル「GPT-4」などのAPIをクラウドサービス「Microsoft Azure」経由で使える「Azure OpenAI Service」の新機能を発表した。米OpenAIが発表したばかりの「GPT-4 Turbo」や「GPT-3.5 Turbo」の新バージョンに対応する他、画像生成AI「DALL-E 3」や音声認識システム「Whisper 3」もサポートするという。
()
NSWは、音声認識機能を持つ産業用スマートグラス「RealWear」にMicrosoftの生成AI「Azure OpenAI Service」を搭載した、対話型作業支援ソリューションのトライアル提供を開始した。
()
菱洋エレクトロの音声認識AI技術が、小泉成器の冷暖房機器「ホット&クール プレミアム」に採用された。ユーザーの仕様にカスタマイズして提供する音声認識モジュールを内蔵し、オフラインでの音声操作と音声応答機能を搭載した。
()
米OpenAIのチャットAI「ChatGPT」に、画像認識、音声認識、発話機能が搭載された。今後2週間かけて、PlusユーザーとEnterpriseユーザーに展開するという。
()
生成系AIが注目を集める中、従来の画像認識や音声認識のAIも依然として非常に有用です。この記事では、誰でも手軽にできる疑似体験を通じて、会議時の音声を文字起こしをする「議事録AI」の作成を試みます。一緒にAIの世界へ一歩踏み出しましょう!
()
香港大学や清華大学に所属する研究者らは、ミリ波(mmWave)信号から音声を認識するストリーミング自動音声認識(ASR)システムを提案した研究報告を発表した。
()
従業員にとって安心・安全なオフィスを実現する手段となり得るのが「音声認識」技術だ。どのように役立てることができるのか。音声認識の主要3技術を例に、具体的な生かし方を紹介する。
()
セレンスは、IoTアプリケーション向けに設計した低フットプリントAIスイート製品「Cerence Audio AI Lite」「Cerence Input AI Lite」を発表した。
()
ggml.aiは、GPUなしでチャットAIを動作させる機械学習用のtensorライブラリ「GGML」を開発していると発表した。
()
5月末から日本でもiOS向け「ChatGPT」アプリが利用可能になりました。基本的な機能や使い勝手はWebと変わりませんが、オープンソースの音声認識システム「Whisper」による音声入力に対応しているのが大きな違いです。もう1つ。便利な機能があります。
()
Metaは、音声技術の対応言語を拡大することを目指す「Massively Multilingual Speech」(MMS)プロジェクトの成果として、音声認識モデル、音声合成モデル、言語識別モデルとコードをGitHubで公開した。
()
米OpenAIは5月18日(現地時間)、対話型AIの「ChatGPT」をiPhone(iOS)向けアプリとしてリリース。まずは米国で提供し、今後数週間以内に他の国への展開も予定する。音声認識システム「Whisper」への対応で言語の聞き分けが可能。
()
コーネル大学の研究所は、低電力のウェアラブル無声音声認識インタフェース「EchoSpeech」を発表した。
()
業務プロセスを抜本的に変革したいとき、音声認識の技術をどのように取り入れるかが重要だ。現実的なユースケースを紹介する。
()
Microsoftのブラウザ「Edge」にAIを搭載した「新しいBing」が搭載されたことで、ブラウザをEgdeに乗り換える人もそこそこあったのではないだろうか。筆者もAI搭載のBingを使ってみたい一心で、ChromeからEdgeに乗り換えてみたところだ。
()
OpenAIは、対話に特化した言語モデル「ChatGPT」と音声認識モデル「Whisper」をAPIで利用できるようにした。
()
Speakeasy Labsは、英語スピーキングに特化した特化型学習アプリ「Speak(スピーク)」の日本語正式版を2023年2月9日にリリースした。独自開発の自動音声認識技術やChatGPTを支えるAI技術、英語学習ノウハウにより対人英会話以上の体験を提供するとしている。
()
今回は、poiqの頭脳の部分の話である音声認識とかAIとの対話の話。実はAlexaとの連携機能もあり、poiq経由でAlexaの処理をするのは、poiqオーナーにとってすごく自然なことでもあります。
()
仕込むなら怒られない程度にしましょう。
()
Amazonのスマートディスプレイ「Echo Show 15」にソフトウェア更新が行われ、新たにFire TVとして利用できる機能が追加される。別売の音声認識リモコンを用意すれば、通常のFire TVシリーズと同じように使える(タッチパネル上の仮想リモコンでも操作は可能)。
()
村田製作所は、「CEATEC 2022」において、開発中の小型かつ低消費電力のエッジAI(人工知能)モジュールを披露した。同社は既に、グーグルと共同開発した「Coral Accelerator Module」を製品化し量産しているがその小型版の位置付けとなる。
()
トヨタ自動車とGoogle Cloudは2022年10月11日(米国時間)、次世代インフォテインメントシステムに関するパートナーシップを拡大すると発表した。
()
米Google Cloudが、トヨタとのパートナーシップを強化。トヨタ北米法人に、インターネット接続が不要なAI音声認識システム「Speech On-Device」を提供する。
()
Amazonの「Fire TVシリーズ」で使える音声認識リモコンに、上位モデルが登場する。ボタンバックライトやプログラマブルボタンを搭載した他、リモコンを捜索する機能も追加されている。
()
旭化成エレクトロニクス(AKM)は、車載機器の音声認識/処理に向けたDSP内蔵CODEC「AK7749」を開発、サンプル出荷を始めた。
()
精度向上により、近年利用が広まっている「ニューラル機械翻訳」。その仕組みを、自分で動かしながら学んでみましょう。第3回は「JoeyNMT」を音声に対応させて、音声認識や音声翻訳のタスクをエンドツーエンドで解くモデルを構築してみましょう。
()
アドバンスト・メディアは2022年7月26日、対話型AI音声入力で現場作業中のデータ入力を効率化するMicrosoft Excel向けアドイン「AmiVoice スーパーボイスエントリー for Excel」の提供を開始すると発表した。
()
現在、β版として無料で提供中の文字起こしアプリ「CLOVA Note」。LINEの音声認識AI「CLOVA Speech」を使った文字起こしの精度はどの程度なのか、実際に試してみた。
()
エストニア政府は、行政サービスの仮想アシスタントの運用を開始した。AI技術や音声認識技術を活用した先進的なプロジェクトはどのように開始し、どこまで進んでいるのか。
()
アドバンスト・メディアは2022年7月7日、同社の音声認識AI技術をアプリケーションに組み込んで活用できる開発者向けプラットフォーム「AmiVoice Cloud Platform」の説明会を開催した。自社のアプリケーションに音声認識エンジンを利用したサービスや機能を実装できる。
()
東京大学は、強誘電体トランジスタ(FeFET)を用いた「リザバーコンピューティング」と呼ばれる機械学習方式を開発し、高い精度で音声認識を行うことに成功した。採用したFeEFTは現行の製造プロセスと親和性が高く、LSIの大規模化も比較的容易とみている。
()
画像認識技術に比べて音声認識技術の用途は限定されている。ビジネスの場での活用は、コールセンターでの電話音声の文字起こしや会議の議事録作成にとどまっているのが現状だ。しかし、将来的には売り上げに貢献することが期待されているという。
()
LINEは5月24日、AI文字起こしアプリ「CLOVA Note」(iOS/Android、Webブラウザ)ベータ版の提供を始めた。CLOVA NoteはAI音声認識技術「CLOVA Speech」を活用し、収録した音声をテキストに変換できるサービス。ブックマーク機能やキーワード検索も可能だ。
()
オフィス出勤再開の動きを受け、Microsoftが「Microsoft Teams」のさらなる利用促進策として打ち出したのが、音声認識技術「Cortana」との連携だ。TeamsとCortanaの組み合わせは、会議をどう変えるのか。
()
Amazonの映像デバイス「Fire TVシリーズ」に対応する音声認識リモコンに、Amazon Musicボタンの代わりに「ABEMA(アベマ)ボタン」が搭載されたものが登場する。ボタンを押すと「ABEMA」アプリが一発起動するもので、Amazon.co.jpや家電量販店ではこのリモコンが付属するFire TVシリーズも順次発売される。
()
Microsoftは音声認識大手Nuance Communicationsの買収を完了した。「ヘルスケア、金融、サービス、小売、通信を含む業界全体の会話型AIおよびアンビエントインテリジェンスのリーダー」である同社と成果ベースのAIを構築していく。
()
三菱電機は2022年2月28日、高精度な音声認識技術や多関節ロボットの最適化によりティーチング(教示)の負荷を大きく低減した形で動作プログラミングを自動生成する複合技術「ティーチングレスロボットシステム技術」の開発を発表した。ロボット活用のハードルを下げることで、従来ロボットが使われてこなかった食品工場などでの用途拡大を狙う。
()
文教大学川合研究室の研究チームは、音声と姿勢で認証する自動ドアの開閉システムを開発。自動ドアに設置したカメラで姿勢推定と音声認識を行い、あらかじめ決めておいたポーズと言葉が合致すれば開く。
()
日本オラクルが、AIサービス群「Oracle Cloud Infrastructure AI」を日本でも提供する。一部サービスについては既に提供を始めているという。
()
筑波大学のデジタルネイチャー研究室が「DCEXPO 2021」に、話した声をリアルタイムに音声認識し、透明ディスプレイに字幕として表示するシステムを展示した。実際に体験してみたが、話を理解する速度が格段に上がって便利だった。
()
Googleのオリジナルスマートフォン「Pixel 6 Pro」は、独自プロセッサ「Google Tensor」を搭載している。これが、機械学習ベースのAI処理に大きな改善をもたらしており、カメラの画像処理だけでなく音声認識処理で大活躍する。普段使いのスマホとしての利便性と合わせてチェックしていこう。
()
サイバーエージェントの研究組織「AI Lab」が、音声合成や音声認識といった分野を専門に研究する組織「完全自動対話研究センター」を新設した。接客や問い合わせ対応と言った分野でコミュニケーションを自動化するニーズが高まっていることを受けた施策という。
()
アドバンスト・メディアは、AI音声認識とデジタル記録機能を備えるスマート内覧会アプリ「AmiVoice スーパーアテンダーDX」を発売した。
()
京セラが、音声認識技術を活用し、話した内容を字幕としてアクリル板などに表示できる「わかりやすい字幕表示システム」を開発した。マスク着用時やアクリル板越しでの会話でも意思疎通しやすくするという。
()