MicrosoftのAI技術は今、ここまで来ている

日本マイクロソフトがパートナー向けのカンファレンス「Japan Partner Conference 2017」で、同社のAI技術の最先端を披露した。認識技術では人間を超えるものも出てきている。

» 2017年09月02日 07時00分 公開
[園部修ITmedia]

 日本マイクロソフトが9月1日、日本国内の販売パートナー向けイベント「Japan Partner Conference 2017 Tokyo 〜Inspire Japan!〜」を開催した。

 基調講演で話された内容は、7月に米国ワシントンD.C.で開催した「Inspire 2017」の内容に沿ったものだったが、日本のパートナーに向けて、2018年度(日本マイクロソフトの会計年度は7月〜翌年6月まで)の注力分野や、実際に動き始めている事例などを紹介した。

 中でも興味深かったのが、現在同社が展開するコグニティブソリューションを実際に活用するデモ。MicrosoftのAI技術が実用レベルにまで進化していることがよく分かる内容だった。

 言葉で説明するよりも、エバンジェリストの西脇資哲氏が行ったデモを映像で見た方が分かりやすいと思うので、デモの一部を動画でお届けする。

 まず見てほしいのは、音声認識とリアルタイム翻訳のデモだ。こと音声認識と画像認識においては、AIの能力は人間のレベルを超えることもあるという。人間の音声誤認識率は5.9%(最新の研究では5.1%)とされているが、MicrosoftのAIを活用した音声認識機能は、2017年に音声誤認識率5.1%を達成したという。さらに、文脈を理解して言葉の意味を推測するため、同音異義語なども適宜認識・修正しながらテキスト化できる。

 画像や動画内の認識率も人間を超えるレベルに達しており、個別に追加で学習させることで、より精度を高めることができるという。

 なお、このデモに使用されているMicrosoft Translatorは、PowerPoint 2016などに組み込まれており、製品を持っている人は手元で試してみることが可能だ。

AIの認識精度 AIの認識精度は人間を超えるものも出てきた
PowerPoint 2016に組み込まれているMicrosoft Translatorを使った音声認識とリアルタイム翻訳のデモ
AIに「ヒアリ」と「他のアリ」を学習させ、写真に写っているのがヒアリかそうでないかを判定させるデモ

 AIの認識精度が上がっているだけでなく、一部のタスクはプログラミングなどせずともできてしまう手軽さも実現。こうした技術をビジネスに取り入れる動きも加速している。

 このほか、エイベックスと共同で、映像認識を活用して、監視カメラに写ったライブ会場にいる観客の表情から、感情の変化、要は“盛り上がり”を検出し、定量的に分析をする実験なども行っていることを明らかにした。ステージや物販エリアに設置したカメラで撮影した映像から、AIで顔を認識して、笑顔がどれくらいあるか、といった分析をして、その変化を見たり、ピークを検出したりできる。セットリストと組み合わせ、どの曲が一番盛り上がっていたかを可視化したり、ライブごとのデータを比較して、今日のライブが以前のライブよりどれくらい盛り上がったか、といったことを、感覚ではなく数字で認識したりできる。

AI技術を応用することで、ライブに来た観客の表情を読み取り、盛り上がりを定量的に評価する実験なども行われている AI技術を応用することで、ライブに来た観客の表情を読み取り、盛り上がりを定量的に評価する実験なども行われている

 膨大なデータを元に、人間には到底かなわないスピードで処理や分析ができるAIは、こうした分野での活用が今後急速に進みそうだ。

Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ