「翻訳AIを作るために、約50万対の翻訳データを手作業で作成した」――NHK放送技術研究所の担当者は、日英翻訳AI(人工知能)の開発についてこう説明した。
NHK放送技術研究所は5月28日、AIを活用したニュース原稿の日英翻訳技術を報道陣向けに公開した。一文が70〜80文字程度の原稿を、より正確に翻訳できるという。イベント「技研公開2019」(5月30日〜6月2日)で一般公開する。
操作画面は一般的な翻訳サイトとほぼ同じ。日本語の文章を入力して実行ボタンを押すと8秒程度で英訳する。ニュース原稿特有の文章を翻訳する用途に絞ることで、誤訳を従来の技術の3分の1まで減らした。NHKのニュース原稿は他のメディアに比べて一文が長い特徴があり、一般的な英訳システムの使用は難しいという。翻訳家はAIが英訳した文章を監修するだけで済むため、作業の高速化や人件費削減が望める。
この日英翻訳AIは、日本語の文章と英訳した文章を対にして学習させ、性能を向上させる仕組み。NHKが過去に放送した2カ国語放送や英語番組のデータに加えて、翻訳家が手作業で日本語を英訳した約50万対の文章を学習させた。
同研究所が開発するAI関連技術は、NHKが保有する過去の膨大な放送データを活用して何かを生み出すといったものが多いが、今回はAIを開発するためだけに英文を用意し、地道な学習作業を続けたという。
学習データの作成にかかった時間やコストについて、担当者は「ご想像にお任せするが、NHKで日々制作されるニュース原稿が1日約1000文というところから逆算すれば、データ作成にかかった時間も見当はつくだろう」と話す。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR