そんな中で、興味深い動きが生まれている。有益なAIを実現するために、それに必要なデータの整備を効率的に行おうというものだ。
その一例が、TICO-19という取り組みである。これは「COVID-19のための翻訳イニシアチブ」(Translation Initiative for COVID-19)の略で、COVID-19に関連するさまざまな情報を機械で翻訳できるように、関連データを提供しようというものだ。運営しているのはTWB(Translators without Borders、国境なき翻訳者団)という非営利団体で、翻訳者や言語学者などの専門家や、テクノロジー関連企業(AmazonやGoogle、Microsoft、そして前述のAppenなど)が参加している。
英文を訳すために、Google翻訳など無料の機械翻訳サービスを利用するのはすっかり一般的な行為となった。自分が勤めている会社で、より高度な機械翻訳サービスと契約しているという人も多いだろう。筆者は翻訳家としても活動しているが、その目から見ても、現在の機械翻訳は簡単な文章ならば問題のないレベルの訳文を生成できるようになっている。しかし少し専門的な文章になると、とたんに翻訳の精度が落ちてしまう。その一因は、翻訳AIをトレーニングするためのデータが不足しているためだ。
最近の機械翻訳アプリケーションの大半が、機械学習をベースに構築されている。翻訳AIに大量のデータを与えてトレーニングすることで、高い精度を実現しているわけだ。もちろん機械翻訳サービスを開発している企業の多くが、翻訳の品質を上げるために大量のデータを揃える努力をしているが、それでも限られた組織ができることには限界がある。そのためCOVID-19のように、特殊な分野や新しいテーマの情報を翻訳しようとすると、どうしても精度が落ちてしまうことが多い。
そこでTICO-19は、COVID-19関連のAIトレーニング用データを準備し、広く一般に提供することで、翻訳AIがパンデミックに関する情報を正しく翻訳できるよう支援しているわけだ。具体的には、「TICO-19翻訳ベンチマーク」として、COVID-19に関する30のドキュメントを公開している。この中にはオリジナルの文書(英語で書かれている)と、それを人間の翻訳家が36の言語に翻訳した文書が含まれている。またCOVID-19関連の専門用語の訳語リストなども作成しており、これまで翻訳の対象とされた言語はおよそ90に達しているそうだ。
TICO-19の取り組みは、大きな意味を持つと言えるだろう。言うまでもなく、新たな感染症への対策を行う上で、最新の情報を正しく流通させるというのは不可欠な要素だ。AIはそこに大きく貢献できると期待されるが、そのためには正しいトレーニングが必要であり、それには正しいデータが欠かせない。他にもさまざまなパンデミック/ヘルスケア関連の翻訳プロジェクトが世界各地で生まれており、データ整備の重要性はさらに増していくと考えられる。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR