ITmedia NEWS > 製品動向 >

Google翻訳のAPIに新機能 PDFやWord、Excelファイルのレイアウトを維持したまま中身を翻訳

» 2021年05月13日 13時32分 公開
[新野淳一ITmedia]

この記事は新野淳一氏のブログ「Publickey」に掲載された「PDFやWord、Excelファイルを読み込み、レイアウトなどはそのまま内容だけを翻訳。Google Translation APIに新機能」(2021年5月13日掲載)を、ITmedia NEWS編集部で一部編集し、転載したものです。

 Googleは、機械学習を用いて翻訳を行う「Translation API」の新機能として、PDF、Word、Excel、PowerPointのファイルを読み込み、レイアウトなどを保ちつつ内容だけを別の言語へ翻訳して出力する「Document Translation」を発表しました。

 具体的にはPDF、DOCX、PPTX、XLSXの形式のファイルを読み込み、元のファイルのレイアウトやフォーマット、見出し、パラグラフごとの区切りなどは変更せずに内容を翻訳し、元のファイル形式のままで出力をします。

photo

 Document Translation機能は、Translation API Advancedの機能に含まれています。Translation API Advancedには既存の機能として、用語集を設定して翻訳時に反映できる「用語集」機能や、複数のドキュメントをまとめてバッチ処理できる「一括処理」機能、機械学習のモデルとしてGoogleの汎用翻訳モデルかAutoMLによるカスタムな翻訳モデルを選択できるモデル選択機能などがあり、これらを組み合わせて利用することもできます。

 これまでPDFやWordファイルなどのいわゆるビジネスドキュメントを翻訳するには、内容をプレーンテキストに変換するためにコピー&ペーストを行い、翻訳を実行。出力された翻訳済みのプレーンテキストを元のビジネスドキュメントのレイアウトに戻すため、手作業でテキストをペーストして見出しなどのレイアウトを整える、などの作業が発生していました。

 ファイル形式もレイアウトもそのままに変換してくれるDocument Translation機能は、こうした手間を大幅に削減してくれることでしょう。

 ただし利用にはTranslation APIの呼び出しが必要なため、ファイルのドラッグ&ドロップなどの簡単な操作で行えるようにするには、そうしたアプリケーションをTranslation APIを用いて作る必要があります。今後そうしたアプリケーションの登場も期待されるでしょう。

Copyright © ITmedia, Inc. All Rights Reserved.