ITmedia NEWS > ネットの話題 >

「Google日本語入力」開発者が語る、その狙い

» 2009年12月07日 20時47分 公開
[ITmedia]

 Google日本法人が公開した新日本語入力システム(IME)「Google日本語入力」について、開発した同社の技術者が12月7日、開発の経緯や狙いなどを話した。予想を超える反響があったといい、「早い時期にβが取れる形で提供したい」と意気込む。Googleが来年リリースを予定している「Chrome OS」にも組み込まれる予定だ。

 同IMEは12月3日にβ版として公開。Webから集めた情報を基に自動的に生成した辞書を搭載し、新語や専門用語、芸能人の名前などに強いのが特徴だ。冒頭の数文字を入力すると候補語を変換するサジェスト機能や、数字を16進数に変換する機能など、Googleらしい機能も備えている。Windows XP/Vista/7(それぞれ32ビット版)とMac OS X(Leopard以降)に対応し、無料で利用できる。

photo 豊富な語彙やサジェストが注目されがちだが、前後の文脈を考慮した連文節変換も。数字を16進数に変換できるのはGoogleらしい機能

エンジニアの情熱の成果

 開発は、ソフトウェアエンジニアの工藤拓さんと小松弘幸さんの20%ルール(勤務時間の20%を好きなことに使える制度)で始まった。

 工藤さんは、Google検索で正しい可能性があるキーワード候補を推薦する「もしかして」機能の開発を担当しており、同機能が誤変換を効果的に修正できていたことから「これをIMEに生かせないか」と考えたという。小松さんは日本語予測入力変換システム「PRIME」や、「POBox」のEMACS版を開発するなどしており、IME開発を希望してGoogleに入社したという経緯があった。

photo 小松さん

 小松さんによると、「最初の数カ月はコードを書かず、デザインディスカッションに費やした」という。当初は2人の20%プロジェクトだったが、IMEや日本語処理システムの開発に携わっていた技術者が集結。「IMEを作りたくて集めたのではなく、もっといいIMEを作りたいと集まった」と、優れた人材がそろっているGoogleならではの好条件が威力を発揮。「成功例、失敗例を持っているので、ノウハウを注ぎ込んでアーキテクチャを設計した」という。

 複数のOSに対応するマルチプラットフォーム、オープンソースソフトウェア(OSS)の活用というコンセプトは当初から前提としており、WindowsとMacintoshへの両対応に加え、OSSも積極的に活用した。小松さんは「エンジニアによる『もっといいIMEを』という情熱の成果。これはGoogleじゃないと作れないIMEだと自負している」と話す。

「Webのありのままを反映したエンジン」

photo 工藤さん

 同IMEのキャッチフレーズは「思いどおりの日本語入力」。公開後、「歴女」といったネットで頻出する流行語や芸能人の名前など、一般のIMEでは変換が難しい単語に強いことが話題になった。小松さんとともに開発を始めた工藤さんは、「Webのありのままを反映したエンジン」と表現する。

 IMEのコアとなる変換エンジンは、Googleがクロールで取得した膨大なWebのデータから構築した統計的言語モデルを活用して構成した。単語が登場する頻度の情報をデータベース化し、ランキング化することで変換精度を高めるというアプローチを取っている。辞書もクロールしたデータから機械的に生成することで、人力では難しい専門用語や新語などを網羅的に収録することが可能になっている。

 辞書と統計的言語モデルの作成には、Googleの大規模分散処理システム「MapReduce」を活用。数千台規模のクラスターを使い、頻度の計算などを効率良く行うことができるという。膨大なWebデータ、優れたエンジニア、豊富な計算機資源という条件が新しいIMEを生んだことになる。

photo Google日本語入力の特徴

 辞書の語彙数は公開していないが、辞書のデータサイズは50Mバイト以下。圧縮にかなり工夫をこらしており、「よくこの語彙数でこのサイズになったと自画自賛するほど」のコンパクトさになっているという。

 辞書はファイル単体としては独立しておらず、プログラムのバイナリに組み込む形にしてあるという。そのため、辞書をアップデートする際はGoogle Update経由でソフトウェア自体のバージョンアップという形で行うことになる(その際、再起動やログオフは不要にしている)。更新頻度は、最新の言葉を網羅できるような間隔がどの程度なのか、検討を進めているという。

 同IMEはローカル上で完全動作し、ネットに接続しなくても使用可能だ。IMEで入力した文字列をGoogleが収集しているのでは──という懸念に対し、シニアエンジニアリングマネージャの及川卓也さんは「個人情報は取得していないことを約束する」と否定する。

 インストール時にチェックなどで希望すればGoogleに統計情報と障害情報を送信することは可能だが、統計情報は入力文字数の平均値など、障害情報はクラッシュ時のダンプファイルなどで、入力した文字の情報は含まれないという。

IMEはWebアプリの重要コンポーネントに

photo 及川さん

 及川さんによると、IMEは「Webアプリケーションの重要なコンポーネント」という位置付けだ。

 WebアプリケーションはWebブラウザ上で動き、ブラウザはOS上で動作する。ユーザーはキーボードから語句を入力してWebアプリを利用するが、「この形できれいにいくのは英語圏だけ」だと及川さんは話す。つまり日本語の誤変換などで、「キーボードからタイプされたものがそのままWebアプリケーションに入力されない」という状況がGoogle的な現状認識だ。

 「Webを表示するためのフォントの種類やレンダリングが非英語圏は追いついていない」という認識をChromeブラウザの日本語版に活かすように、同IMEは日本語入力システムというものに対する、Googleによる、Google的アプローチによる1つの回答ということになる。

photo Google日本語入力は「非英語圏にも最適なWeb体験を提供する」ことを目指しているという

 その豊富な語彙数や無料というインパクトから他社製IMEとの比較も注目されているが、及川さんは「現在のIMEに対する不満より、Chromeもそうだが、われわれが作るならどういうものが作れるのか、という点が立脚点になっている」という。「他社との差別化はゴールにしていない。人の頭の中に浮かんだものをそのまま出すにはどうすればいいかということを考えている」。新しいアプローチを提示することで、縮小しつつあるIME市場が活性化するのでは──とも話す。

 ただ、「Webのありのまま」を反映した結果、語句の誤用例などがそのまま変換やサジェストに反映されてしまっている例が多いことも指摘されている。これは開発側も認識しており、「もしかして」で培った技術などを導入して修正する方法などを検討していく。

 だが及川さんは「IMEが誤用を出すのは問題だと思っているが、何を持って誤用とするのか考えが出せないでいる」とも話す。Webは生きた言葉の最前線だ。IMEが“言葉の裁判官”を買って出るべきなのか、ここは思想の問題と言えそうだ。

モバイル版の予定はなし

 要望が高かった64ビット版は近日中に公開する予定。使用したユーザーからのフィードバックや「この機能がないと使えない」といった要望が開発側に多く届いており、不具合の修正や要望を盛り込んだ形で正式版を早期にリリースしたい考えだ。

 Chrome OSに組み込む場合は、同OSがOSS化を予定しているため、組み込んだ部分についてはIMEもオープンソース化することを検討しているという。ただ、同IME自体がLinuxに対応する予定はないとしている。

 同日から「Google音声検索」の日本語対応が始まった。IMEと同様の技術が日本語音声認識に組み込まれているが、IMEはモバイルに対応する予定はないという。ユーザーニーズがPCとモバイルで異なる上、システム上の制約も異なるためとしている。

Copyright © ITmedia, Inc. All Rights Reserved.