News 2003年8月8日 02:26 PM 更新

「十二単」をまとったスウェーデン製日本語手書き認識ソフト(1/3)

スウェーデンのDecuma社が開発した日本語手書き文字認識ソフトが、ソニーの「CLIE」など日本メーカーのPDAで頻繁に搭載されるようになっている。同製品のどこが違い、何が優れているのか。同社の技術責任者に話を聞いた。

 Decuma ABは主にPDA向けの手書き文字認識ソフトウェアを開発しているスウェーデンの会社である。日本向けには「Decuma Japanese」が製品化されていて、Pocket PCやPalm用として各社が採用している。最近ではソニーの「CLIE PEG-NX73V」と「PEG-NX80V」に標準搭載されたため、ご存知の方が多いかもしれない。

 日本語IMEや日本語の文字認識というと、どうしても日本で開発されたものの方が優秀なのではないかと思ってしまいがちだ。だが、Decuma Japaneseは認識率やユーザーインタフェースの面でも非常に評価が高いようだ。

 Decuma社の製品は主にOEMとして供給されている。これは、製品のターゲットがPDAやスマートフォンであることから、ハードウェアメーカーから直接ユーザーに提供される形態の方が理に適っているからだ。

 もっとも、最初からバンドルされるケースばかりではなく、HPのJornadaにキャンペーンで提供されたり、あるいはNTT DocomoのMusea用に期間限定でダウンロードされるようなケースもある。なお、このようにあとからインストールされるものでも、ソフトウェアの動作自体はROMで最初から供給される場合と変わらないとのことである。

 さて、Decumaの手書き文字認識ソフトの面白い点は、文字認識のしやすさもさることながら、基本的なアルゴリズムが、日本語版もラテン版(ラテン文字を使う主要欧米言語向け)や中国語版などと同一であるということだ。素人考えでは、ひらがな/カタカナはともかくとして、画数やストロークの少ないラテン文字と漢字を同じアルゴリズムで認識できるのだろうかと思うのだが、それができてしまうだけではなく、非常に優れているのだから驚かされる。

 そこで、同社のCTOであるマーティン・リンドベリー(Martin Lindberg)氏に、お話を伺ってみた。


Decuma ABのCTO、マーティン・リンドベリー氏

――Decumaの手書き文字認識は基本的なアルゴリズムがどの言語でも一緒、というのがとても不思議な気がしますが……。

 Decumaが最初に開発したアルゴリズムは、ヨーロッパの筆記文字(ラテンアルファベット)に最適化されたものでした、

 基本的にこの手法は一つの曲線を認識するものですが、一方でこれは複数の曲線やストロークへも容易に拡張が可能でした。

 このアルゴリズムは、例えばひらがなやラテンアルファベットの小文字のような曲線の多い文字や曲がりくねった文字を認識するのにも非常に適しています。

――ひらがなはともかくとして、漢字のような画数の多い文字にも拡張可能なのでしょうか?

 商品開発は、ラテン版、中国語版、日本語版の順に行ったのですが、中国語版の開発をするという決定を行ってすぐに、このアルゴリズムの修正や拡張をする必要があると気が付きました。

 問題はいくつかありました。

 まず最初に、中国語の文字、つまり漢字は多くの字画から成り立っています。そしてそれぞれの字画は単なる直線か曲線から成り立っています。

 そのような訳で、最初のステップではこうしたタイプの文字を正確に認識できるようにしました。

 次の問題としては、日本人はさほどでもないようですが、中国では漢字をしばしば崩して(草書で)書く傾向にあります。崩して書かれた字は、あるところではつながってしまい、またあるところでは曲がって書かれます。このような点も文字を認識する際に考慮しなくてはなりません。

 3番目の問題点は、漢字の文字数(種類)の多さでした。

[河野寿, ITmedia]

Copyright © ITmedia, Inc. All Rights Reserved.

前のページ | 1/3 | 次のページ