デジタルペン「Denshi-Pen」の文字認識率80%を試す

富士ゼロックスが発表した手書き情報入力システム「Denshi-Pen」。通常のOCR処理よりも高精度で文字認識ができるというので、実際に使ってみた。

» 2011年12月09日 18時00分 公開
[上口翔子,Business Media 誠]
ボタンは「電源」と、データをPCに転送する「更新」の2種類

 富士ゼロックスが12月9日に発売したデジタルペン「Denshi-Pen」。手書き文字の認識率が約80〜90%と、通常のOCR(光学式文字読み取り)処理と比較して高い点が特徴だ。また本体価格も1万479円と、他のデジタルペンよりもややお得感がある。編集部では実機を入手したので文字認識精度がいかほどか、試してみた。

 デジタルペンと言えば他に、ドットパターンを印刷した専用紙を利用する「アノトペン」や、デジタルペンの軌跡を超音波と赤外線で認識する「airpen」、タブレットとデジタルペンを組み合わせた超音波検知方式の「Inkling」などがある。その中でいうとDenshi-Penはアノトペンと同じ、ドットパターンを印刷した専用用紙に手書きした文字をPC側でデジタル変換する仕組みを取っている。


  ペン本体(左)、電源は単4電池1本(右)


  ペン底のUSB接続口(左)とペン先(右)

 Denshi-Penを使うには、ペン本体と専用用紙、ソフトウェア「Denshi-Pen Studio」、USB 2.0ケーブル(携帯電話などを接続する際に使う片側mini Bタイプ)、そしてソフトウェアをインストールするPCが必要だ。PCを除いて全て同梱している。サポートOSはWindows XP/Vista/7。説明書に沿ってソフトウェアをインストールすれば、すぐに利用できる。

 使い方は簡単だ。まず、ペン本体の電源を入れて専用用紙に文字を書く。その後USBケーブルで本体とPCを接続。ペン本体にある「リンク」のボタンを押してペン先で文字を書いた用紙のページをタッチするとソフトウェアが自動起動し、読み込みを開始する。5秒ほどでデジタル化したデータを表示する仕組みだ。

 専用用紙のデザインは「スケジュール」「議事録」「フリーフォーム」の3パターンある。まずはスケジュールを試してみた。

スケジュール

 吹き出しや黒塗りの個所ができているが、どのように読み取るのだろうか?

読み取り後

 手書きの読み取りでは、問題なく全て読みとっている。ちなみに白い吹き出しで「!」マークが出ているのは確からしさが低いものを示している。

 次にこれをテキストデータに変換してみよう。上部バーの「表示切替」を「手書きデータ」から「変換結果」に変更する。

手書きデータの変換後(左)とそれをテキスト化したもの(右)の比較

 吹き出しや黒塗り、2行書きしている個所を除き、変換できた。具体的には、以下表に示した58文字中49文字。文字認識精度としては84.5%だ。

手書き文字(58文字) テキストデータ化できた文字(49文字)
1|2|7|ペ|ー|ジ|更|新|F|a|c|e|b|o|o|k|イ|▲(黒塗り)|ベ|ン|ト|作|成|メ|ー|ル|返|信|忘|年|会|調|整|ビ|ジ|ネ|ス|メ|ガ|ネ|男|子|コ|ン|テ|ス|ト|終|了|と|っ|て|も|さ|み|し|い|…|。| 1|2|7|ペ|ー|ジ|更|新|F|a|c|e|b|o|o|k|イ|ベ|ン|ト|作|成|メ|ー|ル|返|信|忘|年|会|調|整|メ|ガ|ネ|男|子|コ|ン|ス|ト|終|と|て|さ|み|し|い|。|

 「忘年会」と「調整」の間にある「、」は変換後に記載したもの

 次に別ページでもう一度。今度は議事録で先ほどよりも文字を多めに書いてみた。すると先ほど同様、幾つか「!」マークが付いているものの、無事に手書きが変換できた。テキストデータはどうだろう?

手書きの変換(左)とそれをテキストデータ化したもの(右)の比較

 126文字中、認識できたのは116文字。文字認識精度は92.0%だった。

手書き文字(126文字) テキストデータ化できた文字(116文字)
編|集|会|議|執|務|室|内|2|0|1|1|1|2|6|1|1|0|0|1|2|0|0|情|報|共|有|上|口|土|肥|堀|内|岡|田|吉|岡|鷹|木|P|V|対|策|と|記|事|予|定|年|末|に|向|け|て|P|V|を|増|や|し|た|い|!!|→|ト|ッ|プ|ペ|ー|ジ|の|レ|イ|ア|ウ|ト|検|討|→|記|事|本|数|を|増|や|す|記|事|予|定|→|対|談|→|特|集|→|出|張|上|口|記|事|1|0|本|書|く|上|口|1|2|1|1|ト|ッ|プ|ペ|ー|ジ|改|修|吉|岡|1|2|中| 編|集|会|議|執|務|室|内|2|0|1|1|1|2|6|1|1|0|0|1|2|0|0|情|報|共|有|上|口|土|肥|堀|内|岡|田|吉|岡|鷹|木|年|末|に|向|け|て|P|V|を|増|や|し|た|い|→|ト|ッ|プ|ペ|ー|ジ|の|レ|イ|ア|ウ|ト|検|討|→|記|事|本|数|を|増|や|す|記|事|予|定|→|対|談|→|特|集|→|出|張|上|口|記|事|1|0|本|書|く|上|口|1|2|1|1|ト|ッ|プ|ペ|ー|ジ|改|修|吉|岡|1|2|

 ちなみに今回、なぜか議題の「PV対策と記事予定」の行は全て認識できなかった。さらにこの行だけ手書きの文字がうっすら残っている点がやや気になるところだ。

 こうした場合には、後から編集できる機能を使うとよい。該当の文字にカーソルを合わせてダブルクリックすると、以下のように編集画面が出てくる。この操作により万が一文字認識ができなくても修正できるのだ。

誤変換を編集

 最後に、決められた枠を意識せずに自由記述ができるフリーフォームを使ってみよう。せっかくなので縦書きや(テキストデータ化はできないが)イラストも入れてみた。

手書きデータ(左)とテキストデータ(右)の比較。意外にも「!」マークは1個所だけだった!

 手書きの認識はなかなかのものだった。このままテキストデータ化すると……? と、ここで1つも変換されないというトラブルが発生した。説明書をよく見てみると、フリーフォームの場合には変換したい部分をあらかじめカーソルで選択しておき、その後、表示切替をする手順のようだ。

 絵の部分や縦書きはやはり変換できないようだ。その部分の文字を含めた場合と、含めなかった場合、それぞれで精度を出してみた。すると、絵と縦書きの分を含めると文字情報は81文字中59文字、含めない場合は51文字中50文字の変換できた。文字認識精度は各72.8%、98.0%だ。

縦書き、イラスト部分を含めた場合
手書き文字(81文字) テキストデータ化できた文字(59文字)
2|0|1|1|年|も|あ|っ|と|い|う|間|に|最|終|ラ|ウ|ン|ド|!|1|年|が|過|ぎ|る|の|が|は|や|す|ぎ|る|…|来|年|は|も|っ|と|い|い|年|に|な|り|ま|す|よ|う|に|。|←|書|き|損|じ|虫|で|も|、|絵|は|認|識|し|な|い|よ|っ|て|言|わ|れ|た|イ|ヒ|ヒ|悪|い|顔| 2|0|1|1|年|も|あ|っ|と|い|う|間|に|最|終|ラ|ウ|ン|ド|!|1|年|が|過|ぎ|る|の|が|は|や|す|ぎ|る|来|年|は|も|っ|と|い|い|年|に|な|り|ま|す|よ|う|に|。|損|よ|っ|て|言|わ|れ|た|
縦書き、イラスト部分を含めなかった場合
手書き文字(51文字) テキストデータ化できた文字(50文字)
2|0|1|1|年|も|あ|っ|と|い|う|間|に|最|終|ラ|ウ|ン|ド|!|1|年|が|過|ぎ|る|の|が|は|や|す|ぎ|る|…|来|年|は|も|っ|と|い|い|年|に|な|り|ま|す|よ|う|に|。| 2|0|1|1|年|も|あ|っ|と|い|う|間|に|最|終|ラ|ウ|ン|ド|!|1|年|が|過|ぎ|る|の|が|は|や|す|ぎ|る|来|年|は|も|っ|と|い|い|年|に|な|り|ま|す|よ|う|に|。|

 以上3つの結果を平均すると、文字認識の精度は83.1%(3つ目のイラストと縦書きを除いた分も含めると86.8%)。既出のニュースでも触れている通り、なかなかのものだった。富士ゼロックスでは、本体の先端に搭載したデジタルカメラで専用紙のドットパターンを認識し、かつ筆順を記録することで高めているそうだ。

 当面は法人向けのみだが、日常的に手書き文字をデジタル化したい業務に携わっている人は試してみるといいだろう。

Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ