News 2001年7月2日 03:00 PM 更新

開発者に聞く「Word日本語文書校正ツール」進化の跡

Word 2002の日本語文書校正機能のポイントは,“助詞の用法”にあった。

 2年前,レドモンドを訪れたのは「Office 2000」発売直後,Wordの罫線機能と日本語文書校正ツールについて話を聞きに来たときだった。そのとき日本語文書校正ツールの開発を率いた奥村薫氏は,MS-IMEの開発を経て「Word 2000」開発のために米Microsoft本社に移籍した人物。自然言語処理学会にも積極的に論文を発表している同氏は,頻繁に日本を訪れているのだが,今回はMicrosoftの自然言語グループがある本社のWest Campusで話を伺った。


日本語文書校正ツールの開発を率いた奥村薫氏

コンピュータの不完全さを割り切る

 筆者は2年前,奥村氏に話を聞いてからWordの文書校正ツールに大きな興味を抱いてきた。その理由は,彼女が女性的な細かい配慮をアルゴリズムに忍ばせながら,ある面,非常に豪快に割り切った考えで自然言語処理技術を製品に使いこなしていたからだ。

 Word 2000で文書校正ツールの開発に取り組んだ奥村氏は,比較的単純な方法で実用性を向上させた。それは,明らかな間違いと確信を持てる場所以外は,「赤線」ではなく「緑線」でその場所を指摘するようにしたこと,そして日本語文法としては正しくなくとも,現代的な言い回しであれば許容するようにしたことだ。

 もちろん,日本語の間違いを発見するツールとして,間違い発見率も向上していたが,あまりに修正の指摘が多すぎると,ユーザーは実用性とは無関係に「面倒くさいことを言う偉そうな機能」と感じる。

 どんな機能も,エンドユーザーに使ってもらわなければ意味がない。だから,なるべく控えめに,ある意味「コンピュータが指摘するのだから,間違いがあって当然。でも間違う可能性があるなら,なるべく相手が不快に思わないようにしよう」と割り切った考え方を導入したわけだ。

 実際に使ってみたWord 2000の文書校正ツールは,確かに間違った指摘が減り,より使いやすく感じた。また,単語の揺らぎ(“コンピュータ”と“コンピューター”が混在するなど)の検出機能が加わったことも実用性を向上させていた。

 奥村氏はコンピュータによる自然言語処理が技術的に難しいとしながら「文書校正ツールの指摘が間違った動作をすることによるマイナスと,指摘を素早く行うことで正しい日本語文書を作成するための手助けをするプラス面を考えたとき,結果としてプラスになっていればいい」と話す。

「助詞の用法」に着目したWord 2002の文書校正ツール

 Word 2000とWord 2002を使い比べてみると,入力ミスの発見率は,体感的にも向上していることが分かる。もっとも,体感できると言っても何日分かの新聞データを入力した,というわけではない。筆者が個人的な文章入力ツールとしてWordを使ってみた感想である。

 しかし,こうした感覚を裏付けるデータも,奥村氏の実験の中で出ているようだ。入力ミスの発見率は,過剰な間違い検出を増やさずに向上させることに成功しているという。

 また,おもしろいところでは「ペへベ」などの誤りを検出する機能がある。つまり,ひらがなとカタカナで見た目の区別が付きにくく,IMEの変換訛りを気づかないケースである。長音記号とハイフンの使い分けに関しても,同様の指摘を行うようだ。単語の揺らぎ処理に関しても,文章の全オブジェクトを横断的にチェックする機能が加わっている。

 だが奥村氏によると,Word 2002に実装された文書校正ツールの目玉は,助詞の用法チェックルールなのだそうだ。助詞の用法違いは書いている本人はその場で気付きにくく,また編集者の手が入ることで間違った助詞になってしまうことも多い。しかし,人間が見てもよく考えないと正しい答えがわからないケースも見受けられ,なかなか検出は難しい。

 奥村氏は,助詞を間違えた部分を間違いデータベースから引っ張り出してリストを検証した結果,2つのパターンを導き出したという。このパターンは,助詞の用法違いをすべて発見するというものではないが,いずれもなかなかユニークでわかりやすく,かつ有用なものである。

 1つ目は「と」の用法。「〜と」に対して「〜とが」「〜とを」が出現するパターンを検出する。パターンに一致すれば,間違いではない。「と」の用法にはタイプの打ち間違えによるミスが多く,例としては「アメリカの歴史をたどことができる」などがある。これは,“とが”があるのに,その前に対応する「〜と」がない。つまりこの例はタイプミスで,「たど(る)ことができる」が正解ということだ。

 もう1つは,「の」の用法間違い発見だ。「の」は基本的に体言,つまり名詞を修飾する助詞だが,変にねじれた文章では体言ではなく用言,つまり動詞を修飾してしまう間違いを犯すことがある。

 実際には例外もあり,かなり複雑なアルゴリズムやルールがあるそうだ。場面によっては文章を書く速度も要求されるわれわれのような職業では,内容を書きながら練っているときに,ねじれた文章を作ってしまうことも少なくない。

 文書校正ツールのためだけにWordを使うという人はあまりいないだろうが,もし手元にあるなら試してみるといい。完全に除去するわけではないが,単純なミスを減らしてくれる効果は十分にある。

関連記事
▼ 「Office XP」がいよいよ登場
▼ 「Office XP」の目玉となる2つの機能

関連リンク
▼ Word 2002のページ

[本田雅一, ITmedia]

Copyright © ITmedia, Inc. All Rights Reserved.