インターシステムズが、文章の文字列から意味のあるデータを抽出できる日本語対応の自然言語解析技術「iKnow Japanese」をリリースした。この新技術について、同社のプロダクトマネージャー、ベンジャミン・デ・ボー氏に話を聞いた。
日々生成される膨大な量のテキストデータ。この無尽蔵なデータの中には、非常に有用な情報が隠れている。だが、自然言語で書かれたテキストデータは、人にとっては意味がある文章でも、コンピュータにとっては単なる文字列に過ぎない。したがって、これまでコンピュータが文章の中から意味のあるデータを取り出すことは、非常に難しかった。
しかし、人工知能や機械学習と自然言語学を組み合わせた自然言語解析技術の発達により、現在は自然言語のテキストデータから意味のあるデータを取り出せるようになった。そうした自然言語解析技術の中でも、特に異彩を放っているのがインターシステムズの「iKnow」である。
iKnowはもともと、ベルギーのi.Know社が開発した自然言語解析技術。2010年にインターシステムズが同社を買収して、開発が引き継がれ、ビッグデータ分析処理を高速に実行できる新世代のデータプラットフォーム製品「InterSystems Caché」に組み込まれている。
そのiKnowに2016年10月、日本語対応版「iKnow Japanese」が追加された。インターシステムズのiKnow担当プロダクトマネージャー、ベンジャミン・デ・ボー氏によると、日本語は10番目の対応言語であり、アジア言語としては初めての対応だという。
iKnowは、従来の自然言語解析技術とどのような違いがあるのだろうか。デ・ボー氏は、「辞書やオントロジー(概念)を定義することなく、文章の中から意味ある部分を抽出できるところに違いがあります」と説明する。
「従来の自然言語解析技術は、あらかじめ定義した辞書やオントロジーに基づいて文章を単語に分割する形態素解析などの『トップダウン手法』が一般的です。特に日本語は、欧州言語のように単語をスペースで区切らないという特徴があります。そのため、文章内の単語を検索してその出現回数に焦点を当て、単語の並び方は考慮しないBag of Wordsモデルで解析が行われています。ところがこの手法で解析すると、文章の要約を得ることが難しくなる場合があります」(デ・ボー氏)
例えば、「米利上げで世界経済減速の懸念が広がる」というニュースの見出しをトップダウン手法で解析したとすると、「米/利上げ/世界/経済/減速/懸念」といった単語に切り分けられる。ここまで切り分けられると、「米」という単語が「コメ」を意味するのか「アメリカ合衆国」を指すのかが曖昧になってしまう。そのため、文章の要約を示したときに異なる意味に捉えられる可能性もある。
これに対し、iKnowは辞書やオントロジーを定義せず、文章そのものから意味のある「エンティティ」(まとまり)を見つけ出す「ボトムアップ手法」による解析を行う。上述した例の場合、iKnowは「米利上げ」「世界経済減速の懸念」というエンティティを抽出する。このように、テキストデータを個々の単語ではなく、意味のある単語のかたまりとして扱うため、エンティティに含まれる単語それぞれの意味を明確にして、曖昧さを取り除く。これにより、従来のツールに比べてテキスト解析精度が高まるわけだ。
「トップダウン手法の場合、解析精度を高めるためには、膨大な数の専門用語や固有名詞を辞書に定義する必要があるなど、手間のかかる作業が発生します。しかしiKnowは、辞書から単語を検索せず、自然言語の構造だけを基に文法解析します。人が書いた文章そのものから、意味のあるエンティティを見つけ出すというこのボトムアップ手法の解析を、私たちは『オープンエンド型の発見』と呼んでいます。これは自然言語そのものの特徴を利用するため、専門用語や固有名詞に依存することはありません」(デ・ボー氏)
さらにiKnowには、独自のアルゴリズムによって文法構造からエンティティ同士の関連性やつながりの強さを計算。文章の中で優位なエンティティを表すので、長い文章の要点を押さえるのに役立てることができる。
このように高度な自然言語解析処理を行うiKnowは、具体的には膨大なテキストデータという非構造化データを解析し、それを意味のある構造化データに変換した上で、さまざまなビジネスシーンに役立てられている。
「例えばある製薬会社は、治験対象となる患者コホート(同一の性質を持つ集団)を特定するためにiKnowを使用しています。対象疾患に関する危険因子の情報は、必ずしも患者データベースの中に存在しているわけではありません。そのため、カルテに記載されている医師の所見などのテキストデータを解析することが非常に重要になります。しかし、従来の単語単位の言語解析では、言葉の微妙な区別が読み取れないという課題があり、iKnowを導入。ボトムアップ手法によってカルテから効率的に情報を収集し、患者コホート対象者を選択するためのルールを構築しています」(デ・ボー氏)
この例のような、医療や製薬などのヘルスケア分野をはじめ、法律や判例などの法曹分野、メディアのアーカイブなど出版分野などに利用されている。さらに最近は、消費者の声やトレンドを分析するマーケティング分野への応用も目立って増えているという。
「50種類以上のメディアを発行する英国の出版社では、一つの記事を複数の媒体の紙面構成に合わせて編集する際に、iKnowを利用することで、効率性を高めています。またベルギーのある政党では、TwitterやFacebookなどのSNSに書かれたテキストデータを収集し、iKnowを使って解析処理を行って評判を分析するなど、ブランドモニタリングに活用しているような事例もあります」(デ・ボー氏)
これらのソリューション事例は、いずれもインターシステムズのパートナー企業によるものだ。冒頭で述べたようにiKnowは、InterSystems Cachéの組み込みテクノロジーとして提供される。そのため、各パートナー企業がCachéをデータベースとして採用し、そのAPIセットを使ってアプリケーションを組み上げることになる。
「すでに日本でも複数のパートナーがiKnow Japaneseを利用したソリューションの開発に着手しています。例えば、図書館システムをはじめとする文教ソリューションに強みを持つ京セラ丸善システムインテグレーションでは、膨大な書誌データをiKnowで解析して、これまで気付くことが難しかった新たな本を利用者にお薦めするなど、本との出会いを演出する付加価値サービスの提供を計画しています」(デ・ボー氏)
また、電子カルテシステムなどの医療ソリューションを手掛けるデータキューブでは、InterSystems Cachéを基盤とした臨床データ分析システム「medCube(メディカルキューブ)」にiKnowを使ったフリーテキスト検索や解析機能を加えて、アプリケーションの拡張を行った。これにより、関連性や類似性によってナビゲートして気付きを与える発見的なシステムへ発展できるものと期待を寄せているという。ちなみに同システムは、2017年1月に熊本大学医学部附属病院が試用を開始する予定だ。
構造化されていないテキストベースのデータの中から、意味のある言葉を抜き出して、それぞれの関係性やつながりを可視化してくれるiKnow。日本語に対応したことで、今後さらに活躍の場を広げていくのは間違いない。
Copyright © ITmedia, Inc. All Rights Reserved.
提供:インターシステムズジャパン株式会社
アイティメディア営業企画/制作:ITmedia エンタープライズ編集部/掲載内容有効期限:2016年12月27日