私たちは何気なく言葉を使っているが、「言語」は人間と他の動物を区別する、大きな要素の一つだ。最近の研究では、言語に近いものを有する生物も存在するのではないかと指摘されているが、いずれにしても人間ほど、他の個体とのコミュニケーションにおいて言語に重きを置いている生物はいない。
人間の脳の中で言語を司る部分は、人類の歴史の中で、比較的後から進化してきたと考えられている。それだけ言語というものは、現代の人間にとっては当たり前でも、実際には複雑な情報処理を必要とするものだといえる。
したがって、それを機械に理解させるという取り組みは一筋縄ではいかない。自然言語処理を支える学問領域である「計算言語学」は1940年代に萌芽が見られ、50年代から本格化したといわれている。それ以来さまざまなアプローチが提唱され、それらを使った具体的なアプリケーションが登場した。
例えば2000年代に、テキストマイニングや検索エンジンに注目が集まったことを覚えている方は、「形態素解析」という言葉を耳にしているはずだ。これは自然言語で書かれた文を、意味をなす最小の単位(形態素)に分割し、それが文法上でどのような属性や性質を持つかを把握する技術を指す。
例えば「これは私の本です」という文を与えると、「これ(指示代名詞)/は(副助詞)/私(代名詞)/の(格助詞)/本(名詞)/です(助動詞)」のように分析できる。こうした比較的単純な分析(もちろんこれを実現するにしてもさまざまな理論が必要)でも、大量のアンケート結果の中から頻出する話題を把握するなど、一定の成果を得ることができる。
ただ、日本語は英語に比べて形態素に分解するだけでも難しい場合がある。また「ヤバい」のように、文脈や構文で意味の変わる単語があったりと、形態素解析だけでは目的を達成しづらいことも多い。そのため実際には形態素解析を補足する手法や、それ以外のアプローチも組み合わせたアプリケーションが開発されている。
そこにAI技術がどう活用されているかだが、以前解説した画像認識や音声認識と同様に、2010年代からディープラーニングを自然言語処理に応用しようという動きが盛んになってきた。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR