Gartner Column:第12回 Semantic Webが作る未来のWeb

【国内記事】 2001.08.28

 Semantic Webとは,現在のWebにコンテンツの意味情報を付加することで,Webの有用性を飛躍的に高めようと言う野心的なプロジェクトだ。Semantic Webのビジネスへの具体的影響を予測するのは時期尚早だが,その長期的な可能性はきわめて大きいと言ってよいだろう。

 最初に訂正しておきたいことがある。第9回では「W3Cが」Semantic Webを推進しているような書き方をしてしまったが,正確には,「W3Cなどの団体が中心となって」と書くべきであった。

 サイエンティフィック・アメリカン誌5月号に,W3Cのディレクターであるティム・バーナーズ・リー氏などによるSemantic Webの紹介記事が載っている(日経サイエンス8月号にも,翻訳記事が載っているようだ)。ややアカデミックな議論ではあるが,非常に興味深い内容だ。

 Webにセマンティクス情報を付加すると言ったが,今日のWebにおいてもある程度のセマンティクス情報は,HTMLのタグとして付加されている。たとえば,作成者,作成日付,タイトルなどだ。とはいえ,今日のWebのコンテンツは基本的には書式付き文字列(そして,もちろん,イメージや音声など)であり,サーチエンジンによるWeb検索では高度な文字列検索を行なっているに過ぎない。

 例えば,木曜日に診療している渋谷近辺の小児科を探しているとして,現在のサーチ・エンジンで「診療日 木曜日 渋谷 小児科」をキーワードとして検索してみたとしよう。目的とする病院以外にも関係がないさまざまなページ,たとえば,「診療日は木曜日以外の平日です」「院長:渋谷鉄平」などのテキストを含むページもリストされてしまうだろう。

 リストを頭から調べて必要な情報を探し出すのは人間の仕事になる。これは,今のサーチ・エンジンが,例えば「診療日」というデータを3文字の文字列,つまり,シンタックスとしての側面からしか見ておらず,その本当の意味(セマンティクス)を理解していないからだ。

 あらゆる病院のWebサイトにXMLでタグ付けをし,住所,診療日,診療科などの情報を付加することで,Webサイトの持つセマンティクスは飛躍的に大きくなり,より精度の高い検索を行なうことが可能になる。

 しかし,これだけでは十分ではない。

「診療日」という項目の意味することは人間にとっては自明でも,コンピュータにとっては依然として3文字の文字列であることは変わらないからだ。項目間の関連性,例えば「診療日は曜日の集合である」「診療日は病院の属性である」「小児科は病院の一種である」と言ったような情報を加えていくことで,データのセマンティクスはよりコンピュータに近いものになる。

 このような項目間の関連性を定義し,コンピュータが理解できるセマンティクスを構築するための標準が,W3Cで策定中のRDF(Resource Definition Framework)である。これは,インターネット全体を,AI時代に騒がれていたような知識ベースとして生まれ変わらせるような試みであると言えるだろう。あらゆるWebにXMLとRDFでセマンティクス情報を付加することで,未来のサーチ・エンジンは,例えば「徒歩圏に18時以降も診療している小児科があるような3DK以上の賃貸マンションを探して」といった高度な要求にも答えられるようになるだろう。

 もちろん,実際にあらゆる病院が自分のWebサイトを持ち,必要なセマンティクス情報をXMLとRDFを使用して付加するようになるまでにはかなりの時間がかかるだろう。しかし,それにもまして,重要な課題はセマンティクスの標準化である。第11回では,同一企業内においても,セマンティクスの完全な標準化を行なうことは困難であり,セマンティクスギャップが存在することが通常であると述べた。ましてや,インターネットの世界でデータのセマンティクスの完全な標準化が行なえる可能性はゼロに近いだろう。

 Semantic Webプロジェクトでは,この現実を直視し,セマンティクスの標準化に非集中型のアプローチが採られている。つまり複数の標準が存在することを許容しているのだ。このようなセマンティクスの体系,いわば,辞書のような存在を,同プロジェクトではオントロジー(元々は,哲学の分野で使用されていた用語を流用した)と呼んでいる。複数のオントロジー間で用語の相違があってもかまわない。それは,また同義語の辞書を作ることで解消していこうという完璧ではないが,現実的なアプローチである。

 現在,さまざまな領域,例えば通信業界やビジネスプロセス定義などの分野でオントロジーを構築する試みが始まっている。詳しくは,www.ontlogies.orgなどを参照してほしい。ものすごくアカデミックな議論をしているようであるが,目指すところは任意の組織間でのe-コマースを実現するというきわめて現実的な話なのだ。その意味では,Webサービスの将来にも大きくかかわってくるだろう。

 セマンティクスギャップを許容することで,ボトムアップの草の根型の発展を可能にした点は,Semantic Webの将来性を有望にしたと言える。しかしガートナーでは,Semantic Webが直ちにビジネスへの影響をもたらすとは考えていない。このテクノロジーが実績を積み,ハイプ曲線(第9回参照)における安定期に至るまでには,5年から10年の期間を要すると考えている。

 しかし,Webを巨大な知識データベースとして活用し,コンピュータとの自然なやり取りで情報を取得できることや,あらゆる企業が特定の標準にとらわれずに取引できるというのは胸躍るビジョンではないだろうか。

 さて,次回のトピックだが,実はまだ考えていない。ちょっとアカデミックな話が続いたので,軽めの話題をと思っている。

[栗原潔ガートナージャパン]