セマンティックウェブ

IDIA.JP > レポート > セマンティックウェブ
IDIA.JP

検索最大手のGoogleが2012年5月中に検索エンジンの改定を予定していることが報じられた。これは2007年に行われたユニバーサル検索の実装以来となる大規模なものであり、「セマンティック検索」を実現する第一歩と考えられている。セマンティック検索に代表される「セマンティックウェブ」についての基礎的な知識をまとめた。

セマンティックとは

セマンティックとは「意味に関する」や「意味論的」の意味を持つ。「意味論」とは言語学において、語や句、文などが持つ意味を研究する分野である。

セマンティックウェブとは

HTMLの限界

HTMLは文書の構造を記述するための言語であるが、単語の意味や単語が使用されている文脈を記述することはできない。たとえばある商品の近くに「9,800円」という価格が書いてある場合、それが定価なのか、売価なのか、それとも卸値なのか、HTMLはそれを記述できる仕様ではない。その結果、コンピューターで検索した時に曖昧さが生じたり、関連する情報をうまく見つけられなかったりする。

cf.情報のマークアップ

セマンティックウェブの概要

Webページにその内容に関する情報(メタデータ)を一定の規則に従って付与することで、コンピューターがより効率良く情報を収集し、より高い精度で情報を解釈できるようにする構想。

セマンティックウェブの目的

「データの集合」を「知識データベース」に発展させることを目的としている。これにより、Webでの情報の検索、共有、連携などがより簡単にできるようになる。

cf.情報とは何か?

セマンティックウェブの歴史と現状

セマンティックウェブの概念は1998年にティム・バーナーズ=リー(計算機学者・イギリス)によって提唱された。現在はWWWの標準化団体であるW3C(World Wide Web Consortium)の勧告をもとに、各関連技術の標準化が進められている。また現在徐々に普及しつつあるHTML5の仕様には、セマンティックウェブの要素が含まれている。

セマンティックウェブを支える概念と技術

セマンティックウェブの構築にあたり、これをコンピューターに自律的に処理させるためには、Webページに「メタデータ」を付与し、「オントロジー」によって意味の理解を補助する必要がある。

メタデータ

メタデータとは「情報に関する情報」である。Webページへのメタデータの付与はこれまでのWebでもなされてきた。しかしこれは制作者がそれぞれ自由に付与したデータのため統一性が無く、コンピューターが自律的に処理することができない。

オントロジー

オントロジーとは「ある分野の概念や用語、知識の明示的な仕様」のことである。セマンティックウェブでは「語彙の定義」や「語彙と語彙の関係」を記述したもので、メタデータを記述する用語を定義するのに用いられる。

その他の技術
XML(Extensible Markup Language)
メタデータを記述するのための構文などを提供
RDF(Resource Description Framework)
メタデータの表現方法についての枠組み
OWL(Web Ontology Language)
メタデータで使われる語彙や分類体系、言葉の相互の関連などの構造を記述する
URI(Uniform Resource Identifier)
情報に一意な識別子を与える

Googleのセマンティック検索

Googleはセマンティック検索の実現に向けて、検索エンジンに知識グラフ(ナレッジグラフ)のデータベースを利用することを決めている。「知識グラフ」とはGoogleが使用している言葉で、「知識の関係性」を記したものである。知識グラフ・データベースには人物や場所、物事の情報が蓄積されており、これらの相互関係に関する属性や定義情報が収められている。Googleは自社が収集したデータ以外にも商用のデータベースなどを購入することで、知識グラフのデータベースを充実することに注力している。

セマンティックウェブとWikipedia

「データベース化された知識」というとWikipediaが頭に浮かぶ。セマンティックウェブとWikipediaとの違いは次のような点にある。Wikipediaは人の手を介して情報の連関が組織化されてはいるものの、各コンテンツはコンピューターからみると単なる単語や記事の羅列にすぎず、それぞれのつながりを解釈することはない。セマンティックウェブに基づいて構築されたWebページは、データベースとして組織化、構造化されており、人間とコンピューターの両方から解釈できる。

Wikidata

Wikipediaの運営母体であるWikimedia Foundationはセマンティック技術を利用した知識データベース「Wikidata」という新プロジェクトを発表(2012年3月)している。Wikidataの成果をWikipediaが利用することで、全言語での記事の一貫性が向上し、加えて記事の質の改善が期待される。同時に、投稿者が少ない言語の編集者にとっては、管理や編集の手間の削減などのメリットがある。

セマンティックウェブがもたらすもの

情報検索精度の向上、曖昧さの回避

情報は常に増加傾向にあり、情報検索技術の改善が要求されている。セマンティックウェブで情報の意味をコンピューターが理解できれば、検索精度の向上が可能となる。またセマンティックウェブにより「同義語」により生じる曖昧さが回避できる。

cf.シソーラス

情報の価値の向上

データや情報を組み合わせてさらに有用な情報を提供できるようになり、それぞれの情報の価値が向上する。データベースメディアは保持するデータや情報の価値を高めることができる。

cf.データマイニング

「文字列」の検索から「物事そのもの」の検索へ

セマンティックウェブでは検索するものの対象が「文字列」から「物事そのもの」へ変化する。これはWebが扱うことのできる対象が「モノ」から「コト」へ変化する機会となりうる。「コト」を構造化データ(データベースに格納されるタイプのデータ)にすることがもたらす恩恵は、各種研究やビジネス、教育や文化育成など多くの分野に及ぶと考えられる。このように予想される影響の大きさから、セマンティッックウェブをWeb3.0と同義、あるいは主要要素とする考え方もある。

参考

記事のデータ

公開日2012年5月19日
カテゴリー
タグ
関連する記事

記事を共有する