第110回:Webテキスト処理法(その1)

未分類

 いろいろな問題解決をWebで行うようになってきているが、そのためには膨大なテキストを処理しなくてはいけない。検索エンジンはWebのテキストをキーワードに分けて処理をしている。Webテキスト処理法では、このようなテキスト処理の背後にある技術について勉強する。テキストは単なる文字列として与えられるが、これを処理するには、まず単語単位に分割する必要がある。このためには正規表現やオートマトンを用いる。また、文章を適切に処理するには文法的な処理が必要で、このためには構文解析を行う必要がある。最近のWeb上のデータはXMLで書かれていることも多く、XMLデータの処理についても取り扱う。Webテキスト処理法で学んだ技術は、単にWebのテキストの処理だけでなく、プログラミング言語の処理(コンパイラ)や自然言語処理などでも必要となる基礎技術となる。
(以上、シラバスより)

 普段何気なく使っている「Yahoo」や「Google」などの検索サービス。インターネット上にある膨大な情報の中から、どのようにして情報を識別し「検索結果」として表示しているのか。
 二進法という考え方がある。「1」か「0」、つまり「ある」か「ない」か。検索エンジンも、実はこの単純な考え方がベースとなっている。あるキーワードを打ち込んで検索をかけると、そのキーワードに該当するものだけをあぶり出すのである。
 だが、ここで問題となって来るのが、「完全一致」や「部分一致」の問題。当然のことながら、一つのWebサイト・Webページには文字や写真など膨大な情報が載っている。仮に「慶應」というキーワードで検索したとして、真っ白なページに「慶應」という二文字しか書かれていない情報など、おそらく存在しないし、それはユーザーが求めている情報ではない。入力したテキストから、いかにして「求めている情報」まで辿り着くか。そういった基礎的な理論を学んでいく。

 次回以降、具体的な授業内容について紹介する。

慶應義塾大学 環境情報学部 水谷 晃毅