第111回：Webテキスト処理法（その２）

2011/05/14

未分類

　今回は、「Web」について。

　普段何気なく「Web（ウェブ）」という言葉を使っているが、そもそもは「World Wide Web」の略である。「インターネット」がコンピューターネットワーク自体を指すのに対し、「Web」はそのアプリケーションである。マウスでクリックすると違うページが表示されたり、画像が表示されたり・・・いまでは本当に当たり前になっているが、そういった情報を提供するハイパーテキストシステムを「Web」と呼ぶのだ。

　Webが出現し始めたのは、1990年頃。Tim Berners-Leeというイギリス人のエンジニアが、スイスのジュネーブにある欧州原子核研究機構（CERN）で開発したのが始まりとされている。当時の目的は主に「情報の管理」。CERNのいろいろなプロジェクト、使っているソフトウェアモジュールなどの情報を一手に管理しよう、と開発されたのである。

　Webの3つの発明としてよく挙げられるのが、「HTML(Hypertext Markup Language)」「HTTP（Hypertext Transfer Protocol）」そして「URL（Uniform Resource Locator）」だ。この3つの略語はかなり有名だが、それぞれの正式名称と意味を完璧に言える人は、おそらくごくわずかなのではないだろうか。HTMLはWebページの記述言語、HTTPは転送方法、URLはページ指定の方法である。

　高校の情報の授業でもこの「HTML」というのは学んだが、文字を解析する際に重要になってくるのが、「文字コード」。日本語の文字コードは「JIS文字集合」と呼ばれ、ひらがな・カタカナ・漢字などが表示される。それに対し、世界の文字コードを集めたものが「Unicode文字集合」で「UTF-8」や「UTF-16」などがこれに当たる。一般的に「文字化け」と呼ばれる現象は、この文字コードを調節することで改善できることが多い。Webという、世界中がひとつに繋がっているものだからこそ、「文字」に関する問題も当然存在するわけだ。

慶應義塾大学　環境情報学部　水谷　晃毅