第111回:Webテキスト処理法(その2)
今回は、「Web」について。
普段何気なく「Web(ウェブ)」という言葉を使っているが、そもそもは「World Wide Web」の略である。「インターネット」がコンピューターネットワーク自体を指すのに対し、「Web」はそのアプリケーションである。マウスでクリックすると違うページが表示されたり、画像が表示されたり・・・いまでは本当に当たり前になっているが、そういった情報を提供するハイパーテキストシステムを「Web」と呼ぶのだ。
Webが出現し始めたのは、1990年頃。Tim Berners-Leeというイギリス人のエンジニアが、スイスのジュネーブにある欧州原子核研究機構(CERN)で開発したのが始まりとされている。当時の目的は主に「情報の管理」。CERNのいろいろなプロジェクト、使っているソフトウェアモジュールなどの情報を一手に管理しよう、と開発されたのである。
Webの3つの発明としてよく挙げられるのが、「HTML(Hypertext Markup Language)」「HTTP(Hypertext Transfer Protocol)」そして「URL(Uniform Resource Locator)」だ。この3つの略語はかなり有名だが、それぞれの正式名称と意味を完璧に言える人は、おそらくごくわずかなのではないだろうか。HTMLはWebページの記述言語、HTTPは転送方法、URLはページ指定の方法である。
高校の情報の授業でもこの「HTML」というのは学んだが、文字を解析する際に重要になってくるのが、「文字コード」。日本語の文字コードは「JIS文字集合」と呼ばれ、ひらがな・カタカナ・漢字などが表示される。それに対し、世界の文字コードを集めたものが「Unicode文字集合」で「UTF-8」や「UTF-16」などがこれに当たる。一般的に「文字化け」と呼ばれる現象は、この文字コードを調節することで改善できることが多い。Webという、世界中がひとつに繋がっているものだからこそ、「文字」に関する問題も当然存在するわけだ。