文書のテキスト化 4 ― マークアップのお話

紙媒体文書のテキスト化についてのお話を、ずいぶん前にはじめたはずであったのですが、なぜテキスト化をするのかというお話をして以来、カメラをいじったりしているあいだにすっかりわき道にそれ、忘却のかなたに置いてきてしまったのでありました。


しかしそれでも、ウェブのこちらがわではこつこつと資料の複写やTEI(テキスト・コード化イニシアティヴのマークアップ言語)でのマークアップなどを日々おこなっておりましたので思うところもすくなからずあり、やはりここはお話のつづきをしやうと考えるにいたったわけであります。


さて、なぜ紙媒体の文書をテキスト・ファイル化したいのか、この点に関しては昨年のうちに何回かお話しいたしており、いまでも基本的な考えは変わってはおりません。で、つぎはなぜマークアップあるいはコード化を行なうのかをお話しすることにいたします。しかし、人文系歴史愛好家のみなさん(∋わたし)のこと、マークアップとかコード化とかいわれても意味不明というかたも多々いらっしゃることでありましょう。トリセツさせていただきます。


■ マークアップって何?

そもそもマークアップ(markup)という言葉は、コンピュータの誕生するずっと前から、出版業にたずさわるひとたちのあいだで使われていたものだと聞きます。それは、植字工やタイピストに、ある文章の一節をどのように印刷したりレイアウトしたりするのかを指示するために、原稿の中に書き込まれた注釈やしるしのことでした。出回る印刷物には残らない、太字やイタリックなどフォントのかたちを指示する記号や改行記号などが典型的な例でありましょう。


TEI言語のガイドライン編集者であるバーナードとバウマンはこれを一般化し、マークアップあるいはコード化(encoding)を、「テキストの解釈を明確化するための手段」と定義しています。そして、こうした定義を前提にすれば、伝統的な印刷されたテキストはすべて暗にマークアップされていると言えるというのです。英語の場合、句読点や大文字化、スペースなども、単語の切れ目やその他テキストの構造を読者の人間にわかりやすくするもので、マークアップの一種であると言ってよいわけであります。ただし、これらのマークアップはあくまでも「暗に」なされているものであり、コンピュータにとっては明示的ではありません。暗示的な構造を明示的にすること、特にコンピュータが明確に認識できるようにすること、これが現代のマークアップの目的です。


こうした、文書をマークアップするための決まりごとのひとまとまりの集合をマークアップ言語と呼びます。バーナードとバウマンによると、「マークアップがテキストとどのように区別されるのか、どのマークアップが許されるのか、どのマークアップが必要とされるのか、そのマークアップが何を意味するのか、これらをマークアップ言語は規定しなければならない」。こうした条件を満たすマークアップ言語はとうぜんいろいろありますが、典型的な例としてはみなさまウェブページを閲覧するときにいつもお世話になっているおなじみHTML(Hyper Text Markup Language)があります。あるいは、XMLという名前も聞いたことがあるかもしれません。次回は、わたしたちの関心に関係する主要なマークアップ言語の形成の流れを見ようと思います。


最後に多少本題とは離れた蛇足になりますが、「テキストの解釈を明確化するための手段」という、バーナードとバウマンによるマークアップの定義についてひとこと述べやうと思ふ。これは本当に重要なポイントであります。つまり、マークアップの作業には「テキストの解釈」がともなうということであり、具体的な作業に分け入っていかないとピンとこないかもしれませんが、ここで専門知識が要求されるということを意味するのであります。わたしは、歴史研究においては、これまで行なわれてきたような「何が事実か」について想像力を駆使して物語るといった「解釈」よりは、テキスト上の事実を明確化するという意味の「解釈」が中心的な作業になっていかざるをえないのではないかと考えるものであります。しかしこの点に関してはまたいずれ。