TEI Lite入門 第1章:はじめに

TEI Liteのドキュメンテーションの第1章です。

過去に訳した部分:右側のコラムにある、[カテゴリー]->[TEILite-Documentation]

ライセンスはGNU General Public License (version 2)
==========================================



TEI Lite: 文書交換のためのコード化:TEI入門―TEI P5 準拠版
ルー・バーナード & C.M. スパーバーグ=マクイーン
原文


1 はじめに

テキスト・コード化イニシアティヴ(TEI)のガイドラインは、電子形式で保存された情報を交換したいと思うすべてのひとのために用意されたものです。このガイドラインは、テキスト情報の交換に主眼を置いていますが、画像情報や音声情報といったその他の形式も視野に入れられています。ガイドラインは、新しいリソースの作成にも、既存のリソースの交換にも同じように使うことができます。

ガイドラインは、さまざまなマシン上のコンピュータ・プログラムによる処理をたすけるために、文書の特定の特徴を明示するための手段を提供します。この明示化するという処理は、マークアップあるいはコード化と呼ばれます。コンピュータ上におけるテキストの表示は、どれでもなんらかのマークアップの形式を用いています。TEIが登場したのは、現在の学問の世界が、互換性のない多種多様なコード化スキームにつきまとわれているのをどうにかするためです。また、いまひとつの理由として、ますます広い範囲において、電子形式テキストの学問的利用法が明らかになってきたからでもあります。

TEIガイドラインは、さまざまな形式言語を用いて表現できるような、コード化スキームを記述しています。ガイドラインは、その初版ではSGMLを用いていましたが、2002年以降はこれがXMLに置き換えられました。これらの言語は、要素属性によってテキストを明示化するという点と、テキスト内でそれらをどのように表すかを制御する規則を持つという点で共通しています。TEIによるXMLの利用は、その複雑さと汎用性において野心的なものだと言えます。しかし、基本的には他のXMLマークアップ・スキームと異なるところはなく、XMLがあつかえる汎用ソフトウェアならどれでもTEI準拠のテキストを処理することができます。

TEIのスポンサーは、コンピュータ・人文学協会(Association for Computers and the Humanities)、コンピュータ言語学会(Association for Computational Linguistics)およびコンピュータ文学・言語学会(Association for Literary and Linguistic Computing)で、現在は4つの主要大学によってホスティングされた、会員制コンソーシアムが運営・開発を担っています。資金は、アメリカ人文学国民基金(National Endowment for the Humanities)、 欧州共同体委員会第8総局(Directorate General XIII of the Commission of the European Communities)、アンドルー・W・メロン財団(Andrew W. Mellon Foundation)、カナダ社会科学・人文学研究委員会(Social Science and Humanities Research Council of Canada)などから得ています。ガイドラインは、世界中のさまざまな学問分野に属する数百もの研究者たちの参加のもと、6年間にわたる開発期間を経て、1994年5月に初めて公開されました。その後ガイドラインは、デジタル・ライブラリの開発、言語関連業界、そしてワールド・ワイド・ウェブそのものの発展にもますます影響を与えるようになりました。2001年には、TEIコンソーシアムが設立され、1年後にガイドラインの改訂版を出しました。これは、XMLに対応するための全面的改訂でした。つぎに、2004年にさらなる全面的改訂がおこなわれます。これは、新しいスキーマ言語の効用を最大にひきだすためのものでした。このガイドラインは、2005年に発表されています。いま手にされているTEI Liteマニュアルは、もっとも新しいガイドラインであるTEI P5のヴァージョン0.3に準拠するものです。

TEIの全体的な目標は、策定作業が開始時された1987年11月、ニューヨークのヴァッサー大学での、企画会議の最後の議論ですでに明示されています。この「ポキプシー原則」〔訳注:ポキプシーはヴァッサー大学の本部がある場所の地名〕は、一連の設計文書においてさらに彫琢されることになります。ガイドラインによると、これらの設計文書はつぎのようなものでなければなりません。

  • 研究のために必要なテキストの特徴を十分表現できること
  • 単純にして明快そして具体的であること
  • 特殊用途のためのソフトウェアを用いなくても研究者にとってあつかいやすいものであること
  • テキストの厳格な定義と効果的な処理を可能にするものであること
  • ユーザ定義による拡張ができること
  • 既存あるいは開発中の標準に準拠すること

学問の世界は広く多様です。ガイドラインが、広く受け入れられるためには、つぎのことが保証されなければなりません。

  1. さまざまな特徴をもったテキストの共通部分が簡単に共有できること
  2. テキストに専門的な追加的特徴を簡単に加えられること(あるいは不要なものを除去できること)
  3. ひとつの特徴について、同時に複数の(パラレルな)コード化ができること
  4. マークアップを、最小の要件のもと、ユーザ定義により多様化できること
  5. テキストとコード化についての、適切なドキュメンテーションが提供されること

これらの設計目標の結果、ひとそろいの膨大な要素と勧告の集合が作られることになりました。そこから操作しやすいよう抽出したサブセットが、このTEI Liteです。

完全なTEIスキームによって定義されている、数百におよぶ要素群から、わたしたちは便利な「初心者向けセット」を選びだしました。これは、ほぼすべてのユーザが知っておくべき要素からなっています。TEI Liteを用いて作業をした経験は、完全なTEIスキームを理解するためにも非常に役立つことでしょう。この経験はまた、TEIスキームの中の特殊なパーツを、一般的なTEIの枠組みの中にどのようにして組み込むのかを学ぶときにも有用なはずです。

このTEIスキームのサブセットであるTEI Liteを定義したときに、わたしたちが設定した目標は、つぎのように要約できるでしょう。

  • すでにある慣例(たとえばOxford Text Archiveでおこなわれているような例)の水準に照らして、十分に広い範囲のテキストをあつかえること
  • 既存のテキストのコード化だけでなく、(いま読んでいるテキストのように)新しいテキストの作成にも役立つこと
  • さまざまなXML処理ソフトウェアであつかえること
  • TEIガイドラインに記述されている拡張メカニズムを用いて、完全版TEIスキームから派生させられること
  • 他の目標と両立するかぎりで、できるだけ小さく単純であること

わたしたちの試みが成功しているかどうかは、読者のみなさんが自分自身の目的をTEI Liteが満たすかどうかで判断をくだされることでしょう。1995年にわたしたちが初版を書いたときには、実際のテキストのコード化作業に使ってみて、少なくとも部分的には成功したのではないかという手応えを得ました。Oxford Text Archiveは、かつては独自のマークアップ・スキームを使ってコード化をしていましたが、それらをSGMLに変換する際に、TEI Liteを使っています。ヴァージニア大学ミシガン大学の電子テキスト・センターも、蔵書をコード化するにあたって、TEI Liteを用いました。そして、テキスト・コード化イニシアティヴ自身も、この文書をふくむ現行の技術文書を作成するのに、TEI Liteを用いているのです。

わたしたちは、チュートリアルのテキストとして適当なようにと、この文書を自己完結したものにしようと努めました。ただし、ここでTEIコード化スキームのすべての詳細がカバーされているとは思わないでください。この文書に記述されているすべての要素については、TEIガイドライン自体のほうに完全な記述があります。これらの要素に関する正式な参考情報およびTEI Liteに記述がない他の多くの要素については、TEIガイドラインのほうが参照されるべきです。なお、この文書ではXMLに関する基礎知識を前提としています。