TEI のお勉強

資料のテキスト化をしなければなりませんね、といいつつ移動が重なったり考えがまとまらなかったり、ということでしばらく何も書いていませんでした。テキスト化をするにしてもマークアップはどうしても避けて通れないわけですが、どういったタグ付け規則をつかっていいのかわからないということが問題のひとつだったのでした*1デファクト・スタンダードXMLを使いましょうといったところで、これは汎用性はあるものの個々人でタグの定義を好き勝手に決められてしまうので、もうちょっとみんながしたがう縛りみたいなものがあったらいいのにね、と思っていたわけです。「縛り」というと聞こえはわるいですが、みんなの行動を規律するルール=制度があってはじめてわたしたちは最適な行動なるものを選択できるようになるわけです。


そこで、この間わたしもちょっと勉強しましたよ。なんかないのかなー、と思って探しはじめたらなんのことはない、言語学や文学の電子テキスト版作成でほとんどデファクト・スタンダードになっているという、TEI (Text Encording Initiative: テキスト・コード化イニシアティヴ) なんてものがすぐ出てくるじゃないですか。ここはこの「長いもの」に巻かれるかどうか考えどころです。というわけで、これからTEIのお勉強をしていきたいと思います(「トリセツ」なんて名乗れるほどTEIについてよくわかっていないので、これはあくまでも「お勉強」です)。


わたしは、TEIはおろかXMLでさえあやしいところですが、こんな「お勉強」の記録でも出さないよりは出したほうがましかな、と思ってこれから書いていきます。何しろ日本語でTEIについて読めるものは本当に少ないですから。今は日本にいないので、紙で読めるものについてはあまりよくわかりませんが、ウェブ上を見渡してみてもほとんど目につくようなものはありません。TEI Lite( TEI U5 )のメモとか電子化テキストの記述方法とかありますが、どちらも情報はとても古いです。なにしろ、XML対応となるTEI P4(2002)が出る前のテキストですから。そのようなわけで、生半可な勉強の成果でもここに書いておけば少しでも役にたつんじゃないかな、というわけです。もし訂正や有益な情報があれば教えていただけるとさいわいです。インドにいる今の環境では、ほとんどウェブ上の情報だけが頼りなので、どうもこころもとありませんが、とりあえずはじめてみることにします。


リソースがあまりにないので、正面突破ということで、Text Encoding Initiative のウェブ・ページから入ることにします。次回から書いていきます。

*1:それよりもっと大きな問題は、歴史研究の徒がテキスト化を一所懸命進めたがらないということですが、それはそれとしてそのうちまた考えます。しかし、前回のエントリにコメントをいただいた大山さんのように、個人でがんばっていらっしゃる方もいますから、捨てたもんではありませんが。