歴史研究のひとのための、テキスト化ことはじめ

前回のつづきで、TEI のお勉強にはいりたいと思ったのですが、いちおうこのブログはトリセツであることを目指していて、しかも一般に資料のデジタル化にそれほど熱心とはいえない歴史研究のひとたちをこっち側にひきこむことをひとつのねらいともしています。そこで、歴史研究のひとむけに、まずはそもそもテキスト化やマークアップをなぜやるのかという、超基本的なところからはじめることにしようと思いました。今回のお題は、「パパ、テキスト化が何の役に立つの?」です。(以下は正確さよりもおおざっぱに問題をつかむことを目的に書いています)


前に書いた文書のテキスト化についてのエントリでは、テキスト化することのメリットについては異論はないだろうという前提で話をしていましたが、じつはそんなコンセンサスはないんではないかと思うようになったので、そもそも〜話からはじめることにします。まずはテキスト化の前のデジタル化からです。


■なんでデジタル化するの?


デジタル化のメリットについてはあまり議論の余地はないと思いますが、話のついでなので一番基本からはじめましょう。デジタル化のメリットは、

  • 物理的な空間をほとんど必要としない
  • なので持ち運びしやすい
  • というかウェブ上に置いておけば「運ぶ」必要さえない
  • ネットワーク上で共有がかんたん
  • 整理がかんたん
  • 劣化しない
こんなところでしょうか。もちろん、劣化問題についてはマスター・コピーがそもそも低品質だとどうしようもないので記録する際(たとえば複写のとき)の技術が大切なんだよ、と口酸っぱく言われます。共有可能性についてもグーグルのようなサイトがオープンでなくなってしまったら、お金のないひとは一夜にして手も足も出なくなってしまう(現に囲い込み戦略をとっている ProQuest や Thomson Corporation のようなところもあります)、といったことがさんざん指摘されてはいます。あるいは、資料の画像ファイルの改ざんだって、少し画像処理ソフトをいじれればそんなに難しいことではありません。それでも、技術的には上のようなメリットが期待できるということにちがいはありません。


ときどき(というよりよくあることなのが驚きなのですが)資料のデジタル化とネットワーク上での共有に否定的な意見の歴史研究のひとがいますが、わたしはだれでもお金をかけずパブリック・ドメインにある情報にアクセスできるようになるのはとてもいいことだと思います。ほかのひとにとって手にとるのが難しい資料にアクセスできることで専門性が守られる、といったことはもう想像しにくくなってきました。宝さがしの時代はおしまいです(そのかわりほかにやらなければいけないことが山積です)。もちろん、ネットワーク上の情報の信頼性をどう確保するのかという問題は残ります。しかし、それは「だーからネットの情報なんてだめなんだよ」とひとこと言いのこして紙の世界に戻ってしまう理由にはなりませんよね。そうではなく、信頼性を確保するための制度や技術をつくっていくのが専門家のお仕事になるはずでしょう。そのために文献学とか資料批判とかでつちかわれてきた方法が生きるのです。だから、ネットワークの時代に歴史研究のひとたちはびくびくすることはないし、むしろ基本をきちんとやってさえいればかなりいい線をいけるはずだと思うのですが、それについてはまたあとで。


■なんでテキスト化するの?


グーグルとかインターネット・アーカイヴとかが画像ファイル用意してくれるし、たとえ間違いがあっても OCR で9割以上の正しい結果が出るのであればこまかいところはあまり気にしなくてもいいじゃん、と思うひともいるかもしれません。たしかに間違いがあっても、ある文書の中でキーワード検索するくらいならけっこうひっかかるものなので、ふつうに読むだけなら(あるいは気になるところをつまみ食いして読むだけなら)グーグルのもので十分実用的と言ってもいいのかもしれません。索引とか併用すればかなりいい線までいけそうですしね。


しかし、テキスト化のねらいはそんなところにあるのではありません。テキスト化というのは、誤解をおそれずにいえば、オリジナルの「複製」をつくるのとはちょっとちがうはずなんです。そうではなくて、機械が認識可能なデータを生成するというまったくちがう営みなんです。テキスト化の目標はもっとファナティックでもっと SF みたいな話のはずだとわたしは思います。


機械はある文書の画像ファイルの中身のテキストをそのものとして処理することはできません。機械が処理するのは画像そのものというより、認識の結果生成されたテキストです。機械はテキスト・データがないといろんな処理ができない、というかテキストの処理を中心に機械は進化してきたんです(きっとね)。そのようなわけで、テキスト処理機械にとっては、テキスト・データは紙に書かれた文書そのものではないし、その「複製」ともちがいます。このことは、パソコンのような機械にとってだけでなく、わたしたちの脳みそがテキストを処理するときでも同じことですね。


わたしたちの脳みそが文書を処理するときは、それぞれ個別に視覚情報をパターン認識して出てきたテキストをあつかっているのでしょう。毎回 OCR にかけてるようなものなんじゃないかと思います(専門的なことはわたしにはわかりませんけど)。しかし、わたしたちの脳みそが、苦手とする繰り返しのような処理を他のコンピュータにまかせてしまうことにしたとき、一度認識したテキスト・データを保存して何度も使いまわしできるというおまけがついてきたのでした。ラッキーですね。しかし、そうしたテキスト・データがもとの文書と関連しているということがどうやって保証されるのでしょうか。それは、メタ・データというものによって関連づけられるとみなされます。これはきまりごとです。


こうしたいとなみの行きつく先の夢は、すべての文の記録(紙媒体・音声を問わず)にテキスト・データが重なるように関連づけられ、すべての処理が自動化されるという世界でしょう。インターフェイスがどんなものになるかはわかりませんが、技術的には無理ではないと思いますし、SFでは陳腐すぎてお話にならないようなアイディアですね。でも、テキスト化のユートピアはそういうものだと思いますし、それに向けて少しずつではありますが地道に歩は進められています。


■テキスト化すると具体的にどんなことができるの?


文書をテキスト・データにすると、たとえ構造化されていないプレーン・テキストでも、テキスト・マイニング用のプログラム(たとえば統計処理ソフトとして定評ある R の tm パッケージ)や、WordSmith のようなコンコーダンサと呼ばれるソフトウェアを使うことで、処理を自動化できます。


たとえば、WordSmith の場合、選択したテキスト群(ひとつである必要はありません)の中である単語が何回出てくるのかを示すといった比較的単純な作業(といってもヒトの目では何年もかかりそうな作業)から、ある単語の出現箇所の前後をふくめて一覧にしたり、出現頻度順の単語の統計データを返したりするといったことまでできます。


これだけでも、たいへんなことだとわたしは思いますが、できることはさらにもっとあります。くわしくは日本語化されていますので、入門ガイドをご覧ください。


■で、なんで歴史研究のひとがやらなきゃなんないの?


テキスト化に向けての高い壁は、関連づけの問題をふくむ信頼性の確保の問題です。メタ・データの情報がいい加減だったらどうするのでしょうか?あるいはその記述のしかたが統一されていなかったら?また、本体のテキスト・データをつくるにしても、さまざまなコンピュータ(もちろんわたしはこの言葉にわたしたちの脳みそも含めています)がさまざまなやりかたで作ってしまったら、複雑すぎて処理を自動化できなくなってしまうかもしれません。そこで、制度化あるいは規格化が必要になってくるのですね(これが TEI をお勉強する理由です)。


こうしたすべてのことをふまえてテキストの電子編集版をつくるにあたっては、もととなる紙(その他)の文書についてのしっかりとした知識が欠かせません。そうでないと関連づけはおろか作成されるテキスト・データの中身についての信頼性も確保はむずかしくなります。ここで、資料批判という歴史研究の伝家の宝刀が切れ味を示すにちがいありません。この宝刀はそもそも情報のインフラづくりにこそ強いんですから。そのようなわけで、歴史研究のみなさんも、テキスト化の世界へようこそ、というわけなのです。


最後にいちおうまとめておきましょう。いまのところきちんと自動化できない処理は、おおきくふたつあります。どちらも、テキストの信頼性にかかわります。いわば、「信頼できる情報」であるとみんなが認めるものを確定するための制度の設計に必要な手続きを定めないといけないですねというお話です。

1. テキストの認識
高性能の OCR を使っても100パーセントの結果を出すのは困難で、しかも版組みなどが重要な意味をもつ文書や手書き文書などの場合、そうした資料についてのしっかりとした知識を持ったひとによる認識結果でないと信頼できない。文献学や資料批判の方法が有用
2. メタ・データの作成
データの作成基準などのルールがきっちり共有されなければならない。技術的というよりは制度的問題。ただし、パフォーマンスのいい制度とそうでない制度はあるので最初にきっちり考えたほうがいい
次回以降はふたつめのほうにもっぱら重点をおきます。