文書のテキスト化 2


みんなで文書のテキスト化をしましょうよ、という前回のつづきのお話です。前回はお話の導入のはずだったのですが、歴史研究仲間のおばらくんからじっくりなコメントをもらったので、導入のつづきとしてあらためてエントリを書きます。今回は、主に歴史研究のひとむけの「なんでテキスト化をするのか」というお話です。


(おばらくん、いろんなひととじっくり議論するためにブログやってるんだから、コメントが長くなるのはもちろん歓迎なのです。すまんとか言わないでくださいね)


わたしは、テキスト化を大規模に進めることによって、いままでとはちがう歴史研究の方法を模索することができるようになると思っています。たぶん、そのことについては異論はあまりないと思います(たとえば保立道久先生や東大の史料編纂所のお仕事を見てください)。でも、「そんなこと言っても〜」という歴史研究のひとたちの声をたくさん聞いてきました。そこで、今回はその「そんなこと言っても〜」をいちいち検討しておこうと思います。


■そんなこと言ってもコストがかかるのでいやです


もちろん、テキスト化するにはコストがかかります。この点に関しては前回説明しました。政府も企業もだれもそのコストは払ってくれません。完全なテキスト化をするための費用に(組織自身にとっての)便益がつりあわないとこれらの組織は判断しているからです。この場合、その便益をいちばん得たいとかんがえているわたしたちがやるしかないでしょ?というのがわたしの言っていることです。研究のインフラづくりをしておかなければジリ貧になることはあきらかです。


■そんなこと言ってもフリーライドされるのがいやです


自分がテキスト化して公開したものは、誰でも使えてしまうので、ただ乗りされてしまうかもしれないと思うかもしれません。これは、けっこう多くのひとが言うことです。でも、これはわたしにとってはひじょうにおどろきです。だって、ほかのひとが自分と同じ文書を使って研究するということは、研究仲間ができるということですよ。むしろ、自分のテーマにたくさんひとを招待してこそ議論がもりあがるわけでしょう。それによってコーパス全体の中での自分の作品の需要が増えるわけです。文書をひとに見せないというのは、これまたジリ貧への道です。わたしたちは、エリック・レイモンドのいう「贈与の文化」の中に生きているということを思い出しましょう(いつもレイモンドで申しわけないです。超尊敬しているのです)。


それから、みんなグーグルやインターネット・アーカイヴのデータは使ってますよね。あなたがやっていることはフリーライディングです(もしグーグルの広告を無視するなら)。もちろん、それが悪いといっているのではなく。それによってあなたが作品を書くなどしてなんらかの価値を生み出すなら、正の外部経済になっているわけなので、いいことなのです。グーグルやインターネット・アーカイヴなどは、フリーライディングを奨励して外部経済を生み出すためにお金をまわす仕組みをつくりました。でも、前回述べたように、その仕組みではいまのところテキスト化まではカバーできないようです。費用にみあう需要がないと見込まれているわけでしょう。なので、わたしが言いたいのは、テキスト化された資料に対する需要を生みださなければならなくて、そのためにはわたしたちがはじめなければなりませんよ、ということです。


資料をひとには見せないで論文を書いていく、こういうことをやっているとずっとパレート改善的な状態にとどまってしまうということに気づきましょう。わたしはこれを「歴史家のジレンマ」と呼ぼうと思います。


■そんなこと言ってもそんな仕事たいへんです


もちろんたいへんです。わたしもタイプされたものだけでなく、19世紀の手書き資料を多く読んでいますし、今つかっている資料室は文書のカタログもない状態なので、自分でそれを作成するところからはじめています。たいへんです。近世とか中世とかもっと前の研究をしているひとたちはもっとたいへんでしょう(ただし、テキスト化をいちばん精力的におこなっているのはこの分野の歴史研究者たちです。尊敬してます)。


しかし、わたしが探し出して読んでいる資料は、わたしのあとに使うひとたちがおそらくでてくるわけです。先にも述べたように、そういうひとが出てきてくれない場合は、わたしの研究がテキストの経済の中であまり需要を生まなかったということで、悲しまなければなりません。需要を生むためには何をするべきでしょうか?それはインフラづくりだと思います。自分の作品自体はもちろん、その資料にも付加価値をつけねばなりません。そして、自分が使っている資料のテキスト化はいちばん有効なものでしょう。


テキスト化して公開されていればその文書へのアクセスについては取引費用がずっと下がる(これが本ブログのテーマですよ!)ので、研究がずっと進むということです。それに、どのテキストが重要でどのテキストがそうでないかということは、全体を知らないかぎり論理的には推論できないので、まず全部テキスト化するというのは歴史研究の人口全体にとって長期的には効率的なはずなんです。


わたしたちだって、いまあつかっている資料のちゃんとした目録があればよかったと思うじゃないですか。もちろん、わたしの先輩たちがさぼっていたと言いたいわけじゃなくて、そのためのテクノロジーがなかったんです。むしろ、20世紀末までのあいだ目録作成にたずさわってきた文献学者たちの努力は非常な尊敬に値します。でも、いまはコンピュータもウェブもあるから、もっと簡単かつ大規模にできるはずなのです。


■そんなこと言ってもどうはじめていいかわかりません


ここでやっと本題に入れます。そうなんです、わたしも実はぜんぜんわかりません。テキスト化するにしてもどの規格をつかってマークアップをするのか。共同作業するにはどのような制度をつくればいいのか。公開はどういうかたちですればいいのか。ぜんぜんわからないのです。なので学習しましょう。


わたし自身、テキスト化した資料を公開したいとずっと思ってきましたが、はじめかたがわからなくて実際にはまだやっていないので、こんなえらそうなことを言う資格はないのです。しかし、そのえらそうなことを言うひとがあまりいないので、自分が言ってしまえと思って言っているわけです。


こういう情報のインフラづくりは外部経済を生み出すので、けっきょくは政府がやるのがいいことなのかもしれません。でも、そのためには多数の納税者の同意を得ねばならないし、そのためにはテキスト化することによってなにが可能になるのかを示すのが、図書情報学、アーカイヴ研究、文献学、歴史研究の今の課題だと思います。この4つの分野はいっしょにがんばらなきゃいけません。なかでも、わたしをふくめ歴史研究を専門とするひとたちは知らないことが多すぎるので、他分野のひとたちに教えてもらわなければなりません。以前のエントリーで書きましたが、図書館系のブロガーのひとたちの熱気は相当なものです。教えてもらいましょう。


当面はわたしたちが自発的にやるしかありません。やらなければ今のままずっと「歴史家のジレンマ」でありつづけてしまうんですから。そして、やるためには制度設計をちゃんとしておかなければはじめられません。なので、これから何回かそういうことを考えてみようと思っています。