文書のテキスト化


今回のおはなしは、いいかげんみんなでよってたかって文書のテキスト・ファイル化をしましょうよというお話です。


書籍のテキスト化を進めているプロジェクトには、もはや誰にもおなじみの感があるプロジェクト・グーテンベルク青空文庫などがあります。一方で、文書の画像を中心に公開しているのは、グーグル・ブック検索インターネット・アーカイヴなどたくさんあります。日本語のものならさしずめ国会図書館近代デジタル・ライブラリーでしょう。


しかし、これらのプロジェクトにはわたしたちにとってはざんねんなところがあります。


テキスト中心のプロジェクト

プロジェクト・グーテンベルクのProof Readersの作業は、非常に分散されているのが特徴ですが、そのため自分の興味ある文書のテキスト化に必ず関われるかというと、ほぼそういうことはありません。これは、かなりやる気をそがれる部分です。もちろん、作業が分散されていることによって、ボランティアひとりあたりのお仕事の量がへるし、効率的にテキスト化ができるというメリットは非常におおきいものではあります。


一方で、青空文庫の場合は、テキスト化をおこないたい文書を自分で選ぶことができますが、その反面共同作業をするためのプラットフォームがあらかじめ用意されてはいません。wikiなどを利用してやればいいのでしょうが、作業のたびにそのための約束事を決めるのは面倒でしょう。そして、強いインセンティヴか責任感がなければ、一冊まるごとやりとげるのはけっこうたいへんなことだとおもいます(なので、やってらっしゃる方の努力には敬意を払うべきですし、まちがいをあげつらって「やっぱりウェブなんてだめだね」と言いがちなひとたちはもうすこし物事を知るべきだとおもいます)。


どうやら、プロジェクト・グーテンベルク青空文庫を比較してみると、効率をあげることとやる気を形成することとが、なかなか両立できないような制度になってしまっているようです。おそらくそのため、労働力の投入がさまたげられるので、生産性があがらないということになってしまうのでしょう。これらのプロジェクトが公開しているテキストの数は、閲覧者としては十分「楽しめる」量ではあるものの、パブリック・ドメインにある文書の全体集合の中では非常に小さい部分集合でしかありません。非常に残念なのですが。


民間のプロジェクト(画像メイン)


グーグル・ブック検索の場合、「全文検索」のふれこみにもかかわらず、ふたを開けてみると誤認識がけっこうあります。単語検索をおこなうだけならば、あるていどは「十分」実用的なのかもしれません。


たとえば、グーグル・ブック検索でアダム・スミスの『国富論』を見たいとしましょう。最初に表示される表題紙の部分をテキスト形式で表示してみましょう。


タイトル「AN INQUIRY INTO THE NATURE AND CAUSES OF THE WEALTH OF NATIONS」という文字が認識されている部分をコピペしたものが以下です。

AS

I

INQUIRY

INTO THE

NATURE AND CAUSES

OF THE

WEALTH OF NATIONS


うーん、これじゃやっぱり使えないですよね。たしかに認識率はひと昔前とくらべると格段に上なのですが、現在のOCRソフトウェアはどんなに高級なものでも100パーセントの認識率には達しません。たとえば99パーセントの認識率があれば、かなりいいではないかと思いたいものです。しかしその数字は、1ページに500文字入っているとしたら5文字間違えるということです。100ページで500文字です。これはテキストの解析をおこないたいような場合には使い物にならないデータだということです。これはほんとうによく言われていることです。


もちろん、未修正のものを出しているからといって、グーグルがいい仕事をしていないと言いたいわけではありません。こうなるのはグーグルが合理的な選択をしているからと考えるべきです。たとえばOCRの認識率が99パーセントだったとき、残りの1パーセントを修正するならば今のところそれは手作業でやるしかないわけで、それには誰かが頭から尻までテキストを読まなければならないわけです。この作業はやったことがあればわかると思いますが、かなり骨がおれるし時間がかかります。グーグルは、厳密な正確さを必要とするテキストの解析を可能にすることで得られる追加的な利益よりも、それを実現するためにかかる費用のほうが大きくなってしまうと判断しているだけでしょう。たしかに、『国富論』のテキスト解析ができるようになったからといって、アクセス数が急激に増えることはなさそうですしね。


問題はそれだけではありません。グーグルがある日とつぜん特定の文書の画像の公開をやめてしまったら、それはパブリック・ドメインにあるにもかかわらず、もう見ることができなくなってしまいます。もちろんこの点でも、グーグルを責めるのはお門違いです。グーグルがなんらかの理由で、あるデータの公開が採算にあわないと判断するならばべつにやめたってかまわないにきまっています。そのことについてグーグルはわたしたちに対して何の責任も負っていません。


ここでのポイントは、OCRの誤認識にしても、文書が将来ウェブ上から消えてしまう可能性にしても、なくしてしまうことは困難だということです。同じことはインターネット・アーカイヴにもいえます。


政府のプロジェクト(画像メイン)


ところで、文書がいつの日かなくなってしまうのではないかという危機感は、データを国が管理している場合はある程度は軽減されるでしょう。情報の保管と公開は政府の役割としていまやだれもが期待するところとなっていますから、ある程度の制度的基盤が与えられると考えてよさそうです。しかし、こちらの問題はおそらく効率のよしあしです。とうぜん競争のある民間のほうが効率よくしごとをするでしょうし、現にグーグルのスキャンとOCR処理の技術に追随できる政府のプロジェクトがどれほどあるのかというおはなしです。もちろん、公的図書館・文書館の司書やアーキヴィストのみなさんが効率の悪い仕事をしていると言いたいわけではなく(わたしも現場を知っていますからみなさんがんばっていることはよくわかっています)、グーグルみたいなお金を集める仕組みを政府はつくれなかったということが本質的なところです。


日本の国会図書館近代デジタル・ライブラリーはどうでしょうか。わたしは、このライブラリーにあげられている画像の質はとても高いと思うし、世界でも屈指のデジタル・アーカイヴになっていると思います。ウェブ上を見回すと、よくもまあこんなに質の悪い画像をあげているものだ、と言いたくなるようなものもたくさんありますから。しかしそれでも残念に思えてしまう点を言うと、本文がまったく テキスト化されていないということです。メタ情報としてつけられているものは検索できますが、本文の中身の検索はまったくできません。これは技術的にしかたのないことでしょう。日本語のOCR処理はローマ字と比べて開発がずっと困難で(漢字がありますし)、特にいわゆる「旧字」が入っているような少し古い文書については言わずもがなです。認識率の非常に低いテキストならば、それをウェブ上にアップするための手間やスペースを考えると、やらないほうがマシなくらいでしょう。かといって、全部タイプ打ちするための予算は付かないでしょう。なので、残念ですがこれもしかたのないことです。さらに、国会図書館のむずかしい点は、画像の転載をするときは依頼をしなければならない(国立国会図書館ウェブサイトのサイト・ポリシーを参照)ので、複製がたくさん作られる機会が少なくなってしまうでしょう。こうなるとウェブ上で情報を見つけることが困難になってきます。


どうしましょうか


ウェブ2.0」という言葉はもうひさしく聞かなくなってしまった観がありますが、ここはやはりその精神でみんなでよってたかってやるしかないんではないでしょうか。すくなくとも、歴史研究をこころざすひとたちは、自分が扱っている資料をテキスト化して公開くらいはするべきなんじゃないでしょうか。このテキスト化の費用は、企業も政府も払うことはできないんです。わたしたちがやるしかないんじゃないでしょうか?ぼくがその費用を払って何の得をするかって?自分の研究に関係する情報がウェブ上にあがることになるわけだから、自分の作品へ潜在的な読者がたどりつく可能性が多少なりとも高まるはずです。その資料をつかって誰でも研究をできるようになるわけだから、分業を進めることができるようになります。うまくいけば共同研究だってできるかもしれません。資料収集のコストが下がるので、ぼくも歴史研究やってみちゃおうかなあ、と思ってくれるひとが増えるかもしれません。これは非常にワクワクすべき事態ではないですか。


もちろん、歴史的資料をあつかうのが専門のひとたちは、自分の名声がかかるので間違いを極力なくす努力をすると期待されるはずです。というより、わたしたちは名誉にかけてそうしなきゃいけません(わたしが「名声」とか言っていることに関しては、もちろんエリック・レイモンドの「ノウアスフィアの開墾」を読んでくださいね。日本語がよければ山形さんの訳がありますから)。もちろん、いままでやってこなかったのだから、知らないことがたくさんあるのはしかたありません。図書館やアーカイヴのひとたちに教えを請いましょう。そして、すくなくとも今よりましな歴史資料コーパスをウェブ上に持ちましょう。


もちろん、いまどきこんなことを言うのは、「n 周遅れの〜」というかんじがしてはっきりいってぜんぜんうれしくありません。わたしたちのスタートのきりかたは遅すぎです。それでも、遅すぎるスタートはまったくスタートを切らないよりはずっとましだとおもうのです。なので、これから何回か、歴史研究を「2.0」にするために何をやればいいのか考えようとおもいます。