Ubuntu に Tesseract を導入 - 取引費用ゼロの歴史〜アーカイヴズと歴史研究のトリセツ

グーグルのOCRとして名高いTesseractをインストールしてみました。

Ubuntuだと超かんたん。Synaptic Package Manager をひらいて、「tesseract」と検索をかけるとでてきます。インストールしなければならないのは、ソースファイルと言語ファイルのふたつです。言語ファイルを選択すると、Synaptic Package Manager がソースファイルをインストールするか聞いてくれるので、そのまま進みます。それでおしまい。超かんたん。

コマンドを打ってインストールされたい向きには、松浦先生のページが親切です。ぼくはサボってSynaptic Package Managerをつかいました。

インストールしたら、あとは以下のコマンドを打つだけ。



$ tesseract [TIFFのファイル名].tif [出力ファイル名] -l [言語（"eng" とか）]

Tesseract で認識するためには、もとのファイルがTIFF（圧縮なし、拡張子は .tif）でないといけません。それと、二値化（白黒）したものでないとうまく認識してくれません。写真で本を撮影しただけみたいな画像はうまく認識しないので、加工しておく必要があります。次のページが一連の作業を簡単にまとめてくれています。

Optical Character Recognition With Tesseract OCR On Ubuntu 7.04

GIMPでスクリプトを書いて、バッチ処理をすれば仕事がラクになりそうですね。あと、シェル・スクリプトかなんかで一連の作業を自動化すれば、OCRからXML文書の成形とキーワードのタグ付けくらいまでの、プルーフリーディングの下処理は一発でできちゃいそう。やってるひとはもういるんでしょうけどね…。コード書くのを苦手とするぼくにだれか手ほどきをしてほしい。

GIMPの使い方も勉強しようとは思っているのですが、なかなか時間が…。いちおう覚書を。

やっぱり、文書のテキスト化の作業環境は、Unixがいちばんなんだな、としみじみ思います。UbuntuはGUIもすごくいいし、人文系の学生こそ使うべきだと思います。

ちなみに、Tesseractで認識できる言語のリストはこのようになっているそうです。すごいですね…。