Ubuntu に Tesseract を導入
グーグルのOCRとして名高いTesseractをインストールしてみました。
Ubuntuだと超かんたん。Synaptic Package Manager をひらいて、「tesseract」と検索をかけるとでてきます。インストールしなければならないのは、ソースファイルと言語ファイルのふたつです。言語ファイルを選択すると、Synaptic Package Manager がソースファイルをインストールするか聞いてくれるので、そのまま進みます。それでおしまい。超かんたん。
コマンドを打ってインストールされたい向きには、松浦先生のページが親切です。ぼくはサボってSynaptic Package Managerをつかいました。
インストールしたら、あとは以下のコマンドを打つだけ。
$ tesseract [TIFFのファイル名].tif [出力ファイル名] -l [言語("eng" とか)]
Tesseract で認識するためには、もとのファイルがTIFF(圧縮なし、拡張子は .tif)でないといけません。それと、二値化(白黒)したものでないとうまく認識してくれません。写真で本を撮影しただけみたいな画像はうまく認識しないので、加工しておく必要があります。次のページが一連の作業を簡単にまとめてくれています。
Optical Character Recognition With Tesseract OCR On Ubuntu 7.04
GIMPでスクリプトを書いて、バッチ処理をすれば仕事がラクになりそうですね。あと、シェル・スクリプトかなんかで一連の作業を自動化すれば、OCRからXML文書の成形とキーワードのタグ付けくらいまでの、プルーフリーディングの下処理は一発でできちゃいそう。やってるひとはもういるんでしょうけどね…。コード書くのを苦手とするぼくにだれか手ほどきをしてほしい。
GIMPの使い方も勉強しようとは思っているのですが、なかなか時間が…。いちおう覚書を。
やっぱり、文書のテキスト化の作業環境は、Unixがいちばんなんだな、としみじみ思います。UbuntuはGUIもすごくいいし、人文系の学生こそ使うべきだと思います。
ちなみに、Tesseractで認識できる言語のリストはこのようになっているそうです。すごいですね…。