Ubuntu に Tesseract を導入


グーグルのOCRとして名高いTesseractをインストールしてみました。


Ubuntuだと超かんたん。Synaptic Package Manager をひらいて、「tesseract」と検索をかけるとでてきます。インストールしなければならないのは、ソースファイルと言語ファイルのふたつです。言語ファイルを選択すると、Synaptic Package Manager がソースファイルをインストールするか聞いてくれるので、そのまま進みます。それでおしまい。超かんたん。


コマンドを打ってインストールされたい向きには、松浦先生のページが親切です。ぼくはサボってSynaptic Package Managerをつかいました。


インストールしたら、あとは以下のコマンドを打つだけ。


$ tesseract [TIFFのファイル名].tif [出力ファイル名] -l [言語("eng" とか)]


Tesseract で認識するためには、もとのファイルがTIFF(圧縮なし、拡張子は .tif)でないといけません。それと、二値化(白黒)したものでないとうまく認識してくれません。写真で本を撮影しただけみたいな画像はうまく認識しないので、加工しておく必要があります。次のページが一連の作業を簡単にまとめてくれています。


Optical Character Recognition With Tesseract OCR On Ubuntu 7.04



GIMPスクリプトを書いて、バッチ処理をすれば仕事がラクになりそうですね。あと、シェル・スクリプトかなんかで一連の作業を自動化すれば、OCRからXML文書の成形とキーワードのタグ付けくらいまでの、プルーフリーディングの下処理は一発でできちゃいそう。やってるひとはもういるんでしょうけどね…。コード書くのを苦手とするぼくにだれか手ほどきをしてほしい。


GIMPの使い方も勉強しようとは思っているのですが、なかなか時間が…。いちおう覚書を。


やっぱり、文書のテキスト化の作業環境は、Unixがいちばんなんだな、としみじみ思います。UbuntuGUIもすごくいいし、人文系の学生こそ使うべきだと思います。


ちなみに、Tesseractで認識できる言語のリストはこのようになっているそうです。すごいですね…。