2010-06-01から1ヶ月間の記事一覧

Ubuntu に Tesseract を導入

グーグルのOCRとして名高いTesseractをインストールしてみました。 Ubuntuだと超かんたん。Synaptic Package Manager をひらいて、「tesseract」と検索をかけるとでてきます。インストールしなければならないのは、ソースファイルと言語ファイルのふたつです…

ドキュメント・スキャナ選びのかんたんなポイント

ドキュメント・スキャナの選びかたについて。個人の顧客がすっかり定着したようで、グーグルで検索かければレビューもたくさんでてくるので、いまさら言うこともあまりなさそうですが、わたしがかんがえるほんとに重要なポイントをかんたんに書いてみようと…

OCRで読み取ったものをRでXML文書にする

R TEI

OCRで読み取った文書をTEI準拠XMLにしたい。OCRの結果には、ゴミのような記号や不要なスペースが入ってきてしまったりします。それをきれいにして、TEIヘッダをつけるくらいのところまでを自動でできるようにしたいと思います。授業で教わったことを思いだし…

TEI Lite 入門

本来なら、ぼくのようなドシロウトよりも、もっと適切なひとがたくさんいると思うのですが、だれもやらないので TEI Lite のドキュメンテーションを少しずつ翻訳してみることにしました。お付き合いください。少しずつコツコツやります。間違いなどがあれば…

Hacking the Academy

アメリカのジョージメイスン大学の、歴史・ニュー・メディア研究所のプロジェクト、Hacking the Academy がいいなというお話。 アイディア自体はそんなに突飛なものではありません。コンピュータの技術と学問や高等教育の話題で、5月21日から28日の1週間のあ…