2010-01-01から1年間の記事一覧
イギリスの英国図書館British Library(BL)から文献を取り寄せたのですが、ウェブサイトがだいぶわかりづらく、注文までにかなり時間がかかったので、手順をここに書いておきます(ときどき変わると思うので、あくまで参考までにという情報です)。1. ほし…
あまり明確に書いてあるところがないので、アラビア文字の入力について、混乱しそうな点について書いておきます。特にウルドゥー語やペルシャ語などの入力に関係します。結論を先に書くと、新規にアラビア文字でテキストを入力するには、Unicode では 0600-0…
ドキュメントスキャナでスキャンするために、本など紙を裁断することにまつわるお話。カール事務機のディスクカッターにはいろいろありますが、詳細を比べてみたかったので表にしました。値段等は商品カタログに書いてあるものです。A4サイズ(裁断幅310mm)…
Emacs や vi などのエディタをしっかり勉強する時間がなく、ついつい Ubuntu 付属の GUI のエディタ Gedit を使ってしまうのですが、正規表現が使えないと思い込んでいました。わざわざ Python や R なんかで処理していたのですが、思いついて調べてみたら簡…
Urdu Nastaliq Unicode という、ウルドゥー語で使う Nastaliq 体のフォントが、GNU General Public License で配布されています。その名のとおり、Unicode 対応です。Urdu Nastaliq Unicode ダウンロード先のリンク10年前には、互換性のない独自規格による I…
Ubuntu でウルドゥー語を入力するにはどうすればいいのかを調べてみたところ、とっても簡単でした。参考にしたのは次のブログ記事。Installing Urdu Support in Ubuntu - My Ubuntu Blog上の記事では、Ubuntu 9.04 での設定方法が紹介されていますが、10.04 …
Unicode に返り点などの訓読記号があったので覚書。3190-319Fにレ点、一点から四点、上中下点、甲点から丙点、天地人点など。Wikipedia の Unicode 一覧の3000-3FFF
TEI Liteのドキュメンテーションの「5 ページ番号と行番号」です。過去に訳した部分:右側のコラムにある、[カテゴリー]->[TEILite-Documentation]要素名につけられたリンクはいまのところ正しく機能していません。翻訳が全部できたらつながります。ライ…
ううーん。Atlas 先生のページを見ると、いろいろいろいろ欲しくなってしまうので、普段はあまり見ないようにしているのですが、Abbyy Fine Reader 10 Professionalの最新版の比較・格安購入法についてという記事が、ぼくのお財布のために非常に良くない気が…
こういうことを言うと「保守派」みたいでかっこ悪いのですが、今日は暑すぎて頭がイカれてただけという言い訳がききそうなので、ちょっと言ってみようと思います。税金で運営する公共図書館は、紙の管理に特化するべきだ。まず、電子資料の「扱いやすさ」と…
TEI Liteのドキュメンテーションの「4.3 散文、韻文、戯曲」です。過去に訳した部分:右側のコラムにある、[カテゴリー]->[TEILite-Documentation]要素名につけられたリンクはいまのところ正しく機能していません。翻訳が全部できたらつながります。ライ…
多少出遅れた観はありますが、先月出た『ブック・ビジネス 2.0』を買ってきて読みはじめました。まだ最初の津田さんと橋本さんの論考しか読んでいませんが、触発されてかんがえたことをメモしておきます。ブックビジネス2.0 - ウェブ時代の新しい本の生態系…
TEI Liteのドキュメンテーションの「4.2 表題と結句」です。過去に訳した部分:右側のコラムにある、[カテゴリー]->[TEILite-Documentation]要素名につけられたリンクはいまのところ正しく機能していません。翻訳が全部できたらつながります。ライセンス…
ジョージ・メイスン大学歴史ニューメディア研究所(CHNM)の新しいプログラム。Anthologize。Word Pressのプラグインです。Anthologize ダン・コーエン先生のブログでの紹介 Word Press 日本語版これを使えば、ブログや画像などオンラインのコンテンツを整理…
4章の導入部を訳してから時間があきましたが、TEI Liteのドキュメンテーションの「4.1 テキスト区分要素」です。過去に訳した部分:右側のコラムにある、[カテゴリー]->[TEILite-Documentation]要素名につけられたリンクはいまのところ正しく機能してい…
自然言語処理用のPythonのパッケージ、NLTKをインストールしてみました。Ubuntu 10.04にはNLTKが最初からはいっているけれど、ぼくがまだ使っている9.04には入っていないので、インストールしてみました。最初にエラーが出てちょっとだけ手間がかかったので…
『マガジン航』にのっていた、ボブ・スタインの「メモ」がとってもおもしろいのでここに記します。 ネットワーク時代における出版の統一場理論 本のための綺麗で明るい場所 オリジナルによると、「統一場理論」が2008年9月の記事、「綺麗で明るい場所」が200…
TEI Liteのドキュメンテーションの第4章の導入部です。つづく部分はあとで訳します。過去に訳した部分:右側のコラムにある、[カテゴリー]->[TEILite-Documentation]要素名につけられたリンクはいまのところ正しく機能していません。翻訳が全部できたら…
海外ではカメラを使った本のスキャナを自作するひとがたくさんいるみたいで、ぼくも作りたくなったのでカメラを購入しました。そこで、やはりカメラを2台つかって作業を高速化したいので、安くていいものをさがしたのですが、リコーのCX1の値段がいま破格に…
TEI Liteのドキュメンテーションの第3章です。過去に訳した部分:右側のコラムにある、[カテゴリー]->[TEILite-Documentation]要素名につけられたリンクはいまのところ正しく機能していません。翻訳が全部できたらつながります。ライセンスはGNU General…
どうやらうまくできたみたいなので、とりあえず保存のために載せておきます。 TEI-XMLでは、構造化のためのマークアップと、名前の明示のためのマークアップの方法が用意されていますが、後者は一括処理ができるはずです。というより、一括処理したほうがい…
TEI Liteのドキュメンテーションの第2章です。過去に訳した部分:右側のコラムにある、[カテゴリー]->[TEILite-Documentation]ライセンスはGNU General Public License (version 2)。 ========================================== TEI Lite: 文書交換の…
TEI Liteのドキュメンテーションの第1章です。過去に訳した部分:右側のコラムにある、[カテゴリー]->[TEILite-Documentation]ライセンスはGNU General Public License (version 2)。 ========================================== TEI Lite: 文書交換の…
まえにはじめようとしてとどこおっていた、TEI Liteのドキュメンテーションの翻訳をまたやります。間違いや直したほうがいい点などあれば教えてくださると助かります。わたしははじめてお話しするかたからとつぜん話しかけられても楽しくかんじるほうなので…
グーグルのOCRとして名高いTesseractをインストールしてみました。 Ubuntuだと超かんたん。Synaptic Package Manager をひらいて、「tesseract」と検索をかけるとでてきます。インストールしなければならないのは、ソースファイルと言語ファイルのふたつです…
ドキュメント・スキャナの選びかたについて。個人の顧客がすっかり定着したようで、グーグルで検索かければレビューもたくさんでてくるので、いまさら言うこともあまりなさそうですが、わたしがかんがえるほんとに重要なポイントをかんたんに書いてみようと…
OCRで読み取った文書をTEI準拠XMLにしたい。OCRの結果には、ゴミのような記号や不要なスペースが入ってきてしまったりします。それをきれいにして、TEIヘッダをつけるくらいのところまでを自動でできるようにしたいと思います。授業で教わったことを思いだし…
本来なら、ぼくのようなドシロウトよりも、もっと適切なひとがたくさんいると思うのですが、だれもやらないので TEI Lite のドキュメンテーションを少しずつ翻訳してみることにしました。お付き合いください。少しずつコツコツやります。間違いなどがあれば…
アメリカのジョージメイスン大学の、歴史・ニュー・メディア研究所のプロジェクト、Hacking the Academy がいいなというお話。 アイディア自体はそんなに突飛なものではありません。コンピュータの技術と学問や高等教育の話題で、5月21日から28日の1週間のあ…
ミシガン大学の先生Chuck Severanceがたった11日でつくったと話題になった教科書Python for Informatics: Exploring Informationがよさそうだという話。11日で書けたのは、Allen B. Downeyによるオープン・ライセンスのThink Python: How to Think like a Co…