2010-01-01から1年間の記事一覧

英国図書館からの文献の注文のしかたまとめ

イギリスの英国図書館British Library(BL)から文献を取り寄せたのですが、ウェブサイトがだいぶわかりづらく、注文までにかなり時間がかかったので、手順をここに書いておきます(ときどき変わると思うので、あくまで参考までにという情報です)。1. ほし…

Unicode のアラビア文字の入力について

あまり明確に書いてあるところがないので、アラビア文字の入力について、混乱しそうな点について書いておきます。特にウルドゥー語やペルシャ語などの入力に関係します。結論を先に書くと、新規にアラビア文字でテキストを入力するには、Unicode では 0600-0…

カール事務機のディスクカッターの比較

ドキュメントスキャナでスキャンするために、本など紙を裁断することにまつわるお話。カール事務機のディスクカッターにはいろいろありますが、詳細を比べてみたかったので表にしました。値段等は商品カタログに書いてあるものです。A4サイズ(裁断幅310mm)…

Gedit で正規表現を使う

Emacs や vi などのエディタをしっかり勉強する時間がなく、ついつい Ubuntu 付属の GUI のエディタ Gedit を使ってしまうのですが、正規表現が使えないと思い込んでいました。わざわざ Python や R なんかで処理していたのですが、思いついて調べてみたら簡…

ウルドゥー語(Nastaliq)を Ubuntu で入力するための環境設定

Urdu Nastaliq Unicode という、ウルドゥー語で使う Nastaliq 体のフォントが、GNU General Public License で配布されています。その名のとおり、Unicode 対応です。Urdu Nastaliq Unicode ダウンロード先のリンク10年前には、互換性のない独自規格による I…

Ubuntu でのウルドゥー語の入力

Ubuntu でウルドゥー語を入力するにはどうすればいいのかを調べてみたところ、とっても簡単でした。参考にしたのは次のブログ記事。Installing Urdu Support in Ubuntu - My Ubuntu Blog上の記事では、Ubuntu 9.04 での設定方法が紹介されていますが、10.04 …

Unicode の訓読記号

Unicode に返り点などの訓読記号があったので覚書。3190-319Fにレ点、一点から四点、上中下点、甲点から丙点、天地人点など。Wikipedia の Unicode 一覧の3000-3FFF

TEI Lite入門 5 ページ番号と行番号

TEI Liteのドキュメンテーションの「5 ページ番号と行番号」です。過去に訳した部分:右側のコラムにある、[カテゴリー]->[TEILite-Documentation]要素名につけられたリンクはいまのところ正しく機能していません。翻訳が全部できたらつながります。ライ…

Abbyy Fine Reader 10 Professionalが欲しくなっていた

OCR

ううーん。Atlas 先生のページを見ると、いろいろいろいろ欲しくなってしまうので、普段はあまり見ないようにしているのですが、Abbyy Fine Reader 10 Professionalの最新版の比較・格安購入法についてという記事が、ぼくのお財布のために非常に良くない気が…

公共図書館は紙の管理に特化すべきではないか─あるいは「紙本位制」について

こういうことを言うと「保守派」みたいでかっこ悪いのですが、今日は暑すぎて頭がイカれてただけという言い訳がききそうなので、ちょっと言ってみようと思います。税金で運営する公共図書館は、紙の管理に特化するべきだ。まず、電子資料の「扱いやすさ」と…

TEI Lite入門 4.3 散文、韻文、戯曲

TEI Liteのドキュメンテーションの「4.3 散文、韻文、戯曲」です。過去に訳した部分:右側のコラムにある、[カテゴリー]->[TEILite-Documentation]要素名につけられたリンクはいまのところ正しく機能していません。翻訳が全部できたらつながります。ライ…

本について希少性の経済は働くのか

多少出遅れた観はありますが、先月出た『ブック・ビジネス 2.0』を買ってきて読みはじめました。まだ最初の津田さんと橋本さんの論考しか読んでいませんが、触発されてかんがえたことをメモしておきます。ブックビジネス2.0 - ウェブ時代の新しい本の生態系…

TEI Lite入門 4.2 表題と結句

TEI Liteのドキュメンテーションの「4.2 表題と結句」です。過去に訳した部分:右側のコラムにある、[カテゴリー]->[TEILite-Documentation]要素名につけられたリンクはいまのところ正しく機能していません。翻訳が全部できたらつながります。ライセンス…

Anthologize - Word Pressを書籍作成プラットフォームにする

ジョージ・メイスン大学歴史ニューメディア研究所(CHNM)の新しいプログラム。Anthologize。Word Pressのプラグインです。Anthologize ダン・コーエン先生のブログでの紹介 Word Press 日本語版これを使えば、ブログや画像などオンラインのコンテンツを整理…

TEI Lite入門 4.1 テキスト区分要素

4章の導入部を訳してから時間があきましたが、TEI Liteのドキュメンテーションの「4.1 テキスト区分要素」です。過去に訳した部分:右側のコラムにある、[カテゴリー]->[TEILite-Documentation]要素名につけられたリンクはいまのところ正しく機能してい…

Pythonの自然言語処理用パッケージNLTKをインストール

自然言語処理用のPythonのパッケージ、NLTKをインストールしてみました。Ubuntu 10.04にはNLTKが最初からはいっているけれど、ぼくがまだ使っている9.04には入っていないので、インストールしてみました。最初にエラーが出てちょっとだけ手間がかかったので…

出版社、著者、図書館、アーカイヴ〜本という「場」の管理人?

『マガジン航』にのっていた、ボブ・スタインの「メモ」がとってもおもしろいのでここに記します。 ネットワーク時代における出版の統一場理論 本のための綺麗で明るい場所 オリジナルによると、「統一場理論」が2008年9月の記事、「綺麗で明るい場所」が200…

TEI Lite入門 第4章:本文のコード化(導入部)

TEI Liteのドキュメンテーションの第4章の導入部です。つづく部分はあとで訳します。過去に訳した部分:右側のコラムにある、[カテゴリー]->[TEILite-Documentation]要素名につけられたリンクはいまのところ正しく機能していません。翻訳が全部できたら…

Ricoh CX1 文書の撮影用カメラに

海外ではカメラを使った本のスキャナを自作するひとがたくさんいるみたいで、ぼくも作りたくなったのでカメラを購入しました。そこで、やはりカメラを2台つかって作業を高速化したいので、安くていいものをさがしたのですが、リコーのCX1の値段がいま破格に…

TEI Lite入門 第3章:TEIテキストの構造

TEI Liteのドキュメンテーションの第3章です。過去に訳した部分:右側のコラムにある、[カテゴリー]->[TEILite-Documentation]要素名につけられたリンクはいまのところ正しく機能していません。翻訳が全部できたらつながります。ライセンスはGNU General…

RでXMLテキストにタグ付け

TEI R

どうやらうまくできたみたいなので、とりあえず保存のために載せておきます。 TEI-XMLでは、構造化のためのマークアップと、名前の明示のためのマークアップの方法が用意されていますが、後者は一括処理ができるはずです。というより、一括処理したほうがい…

TEI Lite入門 第2章:簡単な例

TEI Liteのドキュメンテーションの第2章です。過去に訳した部分:右側のコラムにある、[カテゴリー]->[TEILite-Documentation]ライセンスはGNU General Public License (version 2)。 ========================================== TEI Lite: 文書交換の…

TEI Lite入門 第1章:はじめに

TEI Liteのドキュメンテーションの第1章です。過去に訳した部分:右側のコラムにある、[カテゴリー]->[TEILite-Documentation]ライセンスはGNU General Public License (version 2)。 ========================================== TEI Lite: 文書交換の…

TEI入門

まえにはじめようとしてとどこおっていた、TEI Liteのドキュメンテーションの翻訳をまたやります。間違いや直したほうがいい点などあれば教えてくださると助かります。わたしははじめてお話しするかたからとつぜん話しかけられても楽しくかんじるほうなので…

Ubuntu に Tesseract を導入

グーグルのOCRとして名高いTesseractをインストールしてみました。 Ubuntuだと超かんたん。Synaptic Package Manager をひらいて、「tesseract」と検索をかけるとでてきます。インストールしなければならないのは、ソースファイルと言語ファイルのふたつです…

ドキュメント・スキャナ選びのかんたんなポイント

ドキュメント・スキャナの選びかたについて。個人の顧客がすっかり定着したようで、グーグルで検索かければレビューもたくさんでてくるので、いまさら言うこともあまりなさそうですが、わたしがかんがえるほんとに重要なポイントをかんたんに書いてみようと…

OCRで読み取ったものをRでXML文書にする

R TEI

OCRで読み取った文書をTEI準拠XMLにしたい。OCRの結果には、ゴミのような記号や不要なスペースが入ってきてしまったりします。それをきれいにして、TEIヘッダをつけるくらいのところまでを自動でできるようにしたいと思います。授業で教わったことを思いだし…

TEI Lite 入門

本来なら、ぼくのようなドシロウトよりも、もっと適切なひとがたくさんいると思うのですが、だれもやらないので TEI Lite のドキュメンテーションを少しずつ翻訳してみることにしました。お付き合いください。少しずつコツコツやります。間違いなどがあれば…

Hacking the Academy

アメリカのジョージメイスン大学の、歴史・ニュー・メディア研究所のプロジェクト、Hacking the Academy がいいなというお話。 アイディア自体はそんなに突飛なものではありません。コンピュータの技術と学問や高等教育の話題で、5月21日から28日の1週間のあ…

Python の教科書

ミシガン大学の先生Chuck Severanceがたった11日でつくったと話題になった教科書Python for Informatics: Exploring Informationがよさそうだという話。11日で書けたのは、Allen B. Downeyによるオープン・ライセンスのThink Python: How to Think like a Co…