2010-09-13

Ubuntu でのウルドゥー語の入力

Urdu Ubuntu

Ubuntu でウルドゥー語を入力するにはどうすればいいのかを調べてみたところ、とっても簡単でした。

参考にしたのは次のブログ記事。

Installing Urdu Support in Ubuntu - My Ubuntu Blog

上の記事では、Ubuntu 9.04 での設定方法が紹介されていますが、10.04 ではさらに簡単になっています。もはや、多言語で入力する必要のあるひとにとって、Ubuntu が最適オプションなのではないかと思います。

A. ウルドゥー語の辞書等をインストール
1. [System] -> [Administration] -> [Language Support]
2. [Install / Remove Languages] から [Urdu] を選択

B. キーボードの設定
1. パネル（デフォルトではトップパネル）にあるキーボードのアイコンをクリックしてIBusの設定
2. [Preferences] -> [Input Method]
3. [Select an input method] のプルダウン・メニューから [Urdu] -> [Urdu - phonetic (m17n)]

以上でおしまいです。

2010-09-10

Unicode の訓読記号

Unicode

Unicode に返り点などの訓読記号があったので覚書。

3190-319Fにレ点、一点から四点、上中下点、甲点から丙点、天地人点など。

Wikipedia の Unicode 一覧の3000-3FFF

2010-08-27

TEI Lite入門　5 ページ番号と行番号

TEI TEILite-Documentation

TEI Liteのドキュメンテーションの「5 ページ番号と行番号」です。

過去に訳した部分：右側のコラムにある、［カテゴリー］->［TEILite-Documentation］

要素名につけられたリンクはいまのところ正しく機能していません。翻訳が全部できたらつながります。

ライセンスはGNU General Public License (version 2)。
==========================================

TEI Lite: 文書交換のためのコード化：TEI入門―TEI P5 準拠版
ルー・バーナード　＆　C.M. スパーバーグ＝マクイーン
（原文）

5 ページ番号と行番号

改ページと改行は、つぎの空要素でマークすることができます。

pb/
（改ページ page break）は、標準的な参照システムにおけるページとページの境界をマーク付けする。
lb/
（改行 line break）は、テキストのある版やヴァージョン固有の、印刷上の行開始位置をマークする。
milestone/
は、テキスト内の何らかのセクションの境界点をマーク付けする。いつもではないが典型的には、構造的要素によって表されていないような、標準参照システムの変化を示す。

これらの要素は、範囲をもった部分ではなくて、テキストのある一点にマークをほどこすものです。ページ番号や行番号を与えるためには、グローバル属性のnを使います。

オリジナル文書にページ番号がついている場合、後の校正作業を簡単にするためにも、ページ番号を記録しておくと役にたつことがよくあります。同じ理由から、改行位置を記録しておくことも有用かもしれません。印刷された資料にみられる、行末ハイフンのとりあつかいについては、よくかんがえておくべきでしょう。

複数の版についてページ番号等を記録する場合、必要な数のタグを付けたうえで、ed属性を使って版次を特定します。たとえば、つぎの例では異なるふたつの版（ED1とED2）について、改ページ位置を示しています。

<p>I wrote to Moor House and to Cambridge immediately, to
say what I had done: fully explaining also why I had thus
acted. Diana and <pb ed="ED1" n="475"/> Mary approved the
step unreservedly. Diana announced that she would
<pb ed="ED2" n="485"/>just give me time to get over the
honeymoon, and then she would come and see me.</p>

pb要素とlb要素は、テキスト内の参照点をマークするmilestone要素クラスの特殊ケースです。TEI Liteには、汎用のmilestone要素があり、これを使えば特殊ケース以外のどのような参照点もマーク付けできます。たとえば、コラムの区切りや、他にタグ付けしようがない新しい種類のセクションの開始位置、あるいはどのXML要素でもマーク付けできないような重要なテキスト上の変化一般をマークできます。ed属性やunit属性によって参照される単位の種類や、版につけられる名前は自由に選択できます。ただし、これはヘッダに記録されるべきです。milestone要素を、pb要素とlb要素のかわりに使っても、あるいは後者ふたつをひとそろいの集合として使ってもどちらでもかまいません。しかし、これらを気ままに混用してはいけません。

2010-08-19

Abbyy Fine Reader 10 Professionalが欲しくなっていた

OCR

ううーん。Atlas 先生のページを見ると、いろいろいろいろ欲しくなってしまうので、普段はあまり見ないようにしているのですが、Abbyy Fine Reader 10 Professionalの最新版の比較・格安購入法についてという記事が、ぼくのお財布のために非常に良くない気がする。うーん。

dinshikAさんも、Abbyy Fine Readerをお勧めしている。うーん。

tesseract はオープンソースで、使ってるというとカッコいいかんじなんですけど、OCRはやっぱりまだ秘密の部分からレントをかせぐという、メーカーの商売モデルが当分つづく気がする。うーむ、もっと勉強せねば。とりあえず、ocropusのグループにはいる。701人目のメンバーでした。

うーん、Abbyy Fine Reader...

2010-08-16

公共図書館は紙の管理に特化すべきではないか─あるいは「紙本位制」について

Archiving

こういうことを言うと「保守派」みたいでかっこ悪いのですが、今日は暑すぎて頭がイカれてただけという言い訳がききそうなので、ちょっと言ってみようと思います。税金で運営する公共図書館は、紙の管理に特化するべきだ。

まず、電子資料の「扱いやすさ」とは何かということをかんがえましょう。電子資料の「扱いやすさ」とは、「加工のしやすさ」、「アクセスのしやすさ」そして「複製のしやすさ」と言い換えることができます。まず、加工しやすいということは、書き換えしやすいということです。たとえばDOMなんかは、こういうテキスト・データの特徴を最大限に利用した技術でしょう。WWWだってそうです。HTML文書を書いたことがあるひとなら（そうでなくても、ウェブのコンテンツをいくつかのデバイスで見たことがあるひとなら）誰でもわかることですが、HTML文書の見た目は表示端末の設定に大きく依存します。いわば、なにからなにまで固定してしまわないことで、メリットを得ているわけです。しかし、逆に言うと、このことは「作者の意図」なんてものは固定できなくて、クライアント側で「加工」できてしまうんだということでもあります。これは、実は紙の本の世界でもある程度そうだったんだろうと思いますが、デジタル化によってどうしようもなく明らかになってしまった。

デジタル文書がネットワーク上に置かれてアクセスしやすくなることも、保存の観点からみると困難をもたらします。政府のデジタル・アーカイヴに誰かがクラックをしかけて、書き換えてしまう可能性を100年単位で排除することは難しいかもしれません。

つぎに複製。これまたよく言われることですが、デジタル・コピーの場合、何が「オリジナル」かという問題が意味をなさなくなります。「オリジナル」というものは、テキストの「所有」モデルを維持するために、ある意味で便利なフィクションだったわけですが、デジタル・コピーの世界では話がちがってくる。もちろん、テキストが「誰のものか」、ということが問題にならなくなるわけではなくて、「オリジナル」に根拠を置く所有モデルが機能しづらくなるということです。著作権にまつわる近年の議論を見ていれば明らかですよね。

しかし、ぼくはこの「オリジナル」の擬制がなくなってしまえばいいとは思っていないのです。もちろん、所有モデルが変わってしまうことは避けられない。けれど、どうにかしてみんなが認める「オリジナル」を維持しなければならないと思います。みんなが参照すべきテキストがどれなのかが明確になっていなければ、情報交換にかかる取引費用がめちゃくちゃに高くなってしまうからです。

紙資料の場合は、文献学で蓄積された方法によって、オリジナルあるいはより古いコピーを同定可能です（少なくとも可能だとされています）。よく問題になるのは、いわゆる「生まれつきデジタル（born digital）」なテキストです。たとえば国立国会図書館あたりが電子スタンプを押してくれれば、それ以降本当に変更がなかったと証明できるのか。ぼくはそれは難しいと思います。少なくとも、100年単位で見たときに困難だと思います。

資料の扱いやすさと保存のしやすさ（信頼性）のあいだにはトレードオフの関係があるのです。技術はずっと変化しつづけるので、電子資料が将来にわたって同じように表示できるかどうかわからない、というのはよく言われることです。電子資料の「保存」とは、常に書き換えつづけるということなのだ、とシカゴ大のアーキヴィストのひとが10年くらい前にあるシンポジウムで言っていました。デジタル文書は、保存向きではないのです。保存のためには保存のための媒体を使うべきなのです。

保存向きの媒体としてコストパフォーマンスが高いのはやはり紙でしょう。図書館や文書館に収蔵してしまえば、アクセスが制限されるため、書き換えのチャンスは非常に減ります。本当に書き換えの可能性を低くしたいのであれば、情報をネットワークからはずすしかありません。あたりまえの話ですね。「生まれつきデジタル」の資料については、紙版を「オリジナル」としてみんなが認知する、という新しいフィクションの体制をつくれば解決できるでしょう。いわば、「紙本位制」をつくるのです。

紙本位制においては、国立国会図書館や国立公文書館には、紙の管理にリソースを割いてもらわねばなりません。紙の管理にはお金がかかるうえに、市場化するのが難しいので、これは政府がやらねばならないのです。これをやるなら、政府関係の文書をすべて保存するというくらいの勢いでやるべきです。そして、現用文書・非現用文書問わず、「オリジナル」に関してはすべて公開されるべきです。これにはお金がかかりますが、やらないといつまでたっても行政文書がぐずぐずと失われていくことになります。すぐにでもやらねばならないはずなのです。

一方で、国立国会図書館長の長尾先生が主張しているような、書籍データベースの管理というようなものは、Googleあたりが実現しかけていることでしょう（わたしは「長尾スキーム」はめちゃくちゃかっこいいと思いますが、政府がやらなくてもいいと思うのです）。この分野については市場化は十分可能だと思います。やるべきことといえば、パブリック・ドメインにある情報については将来にわたってオープンにしつづけなければならない、というなGPLに似たような規約をつくることじゃないでしょうか。それさえできれば、民間に任せることに何の問題も感じられません。

最後に人文系アカデミズム。この「紙本位制」の社会では、電子版が紙版を確実にリプレゼントしていることを保証することが、ウェブ・アーキヴィストや人文系研究者たちの役割になるでしょう。この部分については、Googleも政府もまだお金を回す仕組みを見つけていないのです（たとえば、Google書籍検索につけられたOCR認識テキストにある誤認識の数々を見てください）。情報の信頼性を高め維持するということは、近代科学に従事する者に与えられた課題でありつづけてきましたし、これからも同じだという、それだけのことです。

情報の保存と配布の制度は、技術革新のおかげで組み変わろうとしているので、ここでもっともコスト・パフォーマンスの高い均衡点をみつけることが、われわれ人文系の研究の徒やアーキヴィストたちの課題です。

なーんちゃって。

こんな本を読みました。

ブックビジネス2.0 - ウェブ時代の新しい本の生態系

作者: 岡本真,仲俣暁生,津田大介,橋本大也,長尾真,野口祐子,渡辺智暁,金正勲
出版社/メーカー: 実業之日本社
発売日: 2010/07/16
メディア: 単行本
購入: 21人クリック: 562回
この商品を含むブログ (53件) を見る

2010-08-15

TEI Lite入門　4.3 散文、韻文、戯曲

TEI TEILite-Documentation

TEI Liteのドキュメンテーションの「4.3 散文、韻文、戯曲」です。

過去に訳した部分：右側のコラムにある、［カテゴリー］->［TEILite-Documentation］

要素名につけられたリンクはいまのところ正しく機能していません。翻訳が全部できたらつながります。

ライセンスはGNU General Public License (version 2)。
==========================================

TEI Lite: 文書交換のためのコード化：TEI入門―TEI P5 準拠版
ルー・バーナード　＆　C.M. スパーバーグ＝マクイーン
（原文）

4.3 散文、韻文、戯曲

先述のとおり、テキストの区分としての段落には、pが付けられるべきです。たとえばつぎのような具合にです。

<p>I fully appreciate Gen. Pope's splendid achievements
 with their invaluable results; but you must know that
 Major Generalships in the Regular Army, are not as
 plenty as blackberries.
</p>

韻文やパフォーマンスのテキスト（戯曲や映画など）の構造上の成分をコード化するために、さまざまなタグが用意されています。

l
（詩行 verse line）には韻文の行をひとついれる。不完全なかたちでもよい。
lg

（行のまとまり line group）スタンザ、リフレイン、連など、形式的単位として機能する、詩行のまとまりをいれる。

sp
（台詞 speech）パフォーマンス・テキストにおける個々の台詞、あるいは散文や韻文におけるそれと同等の一節。

speaker
戯曲テキストや断章の中で、ひとりまたは複数人の話し手の名前を示す、特定形式のヘディングやラベル。

stage
（ト書き stage direction）戯曲テキストや断章の中の、あらゆる種類のト書きを入れる。

つぎは、ある詩のテキストの冒頭からとった例で、詩行とスタンザのタグ付けがほどこされています。

<lg n="I">
 <l>I Sing the progresse of a
   deathlesse soule,</l>
 <l>Whom Fate, with God made,
   but doth not controule,</l>
 <l>Plac'd in most shapes; all times
   before the law</l>
 <l>Yoak'd us, and when, and since,
   in this I sing.</l>
 <l>And the great world to his aged evening;</l>
 <l>From infant morne, through manly noone I draw.</l>
 <l>What the gold Chaldee, of silver Persian saw,</l>
 <l>Greeke brass, or Roman iron, is in this one;</l>
 <l>A worke t'out weare Seths pillars, bricke and stone,</l>
 <l>And (holy writs excepted) made to yeeld to none,</l>
</lg>

l要素が印刷上の行のかたちではなく、詩行をマーク付けしている点に注意してください。このコード化のやりかたでは、最初の数行について、原文の行配置が明示されていません。そのため、元のかたちについての情報は失われているかもしれません。印刷上の行の配置をマーク付けしたいときには、5 ページ番号と行番号で説明されている、lb要素を使うことができます。

戯曲テキストに見られるように、詩行が複数の話し手に分割して割り当てられていることもあります。こうしたテキストをコード化するためのもっとも簡単な方法は、断片化された行が不完全であることを示すために、part属性を使うというものです。つぎの例を見てください。

<div type="Act" n="I">
 <head>ACT I</head>
 <div type="Scene" n="1">
  <head>SCENE I</head>
  <stage rend="italic">Enter Barnardo and Francisco, two Sentinels, at several doors</stage>
  <sp>
   <speaker>Barn</speaker>
   <l part="Y">Who's there?</l>
  </sp>
  <sp>
   <speaker>Fran</speaker>
   <l>Nay, answer me. Stand and unfold
       yourself.</l>
  </sp>
  <sp>
   <speaker>Barn</speaker>
   <l part="I">Long live the King!</l>
  </sp>
  <sp>
   <speaker>Fran</speaker>
   <l part="M">Barnardo?</l>
  </sp>
  <sp>
   <speaker>Barn</speaker>
   <l part="F">He.</l>
  </sp>
  <sp>
   <speaker>Fran</speaker>
   <l>You come most carefully upon
       your hour.</l>
  </sp>
<!-- ... -->
 </div>
</div>

ふたりの話し手に分担されているようなスタンザの場合にも、同じやり方が使えます。

<div>
 <sp>
  <speaker>First voice</speaker>
  <lg type="stanza" part="I">
   <l>But why drives on that ship so fast</l>
   <l>Withouten wave or wind?</l>
  </lg>
 </sp>
 <sp>
  <speaker>Second Voice</speaker>
  <lg part="F">
   <l>The air is cut away before.</l>
   <l>And closes from behind.</l>
  </lg>
 </sp>
<!-- ... -->
</div>

つぎの例は、散文作品中の会話部分を、劇作品と同じようにコード化するにはいかにすべきかを示しています。また、当該の会話部分を担う話者の識別コードを与える、who属性の使い方も示しています。

<div>
 <sp who="OPI">
  <speaker>The reverend Doctor Opimiam</speaker>
  <p>I do not think I have named a single unpresentable fish.</p>
 </sp>
 <sp who="GRM">
  <speaker>Mr Gryll</speaker>
  <p>Bream, Doctor: there is not much to be said for bream.</p>
 </sp>
 <sp who="OPI">
  <speaker>The Reverend Doctor Opimiam</speaker>
  <p>On the contrary, sir, I think there is much to be said for him.
     In the first place....</p>
  <p>Fish, Miss Gryll -- I could discourse to you on fish by
     the hour: but for the present I will forbear.</p>
 </sp>
</div>

2010-08-13

本について希少性の経済は働くのか

Review

多少出遅れた観はありますが、先月出た『ブック・ビジネス 2.0』を買ってきて読みはじめました。まだ最初の津田さんと橋本さんの論考しか読んでいませんが、触発されてかんがえたことをメモしておきます。

ブックビジネス2.0 - ウェブ時代の新しい本の生態系

作者: 岡本真,仲俣暁生,津田大介,橋本大也,長尾真,野口祐子,渡辺智暁,金正勲
出版社/メーカー: 実業之日本社
発売日: 2010/07/16
メディア: 単行本
購入: 21人クリック: 562回
この商品を含むブログ (53件) を見る

まず、書籍のビジネスが今後も成り立つ、あるいは成り立たせなければならないという前提について。もうすこし正確に言えば、ある本なりエッセイなりのコンテンツそれ自体に課金して収益をあげるというビジネスの形態が維持できるのかについて。

わたしは書籍ビジネスの実態についてくわしいわけではありませんが、こうしたビジネスは難しくなっていくだろうと思っています。たいして目新しい意見でもありませんが、コンテンツそのものに課金するというビジネス形態は、そのコンテンツの情報自体が稀少であることを前提としています。財としてのコンテンツが稀少であるからこそ、交換経済が成立するわけです。しかし、WWWのおかげでテキストはむしろ過剰になっている。むしろ、稀少になっているのはウェブのユーザの時間です。

そこで、津田さんが言う書き手と読み手が直接結びついた「オンデマンド」出版や、橋本さんの提言にある「投げ銭」の制度化をすることによって、ユーザが欲するものが作られる仕組みがととのえられる、そういう筋書きはありだと思います。しかし、問題はそのような制度がどれくらいの期間もつかです。たとえば、セマンティック・ウェブのような構想が実現するまでの、過渡期にだけ成立しうるものなのではないか。繰り返しますが、そうだとしても一時的にそういう過渡期のための仕組みをつくるのはもちろんいいことだと思います。しかし、ウェブ上（とそれ以外）のリソースが非常に効率よく見つかるようになってしまったとき、はたして特別な書き手へ読者が「投げ銭」を出すものかどうか。わたしは非常に疑問に思っています。

テキスト（とその他の情報のコンテンツ）が稀少でなくなるのであれば、交換のゲームはほとんど無意味になります。そうなると、準備のための資金を誰も持たなくなり、クリエイティヴな作品はなにも書かれなくなる。そうでしょうか？

テキストが過剰になったときの、書き手と読み手の組織化の可能性はどのようになるか。わたしは、ここで（当然ながらといいたいが）10年以上前に書かれた古典、エリック・レイモンドの「ノウアスフィアの開墾」を引きたいと思います。レイモンドによると、オープンソースの活動を成立させているのは、ハッカーのあいだの「贈与の文化」です。オープンソース・ハッカーたちの社会では、「生存に関わる必需品―つまりディスク領域、ネットワーク帯域、計算能力など」が欠乏することが起きないため、そこでは交換による関係が無意味になってしまいます。そうした環境では、「その人がなにをコントロールしているかではなく、その人がなにをあげてしまうか」で社会的ステータスが決まります。リソースが豊富すぎるために、中央集権的権力や市場は成立せず、「競争的な成功の尺度として唯一ありえるのが仲間内の評判だという状況」が生まれるというわけです。

テキストの書き手と読み手の組織化は、この評判ゲームのラインで可能になっていくのではないかというのがわたしのかんがえです。むしろ、津田流の「オンデマンド」出版や橋本式「投げ銭」の制度は、レイモンドのいう伽藍方式（「「伽藍とバザール」参照）なのであって、クリエイティヴな活動にとって必ずしも最適ではないのではないか。

ここで、先日読んだボブ・スタインの「メモ」を思い出しておきたいと思います。スタインによると、紙時代の著者が将来の読者のために特定の主題にかかわる人という役割を期待されていたのに対し、ネットワークに本が置かれる時代には主題の文脈に沿って読者とかかわる人に変わる、あるいはそういう性格が強調されざるをえないと論じています。

この、「主題の文脈に沿って読者とかかわる人」という像に心当たりはないでしょうか。「主題」を「コード」に、「読者」を「ハッカー」に置き換えてみてはどうでしょうか。リーヌス・トーヴァルズ、ラリー・ウォール、グイド・ヴァン・ロッサムといった名前が口をついて出ませんか（出ねーか）。わたしたちはすでに未来の著者のモデルを手にしています。

わたしたちが、頼まれもしないのにブログを書いたり、どこかでチュンチュンさえずったりしているのは、テキストの過剰の時代の黎明期にいるからなのです。