Pythonの自然言語処理用パッケージNLTKをインストール

自然言語処理用のPythonのパッケージ、NLTKをインストールしてみました。

Ubuntu 10.04にはNLTKが最初からはいっているけれど、ぼくがまだ使っている9.04には入っていないので、インストールしてみました。

最初にエラーが出てちょっとだけ手間がかかったので手順をメモしておきます。

NLTKのサイトからソースをダウンロード。

http://www.nltk.org/download

作業フォルダに解凍して、できたフォルダ(ぼくのときはnltk-2.0b9)にcdで移動。できたら、つぎのコマンドでインストール


sudo python setup.py install

すると、ぼくの場合はyamlというのが入っていなかったらしく、つぎのようなメッセージが。

ImportError: No module named yaml

なので、つぎのサイトからyamlをダウンロード。

http://pyyaml.org/wiki/PyYAML

作業フォルダに解凍、cdでできたフォルダに移動、上記と同じコマンドをうつ。


sudo python setup.py install

すると、yamlが無事にインストールされ、最初の手順でnltkのインストールを試みると、今度はちゃんとできました。できたら、pythonを起動して、


>>> import nltk
>>> nltk.download()

これで、練習用のデータのインストールができます。これから、この本で勉強します。

Natural Language Processing with Python: Analyzing Text with the Natural Language Toolkit

Natural Language Processing with Python: Analyzing Text with the Natural Language Toolkit