being qua being

情報的な何かと政治的な何か

「世界一」簡単な自然言語処理環境のつくりかた

最近巷で話題沸騰中の自然言語処理ですが、どうやって環境を作るのか、何ができるのかよくわからないという人も多いと思います。そこでTextSeerというソフトで東工大の研究室が開発した自然言語処理の統合ソフトをご紹介します。

上級者になるとPythonPerl自然言語処理するのが一般的ですが簡単にやってみたいという方には、このソフトがかなり使えるんです。

f:id:hapwish:20131128181008p:plain

このソフトを使えば、どの単語が何回登場しているかといった統計的データはもちろんのこと、係り受け解析から単語のネットワーク解析まで一発でできてしまいます。

早速インストールをしてみましょう。

  1. TextSeerをインストールTakanori Kawashima's Home Page http://www.valdes.titech.ac.jp/~t_kawa/
  2. Mecabをインストール Binary package for MS-Windowsでオッケー。 http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html#download
  3. GraphVizをインストール 最新版でオッケー。Download. | Graphviz - Graph Visualization Software http://www.graphviz.org/Download..php
  4. CaboChaをインストール 0.52版をインストール(以降の版は不可)Downloads - cabocha - Yet Another Japanese Dependency Structure Analyzer - Google Project Hosting http://code.google.com/p/cabocha/downloads/list

※TextSeerは解凍ソフトで指定した場所に解凍されますが64bitOSを使っているならProgram Files(x86)以下に、32bitOSを使っているのであればProgram Files以下に移動させて下さい。他のソフトは勝手にインストールされると思います。

TextSeer起動後は設定から各ソフトの場所を指定してあげて終わりです。普通にインストールされていれば以下のような指定になります。

 

Mecab C:\Program Files (x86)\MeCab\bin\mecab.exe

Cabocha C:\Program Files (x86)\CaboCha\bin\cabocha.exe

GraphViz C:\Program Files (x86)\Graphviz 2.28\bin\neato.exe

 

出来ましたでしょうか?試しに少し動かしてみましょう。単語解析をしてみたところこんなかんじになりました。この文章には「オゾン」という単語が26回も登場しているようですね。次が「成層圏」なので、どうやらこの文章はオゾン層の破壊に関するテキストであることがわかります。

f:id:hapwish:20131128180638j:plain

こんなかんじで簡単にテキスト解析が行えます。もっと複雑な分析がしたいという人には物足りないかもしれませんが、このソフトでできることもかなりありますのでかなりおすすめできるソフトです。

更なる研究を行いたいという人にはオライリーから出ているこの本をおすすめします。

 

入門 自然言語処理

入門 自然言語処理