SPSSのシリーズ製品として IBM SPSS Text Analytics for Surveys があります。
http://www-06.ibm.com/software/jp/analytics/spss/store/stats/pasw.html
フリーソフトですと、Rを使ったテキストマイニングツールが出回っています。
http://ipintelligence.blog.so-net.ne.jp/2010-01-23
R
http://mjin.doshisha.ac.jp/R/
http://mjin.doshisha.ac.jp/R/56/56.html
http://mjin.doshisha.ac.jp/R/60/60.html
データ解析やデータマイニングは定型化したデータを対象としている。データの定型化とは、研究対象の特徴を項目(変数)ごとに分け、表形式(あるいは配列形式)にまとめたものを指す。しかし、われわれの周辺の多くのデータは定型化されていない。
定型化されていないデータの最も典型的な例は、文章(あるいは文書)である。文章とは、何らかの文字列が一定の文法規則に基づいた文の集合体を指す。従って、日記、小説、新聞記事、メール、ブログ文、演説文などは文章と呼ぶが、メーリングリストのログ、遺伝子やウイルスの情報を記号列で表記したものを文章と呼ぶには違和感を持つ方も少なくないようである。そこで、本稿では、記号列が何らかの規則に従って並べられた集合体をテキストと呼ぶことにする。 情報システムの普及とあいまって、テキストデータが急速に増加している。対象を絞っても一つ一つ目を通して分析するのは時間と労力がかかり、効率的に活用することが困難である。また、人によっては認識や解釈などが異なることもあり、テキストを定量的に解析することが求められている。
定型化されていないテキストは単語やフレーズ、何らかの単位に分割し、それらの出現頻度や共起関係(同時出現)などを抽出し、データ解析やデータマイニングの手法で定量的に解析することができる。その分野を計算的テキスト解析(computational text analysis)、あるいは統計的テキスト解析(statistical text analysis)を呼ぶが、情報処理やビジネス分野では、テキストマイニング(text mining)と呼ばれている。
近年このようなアプローチが市民権を得つつある。その例として、NHKで放映された平成19年10月1日夜のニュース番組の内容を紹介する。 衆知のように、平成19年9月12日、所信表明のわずか2日後に安部総理が突然辞任を表明し、安倍政権は1年足らずで幕を降ろした。1ヶ月足らずの時間を経て、福田康夫衆議院議員が内閣総理大臣に任命され、平成19年10月1日に所信表明演説を行った。当日夜のNHKのニュース番組では、安倍元総理の所信表明演説(平成18年9月29日)と福田総理の所信表明演説(平成19年10月1日)に用いられた3つの単語(改革、安定、安心)の頻度を用いて、分析・評論を行った。そのデータを表1に示す。
私のお勧めはこれよ日本語の分かち書きもやってくれるので便利♪
http://khc.sourceforge.net/
概要はチュートリアルを見てくださいね。
http://jaist.dl.sourceforge.net/project/khc/Tutorial/for%20KH%20Coder%202.x/khcoder_tutorial.pdf