経営大学院における研究活動のため､｢ﾃｷｽﾄ分析ﾂｰﾙ｣を探しております｡統計学の世界でのSPSSのように､ﾃｷｽﾄ分析における代表的なﾂｰﾙというものが存在する…

経営大学院における研究活動のため､｢ﾃｷｽﾄ分析ﾂｰﾙ｣を探しております｡
統計学の世界でのSPSSのように､ﾃｷｽﾄ分析における代表的なﾂｰﾙというものが存在するのでしょうか｡どのようなﾂｰﾙが適切なのかわからず､皆様のお知恵を拝借したくﾒｰﾙさせて頂いた次第です｡
下記条件に当てはまるﾃｷｽﾄ分析ﾂｰﾙをご存知でしたら､お教え頂けませんでしょうか｡
?英語対応可｡(ﾕｰｻﾞｰｲﾝﾀﾌｪｰｽが英語表示可能なだけでなく､英語ﾃﾞｰﾀの読み取りが可能)
?最低限やりたいことは､膨大なﾃｷｽﾄﾌｧｲﾙ(.txt)から､特定のｷｰﾜｰﾄﾞの登場頻度を数えること｡
?できれば､ｷｰﾜｰﾄﾞとｷｰﾜｰﾄﾞの相関関係の分析｡(相関関係にも色々ありますが､､､)
?費用ですが､ﾌﾘｰｿﾌﾄであれば最も嬉しいです｡｡｡

皆様､ご多忙のところ恐れ入りますが､おすすめの分析ﾂｰﾙがございましたら､是非ご教示頂けましたら幸いに存じます｡

ﾃﾞｰﾀ解析やﾃﾞｰﾀﾏｲﾆﾝｸﾞは定型化したﾃﾞｰﾀを対象としている｡ﾃﾞｰﾀの定型化とは､研究対象の特徴を項目(変数)ごとに分け､表形式(あるいは配列形式)にまとめたものを指す｡しかし､われわれの周辺の多くのﾃﾞｰﾀは定型化されていない｡
定型化されていないﾃﾞｰﾀの最も典型的な例は､文章(あるいは文書)である｡文章とは､何らかの文字列が一定の文法規則に基づいた文の集合体を指す｡従って､日記､小説､新聞記事､ﾒｰﾙ､ﾌﾞﾛｸﾞ文､演説文などは文章と呼ぶが､ﾒｰﾘﾝｸﾞﾘｽﾄのﾛｸﾞ､遺伝子やｳｲﾙｽの情報を記号列で表記したものを文章と呼ぶには違和感を持つ方も少なくないようである｡そこで､本稿では､記号列が何らかの規則に従って並べられた集合体をﾃｷｽﾄと呼ぶことにする｡情報ｼｽﾃﾑの普及とあいまって､ﾃｷｽﾄﾃﾞｰﾀが急速に増加している｡対象を絞っても一つ一つ目を通して分析するのは時間と労力がかかり､効率的に活用することが困難である｡また､人によっては認識や解釈などが異なることもあり､ﾃｷｽﾄを定量的に解析することが求められている｡
定型化されていないﾃｷｽﾄは単語やﾌﾚｰｽﾞ､何らかの単位に分割し､それらの出現頻度や共起関係(同時出現)などを抽出し､ﾃﾞｰﾀ解析やﾃﾞｰﾀﾏｲﾆﾝｸﾞの手法で定量的に解析することができる｡その分野を計算的ﾃｷｽﾄ解析(computational text analysis)､あるいは統計的ﾃｷｽﾄ解析(statistical text analysis)を呼ぶが､情報処理やﾋﾞｼﾞﾈｽ分野では､ﾃｷｽﾄﾏｲﾆﾝｸﾞ(text mining)と呼ばれている｡
近年このようなｱﾌﾟﾛｰﾁが市民権を得つつある｡その例として､NHKで放映された平成19年10月1日夜のﾆｭｰｽ番組の内容を紹介する｡衆知のように､平成19年9月12日､所信表明のわずか2日後に安部総理が突然辞任を表明し､安倍政権は1年足らずで幕を降ろした｡1ヶ月足らずの時間を経て､福田康夫衆議院議員が内閣総理大臣に任命され､平成19年10月1日に所信表明演説を行った｡当日夜のNHKのﾆｭｰｽ番組では､安倍元総理の所信表明演説(平成18年9月29日)と福田総理の所信表明演説(平成19年10月1日)に用いられた3つの単語(改革､安定､安心)の頻度を用いて､分析･評論を行った｡そのﾃﾞｰﾀを表1に示す｡