Unixで、テキスト中にマッチする単語の「個数」を数えたいです。

Question

stealthinu

24

23もっと見る

80pt

コンピュータ

Unixで、テキスト中にマッチする単語の「個数」を数えたいです。

Perlとかで書けば出来ますが、grepとかwcとかをうまく使えば、コマンドだけで簡単に出来そうな気がするのに、思いつきません。
簡単に出来る方法を教えてください。

回答の条件

URL必須
1人2回まで

登録：2005/12/21 15:21:54
終了：--

※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

コメントはまだありません

モーグルとカバとパウダーの日記 2006-04-24 10:11:52
ナル文字の向こう側 - vimで単語数のカウント 2012-01-18 02:10:33

vimで単語数のカウントとりあえず今日で三日坊主は達成だ。久々にvim使いとしてキュンと来るコマンドを見つけたからメモ。ファイル内で検索文字列にマッチする単語の数を数えようとし

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

リクエスト送信済

回答リクエストを送信したユーザーはいません

くまっぷす · Answer 1 · 2005-12-21T15:28:11+09:00

No.1

くまっぷす37841852005/12/21 15:28:11

5pt

http://www.linux.or.jp/JM/html/GNU_grep/man1/grep.1.html

Manpage of GREP

grep -c ”対象の単語” テキストファイル名

では？

-c だと、行数なので、同一行に複数の対象単語があった場合、合わなくなってしまいませんか？

実は自分もそれでいけると思って、さっくりと期待を裏切られました。

あと、grepがSolarisの標準grepなので、GNU grepと違うのですが、たぶん同じ動作だと思います。

念のため確認してみます。

2005/12/21 15:36:31

cubick · Answer 2 · 2005-12-21T15:39:36+09:00

No.2

cubick129392005/12/21 15:39:36

5pt

http://www.linux.or.jp/JM/html/GNU_textutils/man1/wc.1.html

Manpage of WC

wcコマンドの”-w(--words)”オプションでは駄目ですか？

wc -w コマンドは、そのテキスト中に含まれる単語数をカウントでは。

テキスト中に含まれるとある単語「foo」の数を数えたいのですが。

すんごい単純なことなにに、簡単な方法が思いつかない…

2005/12/21 15:52:42

dev_zer0 · Answer 3 · 2005-12-21T16:02:05+09:00

http://www.hatena.ne.jp/1135146114

人力検索はてな - Unixで、テキスト中にマッチする単語の「個数」を数えたいです。 Perlとかで書けば出来ますが、grepとかwcとかをうまく使えば、コマンドだけで簡単に出来そうな気がするの..

URLはダミーです

perl -pe ’s/foo/foo￥n/g’ file | grep foo | wc -l

# perl使ってるじゃん．．．でもsedを無理に使いたくないなぁ．．．

cubick · Answer 4 · 2005-12-21T16:45:46+09:00

http://www.perl.com/

Perl.com: The Source for Perl -- perl development, conferences

URLはダミーです。

失礼しました。単語の区切りを空白文字とするなら、次の様な感じでどうでしょうか？コマンドラインから実行します。

　perl -an -e ’$total+= grep(/<調べたい単語>/,@F);END{print ”$total￥n”;}’ <単語の含まれるファイル名>

例えば”apple”という単語が”fruits.txt”というテキスト中にいくつ出てくるかを調べるなら

　perl -an -e ’$total+= grep(/apple/,@F);END{print ”$total￥n”;}’ fruits.txt

といった具合になります。

JULY · Answer 5 · 2005-12-21T18:38:12+09:00

http://www.linux.or.jp/JM/html/GNU_sed/man1/sed.1.html

Manpage of SED

URL は半分ダミーです。

下記のようなのはどうでしょう？

sed ’s/[ ￥t]/￥n/g’ ファイル名 | grep 単語 | wc -l

sed で単語を全て１行ずつにして grep をかけて wc で数える、という方法です。

英語のように、単語が空白文字で区切られている、という条件がつきますが...。

Unixで、テキスト中にマッチする単語の「個数」を数えたいです。

回答（5件）

くまっぷす37841852005/12/21 15:28:11

cubick129392005/12/21 15:39:36

dev_zer0332252005/12/21 16:02:05

cubick129392005/12/21 16:45:46

JULY9662472005/12/21 18:38:12

コメント（0件)

この質問への反応（ブックマークコメント）

トラックバック