人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

Web上に、日本語の単語が全部でいくつあるかを推測したいと思っています。何かいい方法はないでしょうか?
あてずっぽうではなく、ある程度、統計学的な考え方を使ってできないでしょうか?
すでに誰かがやっているような気がするのですが・・・

●質問者: サロン日焼け
●カテゴリ:コンピュータ 科学・統計資料
✍キーワード:Web 単語 日本語 統計学
○ 状態 :終了
└ 回答数 : 3/3件

▽最新の回答へ

1 ● some1
●27ポイント

Wikipeiaの日本語総項目数が現在1,952,363

http://ja.wikipedia.org/wiki/Wikipedia:%E5%85%A8%E8%A8%80%E8%AA%...


これらの項目を抽出して、一つづつGoogleで検索し、各件数の総計を出せば

SNS内など検索対象でない領域を除いた概算はできるのではないでしょうか。

◎質問者からの返答

ありがとうございます。しかし、Googleで一つずつ検索するというのは途方もない作業です。何らかの観測値から、母集団の大きさを推定するやり方を探しています。


2 ● tama213
●27ポイント ベストアンサー

探索エンジンを利用した日本語Webページ数の統計的推定

http://ci.nii.ac.jp/naid/110002725940

日本語のWEBページ数はこのような手法で統計的推定が可能だとして

1ページ当たりの単語数を設定すればよいと思いますがどうでしょうか?

◎質問者からの返答

なるほど、参考になります。しかし、この論文はちょっと古いですね。もう少し最近の統計はないでしょうか?


3 ● kechino1
●26ポイント

http://www.masayashi.com/works/counter/

このホームページに原文を貼り付けると、自動で生の文字数、文章中の英単語数やスペース・空白・タブを除去した文字数をカウントできますよ。

◎質問者からの返答

こんな機能は普通のワープロソフトにもあります.不適切な回答とさせていただきます.

関連質問


●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ