Web上に、日本語の単語が全部でいくつあるかを推測したいと思っています。何かいい方法はないでしょうか?

あてずっぽうではなく、ある程度、統計学的な考え方を使ってできないでしょうか?
すでに誰かがやっているような気がするのですが・・・

回答の条件
  • 1人3回まで
  • 13歳以上
  • 登録:2011/03/21 12:50:04
  • 終了:2011/03/28 12:55:08

ベストアンサー

id:tama213 No.2

tama213回答回数486ベストアンサー獲得回数302011/03/21 16:56:22

ポイント27pt

探索エンジンを利用した日本語Webページ数の統計的推定

http://ci.nii.ac.jp/naid/110002725940

日本語のWEBページ数はこのような手法で統計的推定が可能だとして

1ページ当たりの単語数を設定すればよいと思いますがどうでしょうか?

id:salon_hiyake

なるほど、参考になります。しかし、この論文はちょっと古いですね。もう少し最近の統計はないでしょうか?

2011/03/21 20:45:17

その他の回答(2件)

id:some1 No.1

some1回答回数842ベストアンサー獲得回数372011/03/21 13:47:15

ポイント27pt

Wikipeiaの日本語総項目数が現在1,952,363

http://ja.wikipedia.org/wiki/Wikipedia:%E5%85%A8%E8%A8%80%E8%AA%...


これらの項目を抽出して、一つづつGoogleで検索し、各件数の総計を出せば

SNS内など検索対象でない領域を除いた概算はできるのではないでしょうか。

id:salon_hiyake

ありがとうございます。しかし、Googleで一つずつ検索するというのは途方もない作業です。何らかの観測値から、母集団の大きさを推定するやり方を探しています。

2011/03/21 15:51:37
id:tama213 No.2

tama213回答回数486ベストアンサー獲得回数302011/03/21 16:56:22ここでベストアンサー

ポイント27pt

探索エンジンを利用した日本語Webページ数の統計的推定

http://ci.nii.ac.jp/naid/110002725940

日本語のWEBページ数はこのような手法で統計的推定が可能だとして

1ページ当たりの単語数を設定すればよいと思いますがどうでしょうか?

id:salon_hiyake

なるほど、参考になります。しかし、この論文はちょっと古いですね。もう少し最近の統計はないでしょうか?

2011/03/21 20:45:17
id:kechino1 No.3

kechino1回答回数3ベストアンサー獲得回数02011/03/22 11:50:32

ポイント26pt

http://www.masayashi.com/works/counter/

このホームページに原文を貼り付けると、自動で生の文字数、文章中の英単語数やスペース・空白・タブを除去した文字数をカウントできますよ。

id:salon_hiyake

こんな機能は普通のワープロソフトにもあります.不適切な回答とさせていただきます.

2011/03/22 13:13:36
  • id:TAK_TAK
    「Web上に、日本語の単語が全部でいくつあるか」
    単語の総異なり数だと思ったんですが、
    もしかして延べ数ですか?




    だとしたら、現在の数値だけではなく、
    単位時間当たりの増加量も考慮しなければいけません。
  • id:some1
    >Googleで一つずつ検索するというのは途方もない作業

    APIを使ったスクリプトを組むとかで良いように思うのですが?
    ともあれ、そのスクリプトを走らせている間も恐ろしい速度で単語は増えつづける形となりますが。
  • id:salon_hiyake
    質問者です.総異なり数ではなく,延べ数です.
    もちろん,実測をしないで,あくまで推計です.
    なので,直接検索やスクリプトを走らせることをしないで推定したいのです.

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

絞り込み :
はてなココの「ともだち」を表示します。
回答リクエストを送信したユーザーはいません