特に、外部リンク流入がない 裏サイト、闇サイトを、

効率的に(その存在 、URL を)検知する方法はどのようなものが考えられるでしょうか?

リンクを辿っていけばいつかたどりつくと期待できるわけではない、サイトをです

見つけた人が報告する
http://yokoku.in/page_tuhoform.php
という方法以外で、です。


(そのサイト全体の)コンテンツが危険なものであるかどうか、
その他、人間的価値判断が必要と思われる部分もすべてシステムが知能的に考えて判断すると思ってください。

回答の条件
  • 1人2回まで
  • 登録:2008/08/21 21:57:31
  • 終了:2008/08/26 19:53:32

ベストアンサー

id:isogo45 No.1

isogo45回答回数31ベストアンサー獲得回数32008/08/22 00:43:30

ポイント70pt

検索エンジンを自前で作ることもあり色々な工夫をしていますが、急いで収集させるときのデザインを利用して以下のような仕様を考えました。主に日本のサイトを探すときに限定して話を進めます。

1.かな漢字変換の辞書からローマ字を取り出し、英次郎などの辞書から英語の単語を取り出します。そのデーターを元にして、.com.net.org.jpなどをつけてドメインを考えます。これでドメインからipが引けるドメインだけをリストアップします。属性型jpドメインの場合は裏サイトはあまり無いと思いますので省きます。ドメインを考えるときにランダムにつけることは少ないと思います。何らかのつながりのある言葉を使う場合は仮名漢字辞書で出てくる言葉の可能性が一番高いのではないでしょうか。

2.(1.)を基にしてサイトの情報を取り出します。長いと時間がかかりますので始めの10kbytesだけを取り出します。始めのほうの文章だけでほとんどサイトの内容は判別できると思います。

3.隠語、アダルト系の言葉、ブラックな内容の言葉等のリスト(※)を作ります。この辞書を基にしてサイトの文章を検索して合致する単語があったらグレイリストに加えます。

あとは、(2、)の中にリンクがあればたどるといった感じになると思います。案外裏系のサイト同士リンクしている可能性がありますのでリンクをたどるとしたら広くたどるよりもこういったサイトのリンクをたどるほうが効率は良いかもしれないですね。

グレイリストのサイトの内容に関しては文章の解析をしないといけないのですが、簡単に考えると(隠語)+(肯定する述語)になっているかどうか、その合致した部分の割合などで判断すればある程度判断できるとは思います。

自動処理では必ずエラーが生じますので最終的には人間が判断することになると思います。文章のニュアンスを判断することは現在の技術では可也難しいと思います。そもそも、人間同士でもニュアンスを判断しづらい場合がありますの最終判断をコンピューターの処理にさせるのは困難です。

※のリストを作る際に選ぶ言葉が効率を上げるかどうか決め手になると思います。

どこかにリストがあるわけではないのでどうしてもドメインのリスト、言葉のリストを総当りで調べる必要があると思います。

id:TAK_TAK

辞書攻撃ですか

2008/08/24 16:00:01

その他の回答(2件)

id:isogo45 No.1

isogo45回答回数31ベストアンサー獲得回数32008/08/22 00:43:30ここでベストアンサー

ポイント70pt

検索エンジンを自前で作ることもあり色々な工夫をしていますが、急いで収集させるときのデザインを利用して以下のような仕様を考えました。主に日本のサイトを探すときに限定して話を進めます。

1.かな漢字変換の辞書からローマ字を取り出し、英次郎などの辞書から英語の単語を取り出します。そのデーターを元にして、.com.net.org.jpなどをつけてドメインを考えます。これでドメインからipが引けるドメインだけをリストアップします。属性型jpドメインの場合は裏サイトはあまり無いと思いますので省きます。ドメインを考えるときにランダムにつけることは少ないと思います。何らかのつながりのある言葉を使う場合は仮名漢字辞書で出てくる言葉の可能性が一番高いのではないでしょうか。

2.(1.)を基にしてサイトの情報を取り出します。長いと時間がかかりますので始めの10kbytesだけを取り出します。始めのほうの文章だけでほとんどサイトの内容は判別できると思います。

3.隠語、アダルト系の言葉、ブラックな内容の言葉等のリスト(※)を作ります。この辞書を基にしてサイトの文章を検索して合致する単語があったらグレイリストに加えます。

あとは、(2、)の中にリンクがあればたどるといった感じになると思います。案外裏系のサイト同士リンクしている可能性がありますのでリンクをたどるとしたら広くたどるよりもこういったサイトのリンクをたどるほうが効率は良いかもしれないですね。

グレイリストのサイトの内容に関しては文章の解析をしないといけないのですが、簡単に考えると(隠語)+(肯定する述語)になっているかどうか、その合致した部分の割合などで判断すればある程度判断できるとは思います。

自動処理では必ずエラーが生じますので最終的には人間が判断することになると思います。文章のニュアンスを判断することは現在の技術では可也難しいと思います。そもそも、人間同士でもニュアンスを判断しづらい場合がありますの最終判断をコンピューターの処理にさせるのは困難です。

※のリストを作る際に選ぶ言葉が効率を上げるかどうか決め手になると思います。

どこかにリストがあるわけではないのでどうしてもドメインのリスト、言葉のリストを総当りで調べる必要があると思います。

id:TAK_TAK

辞書攻撃ですか

2008/08/24 16:00:01
id:ken33jp No.2

ken33jp回答回数928ベストアンサー獲得回数132008/08/23 20:54:58

メールを盗聴するシステムをつくる。

id:newtab No.3

newtab回答回数47ベストアンサー獲得回数12008/08/23 20:06:26

ポイント10pt

検索サイトには登録されないようになっているでしょうから、自前でスクローラをつくる必要があります。また、利用される無料サービスなどには限りがあるでしょうから、数サイトの新頁を網羅的にスクロールし、検索ワードでつりあげるしかないでしょう。

id:TAK_TAK

単一のwebページを検出したいのではないです。

そのような怪しいサイトを検出したいのです。

2008/08/24 15:56:42
  • id:ardarim
    urlの裏側のサーバー側のファイル構成を見ることはプロトコルの仕組み上できませんので、思いつきや辞書で総当りするしかありません。
    ただし、そのような正規のリンクでない(一般に公開されていない、アクセスされることが想定されていない)urlにアクセスした場合、不正アクセス禁止法に触れる可能性がありますので注意が必要です。
    (参考)サイバーノーガード戦法
    http://ja.wikipedia.org/wiki/%E3%82%B5%E3%82%A4%E3%83%90%E3%83%BC%E3%83%BB%E3%83%8E%E3%83%BC%E3%82%AC%E3%83%BC%E3%83%89%E6%88%A6%E6%B3%95

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

絞り込み :
はてなココの「ともだち」を表示します。
回答リクエストを送信したユーザーはいません