人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

特に、外部リンク流入がない 裏サイト、闇サイトを、
効率的に(その存在 、URL を)検知する方法はどのようなものが考えられるでしょうか?

リンクを辿っていけばいつかたどりつくと期待できるわけではない、サイトをです

見つけた人が報告する
http://yokoku.in/page_tuhoform.php
という方法以外で、です。


(そのサイト全体の)コンテンツが危険なものであるかどうか、
その他、人間的価値判断が必要と思われる部分もすべてシステムが知能的に考えて判断すると思ってください。


●質問者: tak
●カテゴリ:インターネット
✍キーワード:URL コンテンツ サイト システム リンク
○ 状態 :終了
└ 回答数 : 3/3件

▽最新の回答へ

1 ● isogo45
●70ポイント ベストアンサー

検索エンジンを自前で作ることもあり色々な工夫をしていますが、急いで収集させるときのデザインを利用して以下のような仕様を考えました。主に日本のサイトを探すときに限定して話を進めます。

1.かな漢字変換の辞書からローマ字を取り出し、英次郎などの辞書から英語の単語を取り出します。そのデーターを元にして、.com.net.org.jpなどをつけてドメインを考えます。これでドメインからipが引けるドメインだけをリストアップします。属性型jpドメインの場合は裏サイトはあまり無いと思いますので省きます。ドメインを考えるときにランダムにつけることは少ないと思います。何らかのつながりのある言葉を使う場合は仮名漢字辞書で出てくる言葉の可能性が一番高いのではないでしょうか。

2.(1.)を基にしてサイトの情報を取り出します。長いと時間がかかりますので始めの10kbytesだけを取り出します。始めのほうの文章だけでほとんどサイトの内容は判別できると思います。

3.隠語、アダルト系の言葉、ブラックな内容の言葉等のリスト(※)を作ります。この辞書を基にしてサイトの文章を検索して合致する単語があったらグレイリストに加えます。

あとは、(2、)の中にリンクがあればたどるといった感じになると思います。案外裏系のサイト同士リンクしている可能性がありますのでリンクをたどるとしたら広くたどるよりもこういったサイトのリンクをたどるほうが効率は良いかもしれないですね。

グレイリストのサイトの内容に関しては文章の解析をしないといけないのですが、簡単に考えると(隠語)+(肯定する述語)になっているかどうか、その合致した部分の割合などで判断すればある程度判断できるとは思います。

自動処理では必ずエラーが生じますので最終的には人間が判断することになると思います。文章のニュアンスを判断することは現在の技術では可也難しいと思います。そもそも、人間同士でもニュアンスを判断しづらい場合がありますの最終判断をコンピューターの処理にさせるのは困難です。

※のリストを作る際に選ぶ言葉が効率を上げるかどうか決め手になると思います。

どこかにリストがあるわけではないのでどうしてもドメインのリスト、言葉のリストを総当りで調べる必要があると思います。

◎質問者からの返答

辞書攻撃ですか


2 ● ken33jp
●0ポイント

メールを盗聴するシステムをつくる。


3 ● newtab
●10ポイント

検索サイトには登録されないようになっているでしょうから、自前でスクローラをつくる必要があります。また、利用される無料サービスなどには限りがあるでしょうから、数サイトの新頁を網羅的にスクロールし、検索ワードでつりあげるしかないでしょう。

◎質問者からの返答

単一のwebページを検出したいのではないです。

そのような怪しいサイトを検出したいのです。

関連質問


●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ