ウェブページの検索エンジンで、クエリに正規表現が使えるものはないでしょうか? たとえば「すもももももももものうち」を含むページを、"すも+のうち"というクエリでヒットさせることができる検索エンジンです。あるいは何か API を組み合わせて実現できるアイデアがあれば教えてください。日本語が利用できることが望ましいです。

回答の条件
  • URL必須
  • 1人2回まで
  • 登録:2007/12/09 16:42:01
  • 終了:2007/12/16 16:45:03

回答(1件)

id:K_SUKE No.1

K_SUKE回答回数73ベストアンサー獲得回数52007/12/09 21:36:46

ポイント60pt

Namazu検索エンジンならできるんではないでしょうか。

Namazu: a Full-Text Search Engine

こちらに使用例が載ってます。

Namazuによる全文検索システムの導入

id:sed

回答ありがとうございます。

私は「全世界のウェブページ」を検索する際に、

クエリとして正規表現を使えるものを探しています。

自前で検索エンジンを構築して、クロールさせるのも1つの方法と思いますが、

それにはおそらくそれなりの時間とコストがかかると思います。

それよりも簡便な方法がないでしょうか。

2007/12/09 21:57:52
  • id:JULY
    とっくに締め切られてしまっているけど見つかりました。

    http://www.exalead.com/search/

    Advanced Search をクリックすると、Regular expression が使えます。本当に正規表現で引っかかるのかは、確かめてはいませんが。
  • id:sed
    おお、すばらしい!
    さっそく試しました。

    /chargo.*maugg/ を入力して、"Chargoggagoggmanchauggauggagoggchaubunagungamaugg" が、
    /enviro.*al/ /sust.*ty/ を入力して、"Environmental Sustainability" が、
    それぞれ引っかかりますね。

    サンプルの mpe?g(1|2|3) といったような使い方も面白いですね

    ただ、どうも完全ではないようです。
    (1) 処理をサボっているように見える。"environmental sustainability" のほうが "/enviro.*al/ /sust.*ty/" よりもヒット数が多い。
    (2) ヒット数が多すぎる入力は、"Not Found" となる傾向にある。
    (3) [0-9] や [a-zA-Z] といった表現が使えない。
    (4) 日本語がほとんどだめ。たぶん中国語、ハングルとかもだめっぽい。

    英語圏の検索エンジンのため、1単語の中での表現の多様性を吸収する目的っぽいです。
    とはいえ、大変参考になります。ありがとうございます。

    やりたかったのは、
    (阪神|タイガース|阪神タイガース)ファン(ならば?|は)(JOSHIN|ジョーシン)(へ|に)(行|い)(こう|け)
    という長い日本語の文章の中で、意味が同じ表現が何回出現しているかみたかったのです。自分で作りでもしないとだめなんですかね..

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

絞り込み :
はてなココの「ともだち」を表示します。
回答リクエストを送信したユーザーはいません