はてなのトップページに「過去の質問からXXXを検索」とありますが、あの大量テキストからの高速な検索はどういうシステムで実現されているのでしょうか?(もしくはどういうシステムなら実現可能でしょうか)

回答の条件
  • URL必須
  • 1人2回まで
  • 登録:2004/05/13 15:53:11
  • 終了:--

回答(11件)

id:mashy No.1

mashy回答回数1ベストアンサー獲得回数02004/05/13 16:01:21

ポイント14pt

質問の本心おとる

id:yokoyama_ken

はてな?

2004/05/13 16:02:55
id:kanetetu No.2

kanetetu回答回数2199ベストアンサー獲得回数112004/05/13 16:02:01

ポイント14pt

http://www.namazu.org/

Namazu: a Full-Text Search Engine

NAMAZUです。

id:yokoyama_ken

NAMAZUですか。NAMAZUのインターフェースを独自のものにしているということですかね。

2004/05/13 16:05:33
id:tune No.3

tune回答回数27ベストアンサー獲得回数02004/05/13 16:05:10

ポイント14pt

http://www.kusastro.kyoto-u.ac.jp/~baba/wais/other-system.html

Lists of the full-text retrieval softwares which can handle japanese properly.

テキストの検索であれば全文検索エンジンを使えば可能だと思います。あらかじめテキストを処理して、キーワードごとにインデクスというしおりのようなものを用意しておきます。無料で使えるものとしてはNamazuなどが有名です。

id:yokoyama_ken

はてなの場合はDBっぽい気がするのですが、その場合でも同じようにできるのでしょうか。

2004/05/13 16:07:40
id:aki73ix No.4

aki73ix回答回数5224ベストアンサー獲得回数272004/05/13 16:45:44

ポイント14pt

1.全文検索システムの仕組み

2.freeWAIS-sfとSFgateを用いた全文検索システム構築に3.WAIS

関する記事

参考にしてください

1に表付きで詳しく書かれています

http://homepage2.nifty.com/baba_hajime/sd1997/

Software Design 1997年8月号に掲載された記事

http://www.kusastro.kyoto-u.ac.jp/~baba/wais/

freeWAIS-sf japanization information

id:yamaya_pool No.5

yamaya_pool回答回数7ベストアンサー獲得回数02004/05/13 18:45:13

ポイント14pt

RDBMSをベースにした全文検索も可能です。

そうしたシステムに下記のような製品もあります。

id:surfersparadise No.6

surfersparadise回答回数674ベストアンサー獲得回数02004/05/14 00:39:27

ポイント14pt

http://homepage2.nifty.com/treknz/search.html

サイト内検索エンジン導入レポート

フリーCGIもいろいろありますが、

なぜnamazuか、という辺りの解説もあります。

id:kuippa No.7

くいっぱ回答回数1030ベストアンサー獲得回数132004/05/14 11:17:29

ポイント14pt

20789件のデータですからそれほど性能は高速という程のものではないと思います。

前述のナマズなどは、ドキュメントが更新された都度インデックスを貼る処理をせねばならず、リアルタイム性には劣ります。

今、この質問には何バイト入るのかちょろっと調べてみたら950バイト程度を格納することができます。

oracleなり、SQL-ServerなりPostgreなりのリレーショナルDBを使えば容易に実現できます。

質問内容を格納するテーブルを

・質問番号(PK)

・登録者(登録者のマスタに紐付く)

・質問内容(インデックスを貼る)

・そのた登録された時刻などの付帯する情報

のような構造にしておけば、

select * from 質問マスタ

where 質問内容 like ’%検索内容%’

みたいに、like検索すればマッチングさせることができます。

これくらいだったら、とりたてたチューニングをしなくても現状は満足させられるかと思います。

id:voyage_blog No.8

voyage_blog回答回数251ベストアンサー獲得回数12004/05/14 11:20:57

ポイント13pt

http://www.justsystem.co.jp/km/index.html

企業内検索エンジンなら ConceptBase - ジャストシステム

その他にKnowledge baseとかは?

たしか自然言語検索を高速に処理するには向いていたような…

こんなものもあるんですね(^_^;)

http://cn.toshiba.co.jp/prod/km2/index_j.htm

東芝ソリューション株式会社:「KnowledgeMeister(ナレッジマネジメント支援ソフトウェア)」移転のお知らせ

id:so-menrock No.9

so-menrock回答回数5ベストアンサー獲得回数02004/05/15 22:46:06

ポイント13pt

Namazuよりはメンテが簡単だと思います。

id:Xebec No.10

Xebec回答回数36ベストアンサー獲得回数02004/05/17 19:50:08

ポイント13pt

http://www.mysql.com/

MySQL :: The world's most popular open source database

オープンソースのデータベースですのでMicr0s0ftに大

枚はたくことなく使用することができるものです。こ

れを使用すれば、CMSを使うことができます。CMSはた

くさんの種類があり、知る限りほとんどのCMSに検索機

能や拡張プラグイン等がありますので、易しく使用す

ることができますよ。CMS自体の設置はそれほど難しく

はないのでTRYするかちはあるとおもいます。サーバーがそれぞれのCMSの要求するシステム用件を確認してみ

てください。例を挙げると、

PHP 4.2.x or above

MySQL 3.23.x or above

Apache 1.13.19 or above

のようなシステム要件です。

id:tohoku No.11

tohoku回答回数8ベストアンサー獲得回数02004/05/17 22:56:05

ポイント13pt

大量・高速のキーワードを考えるとMySQLなどのデーターベースを活用している可能性が高いと思います。

コメントはまだありません

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

絞り込み :
はてなココの「ともだち」を表示します。
回答リクエストを送信したユーザーはいません