http://baidu.jp/
【予想】
・検索サーバが全部SSDだ。
・DBが完全にメモリに乗っかっている。
・インデックス数が少ない
・テラビットイーサネットだ
うーん、精度が低い = 速い というのが単純なイコールではないような。
回答とずれていたらごめんなさい。
多分ユーザ数が少ないからだと思います。
さらに、付け加えると、分散サーバで日本のサーバはjpアドレスからのアクセスに限定しているから、
ユーザ数が少ないのと合いマッチして早いのでは。
CEOが開発した検索アルゴリズムも関係しているかもしれませんが、良くわかりません。
ちなみに自分が百度を知ったのは、はてなを退職して百度に転職した人のブログで日本進出をしりました。
ユーザ数が少ないってのはあるでしょうね。
ただ、システムを組んでみた方はわかると思うのですが、あれだけのレスポンススピードを実現するにはなにか工夫があるはず。
jpアドレスからのアクセスに限定しているから速い、というだけではちょっと論拠が弱いかもしれません。
早いんですか?
早い・・・確かに早いですね。
だったら、
プログラマが優秀(または優秀な人が身軽に仕事が出来る)
サーバーを絞ってる(最適化されてる)
とかじゃないですか?
個人的には、早いのは当たり前なので、
より面白い(意外or望んでる)検索結果が出た方が嬉しいですね。
そういえば、
ニコニコ動画とかは
一月で100倍増になったアクセスを
サーバーを13台くらいで、チューニングのみで乗り切ったとかで、
技術凄いらしいです。
サイト運営では、
大手より、ベンチャーの方が、よっぽど効率の良いサイトが多いように思えます。
サーバのアーキテクチャや仕組みの秘密がわかったら楽しいなーと思うんですよね。
そしたらそれを参考にしたら、はてなみたいな他のWebサービスが劇的に速くなるかもしれないし。
> より面白い(意外or望んでる)検索結果が出た方が嬉しいですね。
現時点でGoogleやYahooよりも検索精度が劣っているのは、日本語検索のノウハウが基本的に足りていないからだと思います。これはある種仕方のないことで、(精度をあげるための努力が続けば)時間が解決するのかもしれません。
それを差し引いたとき、検索〜出力のスピードがここまで速いのはなぜかなー、と思いまして。
チューニングのみで増えたアクセスをさばききる、というのはエンジニアの腕の見せ所ですよね。
大手よりベンチャーの方がノウハウがある、というのはまさにその通りだと思います。
・広告が無い
日本版の百度は広告に関する処理(ReadもWriteも)が無いからでは?
→本家の百度(http://www.baidu.com/)は広告が出るのだけど、やっぱりそんなには速く無いような気が。
・インデックスが少ない
検索結果の件数もGoogleの方が一桁くらい多いですね。
あと、百度は国の政策で、内容によってインデックス化出来ない物が
あったりなかったり?
たとえば、天安も
・・・ん?
すいません、玄関に誰か来てるみたいなので、後で続きを書きmas
> ・広告が無い
たにかに。この影響は大きそうですね。
コンテンツマッチの必要がなければまったくもって表示は速くなるはず。
(1)検索結果のキャッシュっぽいものをもって、ごまかしてそうな感じ
同一キーワードで検索した場合に検索時間の差が激しすぎる
Googleは毎回ほぼ同じなんですね。
(2)2バイトコード(漢字)を初めから想定した設計をおこなっていて
その点で、有利な点がどこかにあるとか
> 検索結果のキャッシュっぽいものをもって、ごまかしてそうな感じ
そう、画像検索で、個々の画像をぽろぽろ読み込むような感じが全くなく、一発ですぱっと全サムネイルが表示されるんですよね。(こちら側の回線が光の場合)これができるのは、あらかじめページがメモリ上にキャッシュされて、ディスクアクセスなしでレスポンス返せるからじゃないかな、と個人的には思っているのですが。
> 2バイトコード(漢字)を初めから想定した設計をおこなっていて
これがわからない。
baiduの外側の文字コードはUTF-8で、文字コードの変換なしに入出力した方がサーバ側の効率はよいような気がするんですよね。とすれば、検索DBもUTF-8でまるごと設計してしまった方が変換処理が入らない分速いような気が。ちがうかな。。。そもそもUTF-8のマルチバイトコードは3バイトじゃなかったでしたっけ。
最初から中国語と限定してやってきたプログラムだから、
2バイトに強いという話がこちらに。
http://japan.cnet.com/interview/media/story/0,2000055959,2036716...
んー。
DBにシングルバイトのカラムとマルチバイトのカラムがあったとして、マルチバイト側の方が速くなる設計ってどんなんなんでしょうね。不思議。
(狭義な意味での検索エンジンとして)
GoogleやYahoo!との比較で考えると
>・インデックス数が少ない
はとても大きいと思います。
クエリに対してヒットするドキュメント数が少なければ
ドキュメント毎にスコアをつけてスコアの大きい順にソートするという
処理の時間が短くてすみますから。
(日本語のページに限れば1億ページもあれば99%以上のクエリに
100ページ以上を返すことは容易でしょう)
あとはヒットしたドキュメントに
スコアをつけるアルゴリズムが簡単というのがあると思います。
Googleのスコアリングアルゴリズムの複雑さはよく語られていることで
この辺を端折っているとレスポンスはかなり良くなると思います。
あとはアドワーズのようなクエリにマッチする広告を
検索する時間も省けてますね。
なるほど。
・インデックス数が少ない
・インデックス対象が日本語のページだ
・検索ロジックがGoogleやYahooと比べて単純だ
・広告マッチング処理がない
あと、サーバが日本にある、というのも大きいかも。
http://blog.livedoor.jp/dankogai/archives/50990005.html
でも、キャッシング機能をもった検索サーバを日本においてよかったんでしたっけ?
>でも、キャッシング機能をもった検索サーバを日本においてよかったんでしたっけ?
この辺は近く法律改正されるみたいですね。
http://www.mext.go.jp/b_menu/shingi/bunka/gijiroku/013/07100407/...
現実はクロールしたキャッシュを
国内に置いているサービスなんて山ほどあるわけですし...。
なるほど。納得です。
結果ページのHTMLソースが軽いためじゃないですか。
DVDで検索してみたところ、baiduが20kb、googleが40kb、yahooが60kbでした。
ブラウザの表示って、回線やサーバーの性能が高くなった昨今だと、意外にボトルネックだったりしますよ。
http://baidu.jp/s?tn=baidujp&ie=utf-8&cl=3&ct=262144&wd=DVD
http://www.google.co.jp/search?hl=ja&q=dvd&btnG=Google+%E6%A4%9C...
http://search.yahoo.co.jp/search?p=dvd&ei=UTF-8&fr=top_ga1&x=wrt
お!それは気がつかなかったです。
たしかにこれは関係ありそうです。
あと、3社ともCSSとJavaScriptが外部ファイルとして切り出されていないのは、ファイル読み込みにかかるオーバーヘッドを削っているんですね。けっこう地道な工夫なんですね。
広告がないというのが大きいかもしれませんが
・利用者が少ない
・検索をするデータベースがそれほど大きくない
というのがあるのではないでしょうか。
始まったばかりというわけではないですが、クロールして集めているデータの
量がgoogleなどより少ないから早いという見方も出来るかもしれません。
またSSDやテラビットイーサを使用したとしても途中のネットワークがボトルネックになって
それほどの効果を発揮できるかどうかは疑問が残ります。
やはり利用者数とDBの大きさが一番、と。
たしかにインデックスされている数がまるで少なそうな感じですね。
> またSSDやテラビットイーサを使用したとしても
テラビットイーサについては僕も同意見です。
メモリ展開するDB(ハッシュDBなど)はとても速く、現時点で大手系サイトでも実績があることから、メモリ的な速度でディスクっぽい使い方ができるSSDによるサーバ構成というのはこれからよく出てくるネタになるのかなーなんて勝手に予想しています。
お答えとは関係ないですが、マルチバイトが得意で後発でPC版のクロールもこれからであるならば、どうせなら最初からモバイルで勝負すればいいのにねぇ、と思いました。いまから既存サービスのクロール網羅度を追い越すのは難しいでしょうからね。
こんばんは
DBにシングルバイトのカラムとマルチバイトのカラムがあったとして、マルチバイト側の方が 速くなる設計ってどんなんなんでしょうね。不思議。
http://japan.cnet.com/blog/tamon/2006/09/15/googleoraclebig_6721...
データの持ち方とかそういう基本的なものではないでしょうか?
あと、表示はUTF-8だとしても、実際に持っているデータはどういうコードか不明です。
なるほど。ありがとうございます。
ああ、なるほど。
それもありますね。
しっかし、すんごい画像がヒットしますよね。なんだこりゃ。
憶測&上の方々もおっしゃっていますが、アダルトフィルターの有無が一番大きいのではないでしょうか。
文字だけを見て除外するにしても、するとしないでは大違いですし…。
↓ダミーです
ありがとうございます。
アダルトフィルター、こっそり非合法なやつを販売している業者がつかまっちゃう原因になっちゃうかもですね。
はい、次の方どうぞ。