GridGainというｿﾌﾄｳｪｱをご存知の方､GridGainがHadoopより優れていると思うところを教えてください｡ http://www.gridgain.com/ 逆にHadoopの方が優れているところや…

Apache の wiki で､こんな文書があります｡
http://wiki.apache.org/hadoop/HadoopVsGridGain

この方の文書で気になるのは､これ｡

The primary difference is that Hadoop is designed to work with large data sets (100's of TB in a single job) and GridGain is not. GridGain's jobs have a single reducer and it is given all of the values in a java.util.List. Therefore, the GridGain's jobs are limited to what can fit in a single jvm's heap.

分散処理は､膨大な量の処理をするための技術なので､GridGain が VM のﾋｰﾌﾟｻｲｽﾞの制限を受ける､
つまり､処理量の上限がある､ということです｡

それに対して､こんなことを書いている人もいます｡
http://gridgain.blogspot.com/2008/05/gridgain-vs-hadoop-continued.html

Generally such comparisons from vendors look plain silly.
...
Moreover, the main differences between the two products are not even touched!

＃彼は､GridGain 側のお方

彼が言うには､Hadoop は､Hadoop File System (HDFS) 上にﾃﾞｰﾀを移行しなければならず､
多くの DB を扱うｼｽﾃﾑにとっては､それがﾈｯｸになる､と｡
また､GridGain の方がｼﾝﾌﾟﾙだから､理解がしやすいんだとも｡

http://www.gridgainsystems.com/wiki/display/GG15UG/Grid+Deployment
GridGain だと､それ自身にﾃﾞﾌﾟﾛｲのﾓｰﾄﾞをいくつか持ってます｡
Peer Class Loading の機能を使うと､複数のﾉｰﾄﾞに資源を配布する必要が無くなります｡

You simply change code and run - and your modified application seamlessly runs on the grid.

＃性能面での注意をしてね､と但し書きはありますが｡

http://www.smartfrog.org/wiki/display/sf/Patterns+of+Hadoop+Deployment
Hadoop だと､こういうのを使ってﾃﾞﾌﾟﾛｲの手間を軽減しないと､保守の手間がとても大変です｡
処理ﾛｼﾞｯｸをちょこちょこ変えるような研究用途には向かないでしょうね｡
＃分散処理を構築するための仕組みなので､ｸﾗｽﾀｰ(ﾉｰﾄﾞ)が多いことが前提です

何のために分散処理をやりたいか､というのがﾎﾟｲﾝﾄになると思います｡

検索ｴﾝｼﾞﾝみたいなｼｽﾃﾑを､誰もが作る必要があるとは思えません｡
ｼﾐｭﾚｰｼｮﾝのような計算処理だとか､DB を使ったｼｽﾃﾑでの重たいﾊﾞｯﾁ処理の時間短縮とか､
GridGain 向きの分野があると思います｡

去年の夏くらいに､別の部署の若手が Hadoop をお試しで使ってみた､みたいな社内発表を聞く機会があって､
そのときに､どうして Hadoop を選択したか聞いてみたら､逆に､他に何があるんでしたっけ､みたいな
逆質問を返されました｡

そのときに､軽く探した感じだと､日本語だと Hadoop の情報が多かった記憶があります｡
こういうｱﾄﾞﾊﾞﾝﾃｰｼﾞもあるんだなあ､と｡

No.2 の回答にある二つ目のﾘﾝｸ先は､ﾀｲﾄﾙに､

比較了/雲計算框架網格(Hadoop的，GridGain，Hazelcast，發援会) - 第二部分

とあるように､Part 2 です｡
因みに､Part 1 は､こちら｡
http://renren.it/a/JAVAbiancheng/JAVAzonghe/20100909/comparison-gridcloud-computing.html

こっちを見ないと､どんな演算で性能比較したのかが､全く分かりません｡

でも､翻訳ｻｲﾄを通しても､いまいち､意味は分からないですよね｡

こっちが本物のようです｡
http://dacframe.org/trac/dac/wiki/WikiStart
http://dacframe.org/trac/dac/wiki/Laboratory/GridComparisonPartI
http://dacframe.org/trac/dac/wiki/Laboratory/GridComparisonPartII

英語なら､まだ､なんとか読めます =)
更新履歴を見ると､去年まで改版が繰り返されているので､どうせ読むなら､こちらをお薦めします｡

renren.it のは､翻訳とも言えない､ただのﾊﾟｸﾘです｡

時間:2010-09-09 23:32來源:互聯網作者:互聯網點擊: 886 次

ってのが､またひどい(｢互聯網｣は､ｲﾝﾀｰﾈｯﾄのことね)｡
せめて､元の執筆者の名前を入れて､原文へのﾘﾝｸを張っておけば､と思うのだけれど｡

＃話を､内容に戻します

Part 1 の文中にﾘﾝｸがありますが､対象の問題は､これです｡
http://dacframe.org/lab

計算中心の処理のようなので､Hadoop には､ちょっと分が悪そうです｡

でも､ｸﾞﾗﾌを見てみると､ﾀｽｸが増えると､あまり差が無くなるのが分かります｡
まあ､ﾉｰﾄﾞが 5個しかないから､ということもあるでしょうが｡

Hadoop のﾒﾘｯﾄは､HDFS にあるでしょうから､比較するとしたら､

GridGain + JDBC (or NFS)
Hadoop with HDFS

のように､ﾃﾞｰﾀを扱いながら､大量の演算処理をするような比較をしないと､不公平な感じです｡

逆に､ﾀｽｸ数がﾉｰﾄﾞ数よりもはるかに多く､ﾘﾓｰﾄのﾃﾞｰﾀを使わないという条件であれば､ﾀｽｸが増えると､Hadoop と GridGain の性能差はあまり無い､ということですね｡

java VM あたりのﾀｽｸが増えると､java のｽﾚｯﾄﾞ処理の性能になるので､
ﾌﾚｰﾑﾜｰｸの差が出ないだろう､という当たり前の結果ではありますが｡

だから､性能以外のところ(*)に､違いを求めるべきなんでしょう｡
(*) 分かりやすさとか､保守性とか

まあ､先の資料は素直に読むと､｢GridGain や Hadoop なんてのもあるけど､DAC は性能が良いでしょ｣というふうに読むべきなんでしょうけれど｡

http://www.theserverside.com/news/thread.tss?thread_id=46568
こちらも､GridGain の中の人 (Nikita Ivanov) の話ですが｡

Title: Hadoop?
Posted by: Jason Carreira
Posted on: August 15 2007 14:21 EDT
in response to Wei Jiang

How would you compare GridGain to Hadoop? Both are essentially replicating the map-reduce paradigm for distributed computation that was developed by Google...

GridGain も Hadoop も､Google の map-reduce じゃん｡なんか違うの？

Title: Re: Hadoop?
Posted by: Nikita Ivanov
Posted on: August 15 2007 15:20 EDT
in response to Jason Carreira

You are right. Both GridGain and Hadoop implement Google’s MapReduce paradigm. However, the approaches differ quite significantly. Hadoop’s main focus is working with very large data files (terabytes in size). So its main responsibility is basically splitting large data into smaller data subsets for processing. GridGain, on the contrary, focuses on making it extremely easy to split your logic, not data (although you can split your data too). It allows user to “map” a computation into multiple sub-computation units and distribute these computational units across your node topology. User has a fine-grained control over task node topology distribution, scheduling, fail-over of computations to other nodes, checkpoint storage for longer computations, etc… We encourage you to download both products and see which one suites your needs better. Nikita Ivanov, http://www.gridgain.com

君は､正しい｡
GridGain も Hadoop も Google の MapReduce さ｡
でも､ｱﾌﾟﾛｰﾁの仕方に大きな違いがある｡
Hadoop は､大量のﾃﾞｰﾀﾌｧｲﾙを扱うところに焦点を当てている｡
大きなﾃﾞｰﾀを､小さなﾃﾞｰﾀに分割して扱う､というところに｡
それに比べて､GridGain は､ﾃﾞｰﾀではなく処理をどうやって簡単に分割するか､というところに焦点を当てている｡
(以下､省略)