ターボデータラボラトリのOh-Pa 1/3は、CSV処理用ではないですよ。
データを主メモリ上に置くオンメモリデータベースで処理時間比はDB内データ操作に対してです。
1000万行のCSVを集計したい場合、最初にDBロードに掛かる時間は大きく変わらないはず。
http://www.bsc.fujitsu.com/services/ohpa/concept/
ということで、
1000万行のCSVを集計したいと思っている企業は日本にどのくらいあるでしょうか?
は、
日本の企業数300万社
そのうちPC使っているの1/3
そのうち大規模CSV使うところ1/1000
そのうちデータベース使ってるところ1/2
で1500社くらいでしょうか。
http://www.tse.or.jp/listing/companies/index.html
一部上場企業数 2,351社
最低でもこの10倍は需要があるはず 2万社
ターボデータラボラトリのOh-Pa 1/3の資料は本当なら驚異的です。
ただし、比較対照のRDBにINDEXをはってないので、実際問題の比較としては妥当ではありません。
フェルミ推定 かなり違いますね。
項目数:20項目 なので、全部にindex 張るのもあまりチューニングとしてはよくはないかなとも思います。
実際にデモみましたが、早いです。実際上は、100倍程度の差ではないかと思われます。
特許庁の人もターボに来社して説明を聞いたそうです。通常は、特許庁に出向いて説明するそうですが、よほどよい技術だと思ったのでしょう。
入り口がヘンな気がします。
ITでは、そういう技術が語られるのはデータウェアハウスの分野です。
テラデータ、ネティーザ、オラクル、HP、IBM、SAPなんかが並列、オンメモリーで高速化技術を競ってます。
この分野では、1000万件なんて別に驚きません。毎日、更新データだけで1億件に達する会社もあります。
日々の取引の明細までをデータベースにぶちこんで、マイニングやBIで処理するのですから。
例示された会社が誇らしげに書いてある内容も当然の話ばかりですし、仮に特許を取れたとしても、要素技術にすぎず、ビジネス上、大きく評価できるかというと、疑問があります。
大量のデータのクレンジング(ゴミを取ったり修正したり)、多次元データベースにどう収めるか、定義をどう保持するのか、ジョブスケジューリングなどなどスピードマニア以外の総合力でビジネス上の価値が決まります。
じゃぁ、どれくらいの会社がそれを必要としているかというと日本のデータウェアハウスの市場を少し見てみました。
http://prtimes.jp/main/html/rd/p/000002188.000000000.html
ちょっと古いですが、取り混ぜて9000億円市場ということでしょうか。
エクセルで集計している人が、1000万行のCSVファイルを集計したいなと思ったときに気軽にできるプロダクトです。話がかみ合っていません。
どうもでした。他の方はどうでしょうか?