最近、1000万行のCSVファイルを高速で処理する会社があることを知りました。ターボデータラボラトリです。http://www.turbo-data.co.jp/j/tech/tech2.html 似たような会社としては、高速屋があります。(ターボが特許出願しているのに対して、高速屋は特許出願していないようです。) 質問なのですが、1000万行のCSVを集計したいと思っている企業は日本にどのくらいあるでしょうか? 不明だと思うので、そこそこいけている フェルミ推定 で回答お願いします。

回答の条件
  • URL必須
  • 1人2回まで
  • 登録:2009/08/24 16:32:48
  • 終了:2009/08/31 16:35:02

回答(3件)

id:karuishi No.1

ニャンざぶろう回答回数764ベストアンサー獲得回数1282009/08/24 17:01:50

ポイント27pt

ターボデータラボラトリのOh-Pa 1/3は、CSV処理用ではないですよ。

データを主メモリ上に置くオンメモリデータベースで処理時間比はDB内データ操作に対してです。

1000万行のCSVを集計したい場合、最初にDBロードに掛かる時間は大きく変わらないはず。

http://www.bsc.fujitsu.com/services/ohpa/concept/

 

ということで、

1000万行のCSVを集計したいと思っている企業は日本にどのくらいあるでしょうか?

は、

日本の企業数300万社

そのうちPC使っているの1/3

そのうち大規模CSV使うところ1/1000

そのうちデータベース使ってるところ1/2

で1500社くらいでしょうか。

id:isogaya

どうもでした。他の方はどうでしょうか?

2009/08/24 18:22:28
id:yofucasi No.2

yofucasi回答回数102ベストアンサー獲得回数32009/08/24 18:44:53

ポイント27pt

http://www.tse.or.jp/listing/companies/index.html

一部上場企業数 2,351社

最低でもこの10倍は需要があるはず 2万社

ターボデータラボラトリのOh-Pa 1/3の資料は本当なら驚異的です。

ただし、比較対照のRDBにINDEXをはってないので、実際問題の比較としては妥当ではありません。

id:isogaya

フェルミ推定 かなり違いますね。

項目数:20項目 なので、全部にindex 張るのもあまりチューニングとしてはよくはないかなとも思います。

実際にデモみましたが、早いです。実際上は、100倍程度の差ではないかと思われます。

特許庁の人もターボに来社して説明を聞いたそうです。通常は、特許庁に出向いて説明するそうですが、よほどよい技術だと思ったのでしょう。

2009/08/25 07:25:13
id:ttakao No.3

RON回答回数276ベストアンサー獲得回数312009/08/25 10:01:55

ポイント26pt

入り口がヘンな気がします。

ITでは、そういう技術が語られるのはデータウェアハウスの分野です。

テラデータ、ネティーザ、オラクル、HP、IBM、SAPなんかが並列、オンメモリーで高速化技術を競ってます。

この分野では、1000万件なんて別に驚きません。毎日、更新データだけで1億件に達する会社もあります。

日々の取引の明細までをデータベースにぶちこんで、マイニングやBIで処理するのですから。

例示された会社が誇らしげに書いてある内容も当然の話ばかりですし、仮に特許を取れたとしても、要素技術にすぎず、ビジネス上、大きく評価できるかというと、疑問があります。

大量のデータのクレンジング(ゴミを取ったり修正したり)、多次元データベースにどう収めるか、定義をどう保持するのか、ジョブスケジューリングなどなどスピードマニア以外の総合力でビジネス上の価値が決まります。

じゃぁ、どれくらいの会社がそれを必要としているかというと日本のデータウェアハウスの市場を少し見てみました。

http://prtimes.jp/main/html/rd/p/000002188.000000000.html

ちょっと古いですが、取り混ぜて9000億円市場ということでしょうか。

id:isogaya

エクセルで集計している人が、1000万行のCSVファイルを集計したいなと思ったときに気軽にできるプロダクトです。話がかみ合っていません。

2009/08/25 10:59:09
  • id:chibitomo
    比較事例でもあるようにRDBだと15分かかるところを数百ミリ秒で高速に処理できる
    分散ロジックとオンメモリでの処理方法は面白いと思います。

    ・1000万件以上のデータをとりあつかうRDBとその専用システムが山ほどあり
    それらにはクライアントにニーズにあわせて特定の項目だったりが
    トータルで集計、部分集計できるようにはじめから設計されてたりする。
    ・使っている人たちはそんなに頻繁に集計しないので15分かかっててもよいという人の方が多いのでは。
    ・大学、研究機関は自前で分析システムを持っている、クラスタまたはスパコン持っているでは。
    ・個人でCore2のlinuxマシン3台LAN経由で繋げて分散しても26ギガフロップスの処理能力出せる時代、
    中小企業にもオーバスペックなクラスタマシンが導入されている時代にこのようなニーズがあるのか。
    ・連続して1000万件以上のCSVを集計するようなことは少ない。
    ・サーバのログ解析には便利そうな気がしたが、1000万件以上のCSVを集計する能力があったところで
    今度はオーバスペック。

    このような状況を考えるとで利用ニーズはあまり多くないと思っています。
    なんとなく、そう、思った、だけっす。
  • id:isogaya
    1000万件以上の集計は、小売業ではごく当たり前にあるようです。エクセル感覚で、1000万件以上扱いたいというものです。
    実際に、1000万件以上の集計を常時行っている人からのコメントも欲しいです。
  • id:karuishi
    まず1000万件以上の集計と1000万行以上のCSVファイルは違います。
    2つがごっちゃになってしまっている気がします。
  • id:ttakao
    すみません。説明が悪くて。データベースにデータを持ち込む場合、XMLなどといいながらもCSVは主流です。また、データを持ち出す場合もCSVでダウンロードすることも、よくあります。CSVの流速も問題ですが所詮、データベースのパフォーマンスに左右されることは当然です。DWHの分野では並列処理や高度なキャッシングにより、当然、解決されているので、上のように書きました。
    BIツールはエクセル感覚と、エクセルでいうピボットなどを数千万件に対して行うためのツールです。いわゆるRDBでは解決しずらいため、このような技術があります。
  • id:isogaya
    1000万件扱えるBIツールは価格はいくらでしょうか
  • id:karuishi
    100万行まではExcel2007で一応可能ですよね
    100万行CSVを超える集計ってイメージつかめませんが
    例とか出せますか?
  • id:isogaya
    karuishi さんは、エクセルで、100万行やったことありますか?
    私はヤル気がしません。

    それから、300万行ぐらいは当たり前ですよ。
    http://www.isc.senshu-u.ac.jp/~thc0640/guide090806.pdf

    ターボデータの人に聞いたのですが、1000万行がよくでるそうです。
  • id:isogaya
    この質問は何社かをフェルミ推定してほしいというものです。
    市場規模聞いているのじゃないんだけど、
  • id:karuishi
    >それから、300万行ぐらいは当たり前ですよ。
    >http://www.isc.senshu-u.ac.jp/~thc0640/guide090806.pdf

    元データがCSVデータじゃない気がします。
  • id:isogaya
    karuishi さんは、この種のデータ解析の知識と経験がないみたいですね。ttakao さんが書かれているように、生データは、CSVのことが多いです。

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

絞り込み :
はてなココの「ともだち」を表示します。
回答リクエストを送信したユーザーはいません