最近、1000万行のＣＳＶファイルを高速で処理する会社があることを知りました。ターボデータラボラトリです。http://www.turbo-data.co.jp/j/tech/tech2.html　似たような会社としては、高速屋があります。(ターボが特許出願しているのに対して、高速屋は特許出願していないようです。）　質問なのですが、1000万行のＣＳＶを集計したいと思っている企業は日本にどのくらいあるでしょうか？　不明だと思うので、そこそこいけている　フェルミ推定　で回答お願いします。

Question

isogaya

2748

2711もっと見る

80pt

コンピュータ科学・統計資料

最近、1000万行のＣＳＶファイルを高速で処理する会社があることを知りました。ターボデータラボラトリです。http://www.turbo-data.co.jp/j/tech/tech2.html　似たような会社としては、高速屋があります。(ターボが特許出願しているのに対して、高速屋は特許出願していないようです。）　質問なのですが、1000万行のＣＳＶを集計したいと思っている企業は日本にどのくらいあるでしょうか？　不明だと思うので、そこそこいけている　フェルミ推定　で回答お願いします。

回答の条件

URL必須
1人2回まで

登録：2009/08/24 16:32:48
終了：2009/08/31 16:35:02

※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

chibitomo 2009/08/24 17:58:45

比較事例でもあるようにRDBだと15分かかるところを数百ミリ秒で高速に処理できる
分散ロジックとオンメモリでの処理方法は面白いと思います。

・1000万件以上のデータをとりあつかうRDBとその専用システムが山ほどあり
それらにはクライアントにニーズにあわせて特定の項目だったりが
トータルで集計、部分集計できるようにはじめから設計されてたりする。
・使っている人たちはそんなに頻繁に集計しないので15分かかっててもよいという人の方が多いのでは。
・大学、研究機関は自前で分析システムを持っている、クラスタまたはスパコン持っているでは。
・個人でCore2のlinuxマシン３台LAN経由で繋げて分散しても26ギガフロップスの処理能力出せる時代、
中小企業にもオーバスペックなクラスタマシンが導入されている時代にこのようなニーズがあるのか。
・連続して1000万件以上のCSVを集計するようなことは少ない。
・サーバのログ解析には便利そうな気がしたが、1000万件以上のCSVを集計する能力があったところで
今度はオーバスペック。

このような状況を考えるとで利用ニーズはあまり多くないと思っています。
なんとなく、そう、思った、だけっす。
isogaya 2009/08/25 07:38:20

1000万件以上の集計は、小売業ではごく当たり前にあるようです。エクセル感覚で、1000万件以上扱いたいというものです。
実際に、1000万件以上の集計を常時行っている人からのコメントも欲しいです。
ニャンざぶろう 2009/08/25 17:37:18

まず1000万件以上の集計と1000万行以上のCSVファイルは違います。
２つがごっちゃになってしまっている気がします。
RON 2009/08/25 18:02:33

すみません。説明が悪くて。データベースにデータを持ち込む場合、XMLなどといいながらもCSVは主流です。また、データを持ち出す場合もCSVでダウンロードすることも、よくあります。CSVの流速も問題ですが所詮、データベースのパフォーマンスに左右されることは当然です。DWHの分野では並列処理や高度なキャッシングにより、当然、解決されているので、上のように書きました。
ＢＩツールはエクセル感覚と、エクセルでいうピボットなどを数千万件に対して行うためのツールです。いわゆるＲＤＢでは解決しずらいため、このような技術があります。
isogaya 2009/08/25 18:28:22

1000万件扱えるBIツールは価格はいくらでしょうか
ニャンざぶろう 2009/08/25 19:33:17

100万行まではExcel2007で一応可能ですよね
100万行CSVを超える集計ってイメージつかめませんが
例とか出せますか？
isogaya 2009/08/25 21:31:12

karuishi さんは、エクセルで、100万行やったことありますか？
私はヤル気がしません。

それから、300万行ぐらいは当たり前ですよ。
http://www.isc.senshu-u.ac.jp/~thc0640/guide090806.pdf

ターボデータの人に聞いたのですが、1000万行がよくでるそうです。
isogaya 2009/08/25 21:45:22

この質問は何社かをフェルミ推定してほしいというものです。
市場規模聞いているのじゃないんだけど、
ニャンざぶろう 2009/08/25 22:04:24

>それから、300万行ぐらいは当たり前ですよ。
>http://www.isc.senshu-u.ac.jp/~thc0640/guide090806.pdf

元データがCSVデータじゃない気がします。
isogaya 2009/08/25 22:16:43

karuishi さんは、この種のデータ解析の知識と経験がないみたいですね。ttakao さんが書かれているように、生データは、CSVのことが多いです。

人力検索はてな http://q.hatena.ne.jp/1251099166　関連の.. 2009-08-25 07:54:40

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

リクエスト送信済

回答リクエストを送信したユーザーはいません

ニャンざぶろう · Answer 1 · 2009-08-24T17:01:50+09:00

ターボデータラボラトリのOh-Pa 1/3は、CSV処理用ではないですよ。

データを主メモリ上に置くオンメモリデータベースで処理時間比はＤＢ内データ操作に対してです。

1000万行のＣＳＶを集計したい場合、最初にＤＢロードに掛かる時間は大きく変わらないはず。

http://www.bsc.fujitsu.com/services/ohpa/concept/

ということで、

1000万行のＣＳＶを集計したいと思っている企業は日本にどのくらいあるでしょうか？

は、

日本の企業数３００万社

そのうちＰＣ使っているの1/3

そのうち大規模CSV使うところ1/1000

そのうちデータベース使ってるところ1/2

で１５００社くらいでしょうか。

yofucasi · Answer 2 · 2009-08-24T18:44:53+09:00

http://www.tse.or.jp/listing/companies/index.html

一部上場企業数　2,351社

最低でもこの10倍は需要があるはず　2万社

ターボデータラボラトリのOh-Pa 1/3の資料は本当なら驚異的です。

ただし、比較対照のRDBにINDEXをはってないので、実際問題の比較としては妥当ではありません。

RON · Answer 3 · 2009-08-25T10:01:55+09:00

入り口がヘンな気がします。

ＩＴでは、そういう技術が語られるのはデータウェアハウスの分野です。

テラデータ、ネティーザ、オラクル、ＨＰ、ＩＢＭ、ＳＡＰなんかが並列、オンメモリーで高速化技術を競ってます。

この分野では、1000万件なんて別に驚きません。毎日、更新データだけで１億件に達する会社もあります。

日々の取引の明細までをデータベースにぶちこんで、マイニングやＢＩで処理するのですから。

例示された会社が誇らしげに書いてある内容も当然の話ばかりですし、仮に特許を取れたとしても、要素技術にすぎず、ビジネス上、大きく評価できるかというと、疑問があります。

大量のデータのクレンジング（ゴミを取ったり修正したり）、多次元データベースにどう収めるか、定義をどう保持するのか、ジョブスケジューリングなどなどスピードマニア以外の総合力でビジネス上の価値が決まります。

じゃぁ、どれくらいの会社がそれを必要としているかというと日本のデータウェアハウスの市場を少し見てみました。

http://prtimes.jp/main/html/rd/p/000002188.000000000.html

ちょっと古いですが、取り混ぜて9000億円市場ということでしょうか。

回答（3件）

ニャンざぶろう7671282009/08/24 17:01:50

yofucasi10232009/08/24 18:44:53

RON276312009/08/25 10:01:55

コメント（10件)

この質問への反応（ブックマークコメント）

トラックバック