人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

最近、1000万行のCSVファイルを高速で処理する会社があることを知りました。ターボデータラボラトリです。http://www.turbo-data.co.jp/j/tech/tech2.html 似たような会社としては、高速屋があります。(ターボが特許出願しているのに対して、高速屋は特許出願していないようです。) 質問なのですが、1000万行のCSVを集計したいと思っている企業は日本にどのくらいあるでしょうか? 不明だと思うので、そこそこいけている フェルミ推定 で回答お願いします。

●質問者: isogaya
●カテゴリ:コンピュータ 科学・統計資料
✍キーワード:ターボ データ ファイル フェルミ推定 ラボ
○ 状態 :終了
└ 回答数 : 3/3件

▽最新の回答へ

1 ● ニャンざぶろう
●27ポイント

ターボデータラボラトリのOh-Pa 1/3は、CSV処理用ではないですよ。

データを主メモリ上に置くオンメモリデータベースで処理時間比はDB内データ操作に対してです。

1000万行のCSVを集計したい場合、最初にDBロードに掛かる時間は大きく変わらないはず。

http://www.bsc.fujitsu.com/services/ohpa/concept/

ということで、

1000万行のCSVを集計したいと思っている企業は日本にどのくらいあるでしょうか?

は、

日本の企業数300万社

そのうちPC使っているの1/3

そのうち大規模CSV使うところ1/1000

そのうちデータベース使ってるところ1/2

で1500社くらいでしょうか。

◎質問者からの返答

どうもでした。他の方はどうでしょうか?


2 ● yofucasi
●27ポイント

http://www.tse.or.jp/listing/companies/index.html

一部上場企業数 2,351社

最低でもこの10倍は需要があるはず 2万社

ターボデータラボラトリのOh-Pa 1/3の資料は本当なら驚異的です。

ただし、比較対照のRDBにINDEXをはってないので、実際問題の比較としては妥当ではありません。

◎質問者からの返答

フェルミ推定 かなり違いますね。

項目数:20項目 なので、全部にindex 張るのもあまりチューニングとしてはよくはないかなとも思います。

実際にデモみましたが、早いです。実際上は、100倍程度の差ではないかと思われます。

特許庁の人もターボに来社して説明を聞いたそうです。通常は、特許庁に出向いて説明するそうですが、よほどよい技術だと思ったのでしょう。


3 ● RON
●26ポイント

入り口がヘンな気がします。

ITでは、そういう技術が語られるのはデータウェアハウスの分野です。

テラデータ、ネティーザ、オラクル、HP、IBM、SAPなんかが並列、オンメモリーで高速化技術を競ってます。

この分野では、1000万件なんて別に驚きません。毎日、更新データだけで1億件に達する会社もあります。

日々の取引の明細までをデータベースにぶちこんで、マイニングやBIで処理するのですから。

例示された会社が誇らしげに書いてある内容も当然の話ばかりですし、仮に特許を取れたとしても、要素技術にすぎず、ビジネス上、大きく評価できるかというと、疑問があります。

大量のデータのクレンジング(ゴミを取ったり修正したり)、多次元データベースにどう収めるか、定義をどう保持するのか、ジョブスケジューリングなどなどスピードマニア以外の総合力でビジネス上の価値が決まります。

じゃぁ、どれくらいの会社がそれを必要としているかというと日本のデータウェアハウスの市場を少し見てみました。

http://prtimes.jp/main/html/rd/p/000002188.000000000.html

ちょっと古いですが、取り混ぜて9000億円市場ということでしょうか。

◎質問者からの返答

エクセルで集計している人が、1000万行のCSVファイルを集計したいなと思ったときに気軽にできるプロダクトです。話がかみ合っていません。

関連質問


●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ