会社のシステム部門で作成される大量の素データがあります。こちらの要求通りに加工してくれる業者を探しています。納期は1日以内が希望です。

また、その際の加工料金もあるとありがたいです。
テキストデータ、CSVデータなど10GBくらいの大きさになります。
(情報の守秘義務契約も交わせることは必須条件です)

回答の条件
  • URL必須
  • 1人2回まで
  • 登録:2005/12/02 18:25:00
  • 終了:--

回答(1件)

id:kunit_mac No.1

kunit_mac回答回数43ベストアンサー獲得回数02005/12/04 15:38:46

ポイント40pt

http://cygwin.com/

Cygwin Information and Installation

情報を提示しにくいとはいえ、どのように加工してほしいのか、だいたいの方向性を示す必要があると思います。 それによって「何の技術がどれくらい必要か」見積もるので、加工料金を提示することはできないでしょう。


CSVデータに変換するだけなら、UNIX系コマンドのgrep(行検索),sed(文字列置換),awk(簡単なプログラムが組めます),head等を組み合わせると可能です。

URLのフリーウェアはWindowsにUNIX環境を構築できますので、上記コマンドが利用できるようになります。

id:goldman

加工の方向性は、おおよそ数千万件のCSVデータ(2バイト文字含)について、マッチング、文字列置換、データ抽出、SORTなどです。

質問の意図は、データ加工業者を探しているのです。(ここ重要)

それにsed/awkなどのコマンドでは、2バイト文字を含むデータを置換したら文字化けして使い物にならないことはご存知ですか?

また、大量データのため時間がかかりすぎて使い物になりません。

2005/12/05 19:28:06
  • id:goldman
    (投稿者削除)

  • id:goldman
    Re:(投稿者削除)

    システム部門の業務システムは、どんな些細なバグであってもゆるされません。sedの置換機能は、2バイト文字をサポートしていませんので、かなりの頻度で文字化けしてしまうので業務では禁止しています。またgrepやawkもしかりで、とても怖くて使えたものではありません。
    例)全角文字1は、0x8250で文字Pを含んでいますので、PをXに置換すると全角文字9に変換されます。
    またgrepで、全角の文字”19” を含むテキストで、P9を検索するとヒットしてしまいます。
  • id:EddyYamanaka
    回答権が有りません

    回答しようとしたのに…
    残念!
  • id:aki73ix
    Re:回答権が有りません

    わたしもgoldmanさんの質問には何度か回答しようと思ったのですが・・・
    恐らく3人か5人以上の回答拒否者は拒否するようになっているんでしょうね

    こればかりは仕方が無いのですが、拒否率での拒否が実装されたら
    いいなぁと思っています

    現状では5回答して5人から拒否されている人が、500回答して5人から拒否
    されて人と同じ扱いになる訳ですからね
    http://i.hatena.ne.jp/idea/6523

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

絞り込み :
はてなココの「ともだち」を表示します。
回答リクエストを送信したユーザーはいません