たとえば1万件のデータをチェックするとして、そのデータが90％の確率で正しいと判断するためにはどういった方法があるでしょうか？

Question

stray_sheep

15

15もっと見る

110pt

コンピュータ科学・統計資料

たとえば1万件のデータをチェックするとして、そのデータが90％の確率で正しいと判断するためにはどういった方法があるでしょうか？

回答の条件

URL必須
1人2回まで

登録：2006/07/03 19:43:29
終了：2006/07/10 19:45:04

※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

コメントはまだありません

人力検索はてなたとえば1万件のデータをチェックするとし.. 2006-07-05 00:48:10

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

リクエスト送信済

回答リクエストを送信したユーザーはいません

ToMmY · Answer 1 · 2006-07-03T19:52:03+09:00

どういう意味でしょうか?

データの整合性を調べるんでしょうか？それともアンケート結果の信憑性でしょうか？

後者は守備範囲外なので勘弁してくださいｗｗ

前者についてですが、ＭＤ５というものがあり、どんなものでも1つに特定できるといわれています。

http://ja.wikipedia.org/wiki/MD5

これだと100％しかチェックできませんが、プログラムで一字一句あわせていけばどれだけ正しいかもチェックできます。

http://www.cybernetic-survival.net/md5.htm

とりあえずＭＤ５の算出のみ載せておきます。

ちょっと意味を取りにくかったので間違えてたらすみません。

aoun · Answer 2 · 2006-07-03T20:00:35+09:00

私はシステム系ではないですし、当件具体的に分かりませんので、何とも言えませんが、具体的にはどういうデータ要件なのでしょうか？。

ただ、似たような話であれば、初心者でも、マイクロソフトアクセスを使えば簡単にできます。

　エクセルに地域住民１万行のデータベースがあるとします。住所、年齢、家族構成、などなど１行（1人）につき２０列の項目がある仮定すると、データ単位は行ですので、１万行１万人分ですから、１万データです。１万データ×２０項目なので、２０万データではあっても１万データ（１万人分）です。

　この１万人のデータが1人の漏れも無いのかどうか、点検する方法ならあります。ただし、正しいかどうか疑問なデータと、正しいとして手本に出来るデータの両方が必要となります。

　上記例ですと、２０万個１万人分のデータの正誤を点検したいとした時に

　１万行１万人分の住民台帳か何かの氏名データをエクセルデータにしたものが手本としてあるならば、可能となります。

　アクセスに両者のエクセルシートをテーブルとして載せておいて、氏名をKey列にして、照合させればいいだけです。初心者用のアクセス教本の水準ですぐ可能になります。氏名が一対一で対応し同じものが存在するものを抽出できます。例えばこれが９０％以上であれば、９０％以上は正と推測できます。

（氏名データがユニークでなければならない、とか、記述方法やデータ仕様が同じでなければならない、とか、照合結果が合致と出ても理論照合に過ぎませんから事実上は違うなど詳細はありますが）

apple-eater · Answer 3 · 2006-07-03T21:05:15+09:00

No.3

apple-eater42082006/07/03 21:05:15

18pt

一件ごとに確認する関数がある
データはインデクスでランダムアクセス可能

ならば、1から10000の乱数を10000の90%つまり1000個生成して、それをインデクスとするレコードをチェック関数で調べる。

これってモンテカルロ法になるのかな？

モンテカルロ法 - Wikipedia

ありがとうございます。

なるほど、モンテカルロ法というのがあるのですね。

ちょっと調べてみました。

　解析的に解くことができない問題でも、十分多くの回数シミュレーションを繰り返すことにより、近似的に解を求めることができる。適用範囲が広く、問題によっては他の数値計算手法より簡単に適用できるが、高い精度を得ようとすれば計算回数が膨大になってしまうという弱点もある。

（IT用語辞典より）

確率的に完全に他に従属しないデータを扱う場合は有効のようですね。今回の場合は住所というデータの加工を想定しているので、ある程度の数をこなせば、残りもだいたい大丈夫だろうと想像できそうな気がします。つまりちこょっと従属してるというか・・・。このへん数学的になんとか表現できますでしょうか？

2006/07/05 00:05:48

Mook · Answer 4 · 2006-07-03T21:10:07+09:00

全数調査ができない場合、母集団から抽出した標本を評価し、母集団の性質を推測する手法があります。

データの仮説検定、と呼ばれるものですが、これが今回のケースに適用できるでしょう。

http://ja.wikipedia.org/wiki/%E4%BB%AE%E8%AA%AC%E6%A4%9C%E5%AE%9...

このような統計処理の場合いつでも、ある確率の上で判断を行います。

わかりずらい表現ですが、「90% の確率で正しいということを、何%の確かさで確認する。」という方法です。

統計をある程度理解できないと、正確な判断ができないと思いますが、世の中の製品の品質というものは、多くはこのような方法で管理されています。

aiaina · Answer 5 · 2006-07-03T23:23:50+09:00

全数か抜き取りかは、品質の重要性と、御社の品質の能力しだいです。

初期は要求どおり全数を検査して、品質が安定して全数の必要が無いということがデータで示せるようになれば、お客さんも納得して、抜き取り検査に移行させてくれると思います。

抜取検査についてはＪＩＳに計数値検査における抜取検査手順（ＪＩＳ　Ｚ　９０１５）というのがあります。

これにのっとっておこなうのがベターでしょう。

このへんの検査の緩め方も品質の教科書に書いてありますので、ここは難しくて・・・と言わず勉強しないと顧客の信頼は得られませんし、そういう公のルールに基づいて検査していると言えないと、お客さんも困ってしまいます。

がんばってくださいhttp://q.hatena.ne.jp/1151923407

Mook · Answer 6 · 2006-07-08T01:28:19+09:00

二回目の回答です。

少し誤解があるようなので、このあたりは書籍などをじっくり読まれた方が良いと思いますが、簡単に説明をします。

まず、100％正しくなければならない（正常に動作しなければならない）問題に対しては、基本的には全数検査です。

生命が関わる自動車や、交通機関に関わるものがこれに相当するでしょう。

一定の不良率が許される場合（もちろん、これは利益に直結するので、低いに越したことはありませんが）、サンプリングによる検査で品質が一定水準に保たれていることを試験しながら、全体の水準を推定するのです。

たとえば、99％の品質で製造でいていると仮定すると、不良で返品やクレームが起こる可能性がありますが、それに対する費用を出しても、全数検査を行うより製造効率が上がり、結果として利益が上がる場合、これでよしとするのです。冷蔵庫やテレビ、パソコンなどがこれにあたるでしょうか。

基本的には、サンプリングで検査したものの品質から、全数の品質を推定するものであって、品質をコントロールするのは、あくまで製造手法（今回の場合ならプログラムのアルゴリズム？）になります。

サンプリングした結果に問題があれば、これが期待した精度に収まるまで改善をしていく必要があります。

このときのサンプリングから母集団の分布を推定する手法が仮説検定です。

乱暴に言えば、10000のデータを処理し、そのうち100のデータを確認したら、処理不良が3個ありました。

といった場合でも、データの分布により、品質が95%以上である確かさが90%にも50%にもなるのです。

日本では古くからQC手法と呼ばれる改善プロセスがありましたが、統計的に改善手法を確立したものとしては、シックスシグマと呼ばれるものが有名です。

http://homepage1.nifty.com/QCC/sqc4/sqc4-cpk.htm

http://www.atmarkit.co.jp/aig/04biz/sixsigma.html

http://www.sixcg.com/index.html

たとえば1万件のデータをチェックするとして、そのデータが90％の確率で正しいと判断するためにはどういった方法があるでしょうか？

回答（6件）

ToMmY656192006/07/03 19:52:03

aoun27692006/07/03 20:00:35

apple-eater42082006/07/03 21:05:15

Mook13143932006/07/03 21:10:07

aiaina81791312006/07/03 23:23:50

Mook13143932006/07/08 01:28:19

コメント（0件)

この質問への反応（ブックマークコメント）

トラックバック