限られた試験の結果から不良率を予測する方法を教えてください。

Question

sample2

81

81もっと見る

1300pt

科学・統計資料

限られた試験の結果から不良率を予測する方法を教えてください。

参考事例（試行回数10、1超でOK）
10、9、10、8、9、10、6、10、10、9

・物理的に10が上限値
・とりうる値は0～10の整数値

たった10サンプルの中に6という結果が紛れ込んでいるため、「不良率が高いのでは？」という意見が出て、「スジが悪い」と開発終了の瀬戸際なのです。
求められている不良率は1％未満なので、上記の結果から「0か1が出る確率は1％未満」といいたいのです。確率分布が不明なので、正確な結果は出ません。しかし、一般的な仮定の下で「不良率1％未満」となれば万々歳です。
もちろん、常識的な仮定で計算した結果、不良率が1％以上になってしまうなら、残念ですが諦めがつきます。

回答の条件

1人5回まで

登録：2013/02/28 12:01:01
終了：2013/03/04 00:34:09

※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

質問者から

sample22013/02/28 12:05:57

これは理論的に上限が決まっている試験なので、飛びぬけて高い値は絶対に出てきません。そして大半の試験結果が、上限付近となる特長があります。また低い値が出る原因は多々あって、それらを完全に制御することはできないという前提があります。

規約違反として通知

No.1

きゃづみぃ1353911982013/02/28 12:14:25

50pt

＞また低い値が出る原因は多々あって、

その原因が無視できるものであるならば、6とか極端なのは無視してもよいと思います。

他3件のコメントを見る

個人的には6とかまだ1の6倍だし、気にしないでOKといいたいのですが、他に納得しない方がいるので、統計的に何か説得材料を作れないかと……。

2013/02/28 12:34:07

6なら合格で、1未満が不良です。測定誤差もあるので、0と1は不良と判断します。
私が「安全性」といっているのは、不良率の推定です。「10回やって10が5回、9が3回、8が1回、6が1回出たとき、不良判定の0か1が出る確率はどの程度か？」を予測したいのです。
不良品は検査でわかるので、世の中に出ることはありません。しかし歩留まりが悪いと利益が出ないので、不良率が1％未満であってほしいのです。

2013/02/28 18:29:20

不良品は検査でわかるということは、しばらくやれば、どれぐらい不良品が出たかわかるはずです。
そこから不良率を求めるのが一般的かと思われますが。

2013/02/28 18:32:13

ですから、開発途中で数を作れないので、たった10サンプルから結果を予測しなければならないのです。いま説得できなければ、ここで終わりなんです。
高級品なので、最終的な生産数も数百台程度です。数百台しか生産しないもののために試作品を10台作るだけでもたいへんなのです。1％未満の不良率というのは、実質的に不良が1つも出ないことを期待するということを意味しています。

2013/02/28 18:41:43

質問者から

sample22013/02/28 15:06:57

質問文を編集しました。詳細はこちら。

規約違反として通知

No.2

★champion★9372013/02/28 17:09:19

100pt

ああ、そういう意味でしたか。じゃあ、普通に考えて６の確率10％だから、１以下が出る確率はだいだい5％です。なので、安全率は99，5％ですね。

他1件のコメントを見る

私の言葉の選択がまずくて意図が伝わっていないので、文章を書き換えました。

2013/02/28 18:30:41

「不良率を予測したい」というのが真意です。サンプルはこれ以上、増やせません。「10サンプルやって、全部OKだった」が私の報告で、それに対して「6～10というと、けっこう値がばらついている。この調子だと、0や1も高い確率で出てしまうのではないか。この製品は筋が悪いから辞めよう」という意見が出ているわけです。私としては「計算上、0や1はこんなに出にくい」と反論したいのです。

2013/02/28 18:50:54

どうもありがとうございます。

2013/03/01 03:40:21

質問者から

sample22013/02/28 18:39:12

質問文を編集しました。詳細はこちら。

規約違反として通知

No.3

oil99917283202013/02/28 18:56:15

100pt

母集団が正規分布にしたがっていると仮定した場合、6に着目すると、確率0.1で出ているため、確率0.05で1以下が出る可能性があります。
よって、安全率は99.5％となります。

正規分布表

http://www.biwako.shiga-u.ac.jp/sensei/mnaka/ut/normdisttab.html

他3件のコメントを見る

了解しちゃ、駄目ですよぅ。
0～10が取りうる値で、計算するまでもなく平均値が８～１０くらいにありそうなデータで、標本値の加工もせずに、どの値の出現確率がいくつ、なんて。

せめて、導出過程がないと、「不良率が高いのでは？」と言ってる人を説得できないんじゃないですか？

2013/02/28 20:14:00

私もこれだけのサンプルで説得させるのは難しいと思います。

これで終わってよいのかどうかは私にはわかりませんが、そう思っている人も少なからずいるということは間違いなさそうです。

ちなみに不良品が出た場合、その不良を取り除くことはできないんですね?

2013/02/28 21:17:23

問題の製品は、不良が発見されたら全損になります。

もともとサンプルは10しか作れない前提で、試験結果を見て結論を得ることになっており、現状では「こりゃダメだ。リスクが高すぎる」となっているのです。そこで「結論を出すのは明日の夕方まで待ってください」と。
統計に無知な者同士なので、こちらが少しお勉強したら何か反論できるのではないかと思ったのです。しかし無知な状態からWebページをパラ見しても何だかよくわからない。それで人力検索に頼ってみた次第です。

ともあれ、正規分布表を見ると、10個作って全て基準値の何倍といった数字でも、運悪く基準値を下回る確率ってけっこう高いのですね……。

2013/02/28 22:54:10

別の質問でも書きましたが、ポアソン分布を想定した方が良いと思います。
明日の夕方までだったら、もうちょっと時間はありますよね。
回答できるところまで行けるかどうか、分からないですけど、ちょっとやってみます。

2013/02/28 23:19:57

No.5

たけじん15432032013/03/01 10:24:17

50pt

たぶん統計的に処理できるほどのサンプル数じゃない。
６って数値と頻度が微妙すぎる。
８と大きく隔たってないし、１０％の確率だし。
無視できないと思う。
それぞれの数値に言い訳ができるなら（ということは、同一条件じゃないことでもあり、このサンプルには意味が無い）検討の余地ありだけど。

６が出た時点で、実験？計画の見直しです。

他1件のコメントを見る

1未満になる技術的要因、を掘り下げた方がいいのでは？
確率などで予測できます？
1と6と10の要因が違うと、複合分布で解析不能です。

気持ち的には、1が不良で最低6なんだから、全然問題ありません、ですけどねぇ。

2013/03/01 10:35:56

どうもありがとうございました。

2013/03/04 00:30:25

No.6

akagi_paon143132013/03/01 17:02:29

500pt

質問文のデータから、
　平均=9.1
　標準偏差=1.28
が求められます。
まず、0 か 1 が出る確率 $P(X ￥leq 1)$ について
　 $P(X ￥leq 1) ￥leq P(|X - 9.1| ￥geq 8.1)$
が成り立ちます。
ここで、チェビシェフの不等式
　 $P(|X - 9.1| ￥geq 1.28 k) ￥leq ￥frac{1}{k^2}$
が成り立つので、 $1.28 k = 8.1$ より、
　 $k = 7.1$
とおくと、
　 $P(X ￥leq 1) ￥leq P(|X - 9.1| ￥geq 8.1) ￥leq 0.02$
が成り立ちます。
従って、0 か 1 が出る確率は 0.02 以下と考えられます。

ブートストラップで k の 95%信頼区間を求めると (4.13,18.0) となり、
0 か 1 が出る確率は 0.06 以下である可能性が非常に高いです。

x <- c(10,9,10,8,9,10,6,10,10,9)
n <- length(x)

ks <- replicate(100000, {
  tmp <- sample(x, size=n, replace=TRUE)
  (mean(tmp) - 1) / sd(tmp)
})
k <- quantile(ks, probs=c(0.025, 0.975))
1/k^2

2013/03/01 19:27:21

どうもありがとうございました。

2013/03/04 00:31:00

ニャンざぶろう 2013/02/28 23:35:13

＞・とりうる値は0～10の整数値
検査の結果が離散値になっているのは何故？
本当にこの精度だったら有効桁数１桁未満です。

真の値が、切り上げまたは切り捨てられて
この値として出ているという事でしょうか？
sample2 2013/03/01 03:42:52

申し訳ありませんが、回答は控えさせてください。

... 安全率は99.5％とかデタラメすぎる。質問者のことなど、全くどう... - 人力検索 - はてなハイク 2013-02-28 23:27:48

http://q.hatena.ne.jp/1362020461 安全率は99.5％とかデタラメすぎる。質問者のことなど、全くどうなってもいいと思ってるんだろうなあ…

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

リクエスト送信済

回答リクエストを送信したユーザーはいません

a-kuma3 · Accepted Answer · 2013-03-01T01:00:58+09:00

提出されている数値は、ある製品の品質を表す数値（成績）だと仮定します。
満点が10点。
それなりの品質で作られているため、平均は良い方に偏っており、悪い点数はあまり観測されない。
＃この辺りの仮定が違ってると、これ以降の意味が無くなっちゃうわけですが...

そこで、点数ではなく、満点からの減点に着目し、減点の出現頻度がポアソン分布に従う、と仮定する。

つまり、10 → 0、9 → 1 というふうに加工するということです。
度数分布は、以下のようになります。

得点	減点	測定回数
10	0	5
9	1	3
8	2	1
7	3	0
6	4	1
5	5	0

この減点の分布が、ポアソン分布に従うかどうかを、適合度検定します。
つまり、帰無仮説は「減点の分布は、ポアソン分布に従っている」です。
対立仮説は「減点の分布は、ポアソン分布ではない」です。
標本数が少ないので、有意水準は 5% としておきます。

0	1	2	3	4	5	減点
5	3	1	0	1	0	標本の度数
0	3	2	0	4	0	減点×標本の度数（λの推定に使う）
0.40656966	0.36591269	0.16466072	0.04939821	0.0111146	0.00200063	λ=0.9 のポアソン分布の確率
4.0656966	3.6591269	1.6466072	0.4939821	0.111146	0.0200063	ポアソン分布(λ=0.9)の期待度数

λの推定値は 0.9 です（↑の表の三行目の合計を、二行目の合計で割った値）。
ポアソン分布の確率は、こちらの表を使ってます。もちろん、表は累積確率なので、差分に読み替えてます。

んで、期待度数が 1 未満の階級を統合します。つまり、減点が 2～5 の階級をまとめています。

0	1	2-5	ランク
5	3	2	度数
4.0656966	3.6591269	2.2717416	期待度数
0.214704374	0.118730036	0.032505236	検定統計量

検定統計量の合計は 0.365939647 。
検定統計量は、自由度 1 (3-1-1) のχ2分布に従う。
有意水準αを 5% としたときの検定統計量は、χ2分布表から 3.84。
よって、対立仮説は有意水準 5% で棄却され、「標本データは、ポアソン分布に従わないとは言えない」となります。
つまり、λ=0.9 のポアソン分布っぽい、ということです。

1% 確率のランクを期待してたんですよね。
ポアソン分布表から、λ=0.9 のところを引用します。

0	0.40656966
1	0.77248235
2	0.93714307
3	0.98654128
4	0.99765588
5	0.99965651
6	0.99995660
7	0.99999518
8	0.99999952
9	0.99999996
10	1.00000000

累積確率が 0.99 を超えるのは、3～4 です。
減点が 4 以上の値、つまり点数が 6 以下の点数が出てくるのは 1% 未満ということが言えそうです。

でも、最終的に統計検定に使った表を見れば分かりますが、階級が三つで、それぞれの度数が 5, 3, 2 という表をポアソン分布だと推定しているわけです。
ポアソン分布は、極端な値の発生頻度が低い、離散値で観測される現象でよく使われます。
標本数が少ないので、期待度数が 1 を超えるまで階級を統合しましたが、通常はもっと大きな値で統合します。
つまり、もう少し、標本が欲しいな、というところなんです（仕方ないとは言え）。

後、「リスク」という捕え方をされた場合には、計算上の出現率よりも厳しいところを求められるのが常です。
製品の歩留まりを考えた場合、歩留まり率を 99%（100個に 1個が不良品）に抑えたければ、出現率はもっと低いところを求められます。
開発段階のようなので、この辺りはある程度の値でも良いのかもしれませんが。

後付けになりますが、ポアソン分布の適合度検定については、以下の辺りを参照ください。

a-kuma3 · Accepted Answer · 2013-03-01T01:00:58+09:00

提出されている数値は、ある製品の品質を表す数値（成績）だと仮定します。
満点が10点。
それなりの品質で作られているため、平均は良い方に偏っており、悪い点数はあまり観測されない。
＃この辺りの仮定が違ってると、これ以降の意味が無くなっちゃうわけですが...

そこで、点数ではなく、満点からの減点に着目し、減点の出現頻度がポアソン分布に従う、と仮定する。

つまり、10 → 0、9 → 1 というふうに加工するということです。
度数分布は、以下のようになります。

得点	減点	測定回数
10	0	5
9	1	3
8	2	1
7	3	0
6	4	1
5	5	0

この減点の分布が、ポアソン分布に従うかどうかを、適合度検定します。
つまり、帰無仮説は「減点の分布は、ポアソン分布に従っている」です。
対立仮説は「減点の分布は、ポアソン分布ではない」です。
標本数が少ないので、有意水準は 5% としておきます。

0	1	2	3	4	5	減点
5	3	1	0	1	0	標本の度数
0	3	2	0	4	0	減点×標本の度数（λの推定に使う）
0.40656966	0.36591269	0.16466072	0.04939821	0.0111146	0.00200063	λ=0.9 のポアソン分布の確率
4.0656966	3.6591269	1.6466072	0.4939821	0.111146	0.0200063	ポアソン分布(λ=0.9)の期待度数

λの推定値は 0.9 です（↑の表の三行目の合計を、二行目の合計で割った値）。
ポアソン分布の確率は、こちらの表を使ってます。もちろん、表は累積確率なので、差分に読み替えてます。

んで、期待度数が 1 未満の階級を統合します。つまり、減点が 2～5 の階級をまとめています。

0	1	2-5	ランク
5	3	2	度数
4.0656966	3.6591269	2.2717416	期待度数
0.214704374	0.118730036	0.032505236	検定統計量

検定統計量の合計は 0.365939647 。
検定統計量は、自由度 1 (3-1-1) のχ2分布に従う。
有意水準αを 5% としたときの検定統計量は、χ2分布表から 3.84。
よって、対立仮説は有意水準 5% で棄却され、「標本データは、ポアソン分布に従わないとは言えない」となります。
つまり、λ=0.9 のポアソン分布っぽい、ということです。

1% 確率のランクを期待してたんですよね。
ポアソン分布表から、λ=0.9 のところを引用します。

0	0.40656966
1	0.77248235
2	0.93714307
3	0.98654128
4	0.99765588
5	0.99965651
6	0.99995660
7	0.99999518
8	0.99999952
9	0.99999996
10	1.00000000

累積確率が 0.99 を超えるのは、3～4 です。
減点が 4 以上の値、つまり点数が 6 以下の点数が出てくるのは 1% 未満ということが言えそうです。

でも、最終的に統計検定に使った表を見れば分かりますが、階級が三つで、それぞれの度数が 5, 3, 2 という表をポアソン分布だと推定しているわけです。
ポアソン分布は、極端な値の発生頻度が低い、離散値で観測される現象でよく使われます。
標本数が少ないので、期待度数が 1 を超えるまで階級を統合しましたが、通常はもっと大きな値で統合します。
つまり、もう少し、標本が欲しいな、というところなんです（仕方ないとは言え）。

後、「リスク」という捕え方をされた場合には、計算上の出現率よりも厳しいところを求められるのが常です。
製品の歩留まりを考えた場合、歩留まり率を 99%（100個に 1個が不良品）に抑えたければ、出現率はもっと低いところを求められます。
開発段階のようなので、この辺りはある程度の値でも良いのかもしれませんが。

後付けになりますが、ポアソン分布の適合度検定については、以下の辺りを参照ください。

限られた試験の結果から不良率を予測する方法を教えてください。

質問者から

ベストアンサー

a-kuma3497321542013/03/01 01:00:58

その他の回答（5件）

きゃづみぃ1353911982013/02/28 12:14:25

質問者から

★champion★9372013/02/28 17:09:19

質問者から

oil99917283202013/02/28 18:56:15

正規分布表

a-kuma3497321542013/03/01 01:00:58ここでベストアンサー

たけじん15432032013/03/01 10:24:17

akagi_paon143132013/03/01 17:02:29

コメント（2件)

この質問への反応（ブックマークコメント）

トラックバック