匿名質問者

統計学についての質問です。ソフトウェアにある条件で1000回実行すると1回程度の割合で発生するバグがあったとします。例えば並行処理のようなタイミング依存のバグです。


これを修正したので確かに治ったということを確かめたい。そのとき同じ条件で何回実行してもバグが再現しなければ「バグが治った」という確信(統計的根拠)を持てるといえるでしょうか?

私が考えたのはバグの有り無しについてカイ自乗検定を行うこととして、有意なp値がでる回数まで実行する、というものです。

しかし次のような疑念が生じました。

(1) 検定ではサンプル数を増やせば有意差は出やすくなる。有意なp値になるまでやるというのはいわゆる「p値ハッキング」であり妥当な実験といえなくなるのではないか?

(2) 検定においては帰無仮説「バグの発生頻度は同じ確率分布である」が棄却されるにすぎず、「発生頻度が下がった」とは言えても「バグが治った(0回になった)」とは言えないのではないか?

「統計学ではこう考える」「異なる検定を使用すべき」「検定ではない方法を使え」「ISOxxxxxではこう定義されている」「科学哲学ではこう考える」などあらゆる観点からの意見を歓迎します。

回答の条件
  • 1人5回まで
  • 登録:
  • 終了:2016/04/23 00:05:05

回答2件)

匿名回答1号 No.1

統計学の観点からは、(1)は全くその通りです。(2)も差の有無の検定を使う限りはそうです。

匿名回答1号

厳密に言うと、(1)は主流となっている立場の検定での話。

2016/04/16 07:53:59
匿名回答2号 No.2

>「バグが治った(0回になった)」とは言えない
統計学的手段に頼るのであれば、どんな検証をしても「バグが治った(0回になった)」という結論を出すことは不可能では??
バグ発生率0%というためには、バグの発生原因を確定して、フィックスして、数学的手段で証明するしかないのでは。
それが不可能であれば、「十分な回数」の検証をしてバグ発生率が「十分に低い」ことを示すのが次善の策ではないでしょうか。
つまり、十分な回数がどれくらいで、十分に低いとはどれくらいなのかを考えるのが次にすべきことのような。

コメントはまだありません

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

回答リクエストを送信したユーザーはいません