これを修正したので確かに治ったということを確かめたい。そのとき同じ条件で何回実行してもバグが再現しなければ「バグが治った」という確信(統計的根拠)を持てるといえるでしょうか?
私が考えたのはバグの有り無しについてカイ自乗検定を行うこととして、有意なp値がでる回数まで実行する、というものです。
しかし次のような疑念が生じました。
(1) 検定ではサンプル数を増やせば有意差は出やすくなる。有意なp値になるまでやるというのはいわゆる「p値ハッキング」であり妥当な実験といえなくなるのではないか?
(2) 検定においては帰無仮説「バグの発生頻度は同じ確率分布である」が棄却されるにすぎず、「発生頻度が下がった」とは言えても「バグが治った(0回になった)」とは言えないのではないか?
「統計学ではこう考える」「異なる検定を使用すべき」「検定ではない方法を使え」「ISOxxxxxではこう定義されている」「科学哲学ではこう考える」などあらゆる観点からの意見を歓迎します。
統計学の観点からは、(1)は全くその通りです。(2)も差の有無の検定を使う限りはそうです。
>「バグが治った(0回になった)」とは言えない
統計学的手段に頼るのであれば、どんな検証をしても「バグが治った(0回になった)」という結論を出すことは不可能では??
バグ発生率0%というためには、バグの発生原因を確定して、フィックスして、数学的手段で証明するしかないのでは。
それが不可能であれば、「十分な回数」の検証をしてバグ発生率が「十分に低い」ことを示すのが次善の策ではないでしょうか。
つまり、十分な回数がどれくらいで、十分に低いとはどれくらいなのかを考えるのが次にすべきことのような。
厳密に言うと、(1)は主流となっている立場の検定での話。
2016/04/16 07:53:59