これを修正したので確かに治ったということを確かめたい。そのとき同じ条件で何回実行してもバグが再現しなければ「バグが治った」という確信(統計的根拠)を持てるといえるでしょうか?
私が考えたのはバグの有り無しについてカイ自乗検定を行うこととして、有意なp値がでる回数まで実行する、というものです。
しかし次のような疑念が生じました。
(1) 検定ではサンプル数を増やせば有意差は出やすくなる。有意なp値になるまでやるというのはいわゆる「p値ハッキング」であり妥当な実験といえなくなるのではないか?
(2) 検定においては帰無仮説「バグの発生頻度は同じ確率分布である」が棄却されるにすぎず、「発生頻度が下がった」とは言えても「バグが治った(0回になった)」とは言えないのではないか?
「統計学ではこう考える」「異なる検定を使用すべき」「検定ではない方法を使え」「ISOxxxxxではこう定義されている」「科学哲学ではこう考える」などあらゆる観点からの意見を歓迎します。
統計学の観点からは、(1)は全くその通りです。(2)も差の有無の検定を使う限りはそうです。