匿名質問者匿名質問者回答ポイント なしウォッチ 1

統計学についての質問です。ソフトウェアにある条件で1000回実行すると1回程度の割合で発生するバグがあったとします。例えば並行処理のようなタイミング依存のバグです。


これを修正したので確かに治ったということを確かめたい。そのとき同じ条件で何回実行してもバグが再現しなければ「バグが治った」という確信(統計的根拠)を持てるといえるでしょうか?

私が考えたのはバグの有り無しについてカイ自乗検定を行うこととして、有意なp値がでる回数まで実行する、というものです。

しかし次のような疑念が生じました。

(1) 検定ではサンプル数を増やせば有意差は出やすくなる。有意なp値になるまでやるというのはいわゆる「p値ハッキング」であり妥当な実験といえなくなるのではないか?

(2) 検定においては帰無仮説「バグの発生頻度は同じ確率分布である」が棄却されるにすぎず、「発生頻度が下がった」とは言えても「バグが治った(0回になった)」とは言えないのではないか?

「統計学ではこう考える」「異なる検定を使用すべき」「検定ではない方法を使え」「ISOxxxxxではこう定義されている」「科学哲学ではこう考える」などあらゆる観点からの意見を歓迎します。

ログインして回答する

みんなの回答

この質問へのコメント

コメントはありません

この質問への反応(ブックマークコメント)

質問の情報

登録日時
2016-04-16 00:01:58
終了日時
2016-04-23 00:05:05
回答条件
1人5回まで

この質問のカテゴリ

この質問に含まれるキーワード

統計学91ソフトウェア1634有意66バグ549棄却20ハッキング57観点624根拠81

人気の質問

メニュー

PC版