質問で「回帰分析」とあるのは、説明変数をメータ数と徴収料金総額にとって相関を調べる、ということを言ってるのだと思いますが、回帰分析をやるにはデータが少なすぎます。
こういう場合には、統計値検定を使います。
母平均の検定、もしくは、平均値の差の検定になるでしょうか。
どちらを行う場合でも、不偏分散を求める必要があるので、徴収料金総額だけではなく、個々の徴収料金が必要になります。
以下、「その業者A」および、「他の業者B」の徴収料金について分散が求められることを前提とします。
■母平均の検定
で、あらわされる統計量が、自由度n?1のt分布にしたがうことを使います。
帰無仮説は、「業者Aの徴収料金の平均値は、その都市の徴収料金の平均値と等しい」になります。
■二群の平均値の差の検定
二群の分散が等しいときと、異なるときで統計量の式が違うのですが、「お金をくすねる」という
行為を考えると、徴収料金が多いときにくすねる金額が多い、というのが想像できますので、
分散が異なる場合で検定します。
同じ母集団からの2つの標本X,Yの大きさm,n,平均,分散をそれぞれ(, sx2),(, sy2)とした場合、
で、あらわされる統計量が、自由度m+n?2のt分布に従うことを使います。
帰無仮説は、「業者Aの徴収料金の平均値と業者Bの平均値は等しい」になります。
以下のページなどに、具体的な数値を使った統計検定のやり方が載っています。
http://www.aoni.waseda.jp/abek/document/t-test.html
http://aoki2.si.gunma-u.ac.jp/lecture/tests.html
http://aoki2.si.gunma-u.ac.jp/lecture/Average/t-test.html
http://aoki2.si.gunma-u.ac.jp/lecture/Average/Mean1.html
どちらのやり方も、徴収料金は正規分布であるという前提なので、個々の徴収料金のデータが手に入るなら、
適合度検定の方がマッチするかもしれません。
その場合は、業者AとBの分布に差があるかどうかを検定することになります。
http://aoki2.si.gunma-u.ac.jp/lecture/Cross/differenceofdist.html
徴収料金を適当な範囲で幾つかに分けた度数分布を作って、その分布が業者AとBで差があるかどうかを検定することになります。
質問には、「有罪であるかどうか」とありますが、統計検定が証拠能力を持つかどうか、というのは、別の話です。
専門家の証言でも、裁判では適切かどうかというのは議論の対象になりますから。
http://www.jlea.jp/ronbun/ronbun3-1.pdf
しょっぱなに載っている、「随想 計量モデル屋、証人台に立つ」が参考になるかと思います。
業者Aが担当している駐車場では、他と比べてメータから計算される理論上の売上と実際の売上げの差が大きい。一応無賃駐車としているがA社が抜いているとしか思えないという理解でよろしいでしょうか。
業者Aが担当している駐車場ってどうなんでしょう?例えば他と比べて繁華街が多い。住宅街でもその中に個人営業に近い事業所があり遅くまで仕事をしていることが多い、数軒でも深夜まで営業している飲食店がある。といった無賃駐車が多い地域特性は無いのでしょうか?
あるようでしたら、回帰分析で解析することは可能ですが、複雑ですよ。仮に人目による誘発性を考えるなら、時間帯別の出庫台数の分布と人通りのデータが必要ですし、それは確実に周期1日の周期関数になりますから。
汎用機上でSALSという全ての連続関数の回帰分析を行うプログラムがありましたが、PC上でそういったプログラムの存在を私は知りません。
私なら、Aが回収する直前に目印を付けたお金と交換しておくとか、現金を数えておくとか、監視カメラを設置するとか別の方法を考えますし、統計上で調べたいのならt検定など他の方法を検討します。
ただし、社員、A社、B社で駐車場が3ヶ所程度なら統計学上のサンプル数としても少なすぎるような気がしますが。
このケースは、実ビジネスとして解きたいというわけではなく、回帰分析を習得するために与えられたケーススタディとしての位置づけでございます。
いまいち、背景がわかってませんが、データを見てみました。
Brick 社は 1979/6?1980/3 で、CDC 社は 1980/6?1981/3 です。
横軸が NCOL1A - N1A で、縦軸が TINCOME1A - INC1A になります(一応、エリア 1A のデータを外しました)。
N1A に比べて、NCOL1A の数値が少なすぎるのが気になります(*)が、
ぼくにはデータを訂正する手段が無いので、そのまま値を使ってます。
(*) 両方とも "# of collections" とありますが、単位が違っているように思えます
徴収料金は、メーター数と正の相関があるはずですが、Brick 社のデータは正の相関が小さすぎます。
ただ、コメント先のページにも記載されているように、お金をくすねた以外の要因があるかどうかは分かりません。
コメントにすべきか、回答にすべきか・・・
一番下の Bentow and Afshartous. から、
リンク先(下記)に飛べば解説ありますよ