4種類のデータ(A、B、C、D)を10回測定し、A-B+D-Eを計算したところ、前半5回と後半5回で明らかに違いが見られ、違いの原因は、A~Dのどれか1つと考えられるのですが、それを特定する方法を教えてください。

ここで、A、Eは6桁、B、Cは6~7桁で、前半5回のA-B+D-Eは4桁となり、後半は5桁になります。例として、最初の1組、最後の1組を挙げると次のようなデータです。
1回目:
A=2604475,B=7795470,C=8104870,D=2907139
最後:
A=2932675,B=8358040,C=7843060,D=2403044

回答の条件
  • 1人5回まで
  • 登録:2006/08/29 12:36:14
  • 終了:2006/09/05 12:40:03

回答(13件)

id:taknt No.1

きゃづみぃ回答回数13539ベストアンサー獲得回数11982006/08/29 12:44:37

ポイント14pt

>A-B+D-E

このEってのは Cのことですか?

あと、4種類のデータについての規則性がわからないと

何をもって明らかに違いがあるのか判断できません。

考えられるのは

A-Bの差が どうなったのか?(どのように推移したのか?)

D-Eの差が どうなったのか?(どのように推移したのか?)

ということですね。

この推移の幅のおかしいところが おかしなデータということになると思います。

id:adan

すみません。A-B+C-Dでした。

また、4種類のデータは、それぞれ機械による測定値で、規則性はない(桁数はだいたい一定です)ため、A-Bの推移やD-Eの推移を見ただけではわかりません。A-Bは常に7桁のマイナス値、C-Dは常に7桁のプラス値となっています。

2006/08/29 13:09:12
id:Mook No.2

Mook回答回数1312ベストアンサー獲得回数3912006/08/29 13:22:05

ポイント14pt

各データの値があるのであれば、A,B,C,D の前半5回の平均と後半5回の平均を取ってみてはどうですか?

大きく変異しているデータがあれば、精査してみると何か特徴がわかるかもしれません。


個々の数値を見るのも大切ですが、変異点があるのであれば、その前後のデータをグループ化し統計的に解析するのも一つの方法です。

統計的解析手法

id:adan

大きく変異しているデータはない、というか、データは全て百万単位で、前半と後半の差は、数万単位でしか現れていないので、平均を取るというような単純なことではわかりませんでした。

2006/08/29 13:57:44
id:Baku7770 No.3

Baku7770回答回数2832ベストアンサー獲得回数1812006/08/29 13:30:23

ポイント14pt

参考までに精密工作機械の熱変形防止

 世の中に何のデータか教えて貰えずに理由を問われて判る人なんて普通いませんね。

 

 機械系なら発熱、振動などによるひずみ、流体なら非定常状態から定常状態への遷移。

 

 社会系なら特定の時間帯別行動パターン。

 

 生物系なら妊娠期間や発情期の影響を疑うのが一般的です。

id:adan

統計学に詳しい方から、「この手法を使えば原因がわかるのではないか」というようなヒントを教えてもらいたく思い質問しています。

2006/08/29 14:01:28
id:rikuzai No.4

りくっち回答回数1366ベストアンサー獲得回数1412006/08/29 14:14:43

ポイント14pt

AとB、CとDの合計値の誤差自体を問題とし、原因もどれか一つの要素でなく複数だとするならば、

A~Dの要素それぞれの相関を調べる必要があると思いますが、

提示の条件は「どれか一つ」の「増加」ということなので、

各要素の値の増加率で特定すれば十分かと思います。


A~Dそれぞれ

=ABS(「二回目値」-「一回目値」)

として十回目分まで増加分の絶対値を算出します。


それぞれ前半五回分、後半五回分の増加分の値の平均値を出します。


=「後半五回分」/「前半五回分」

をパーセント表示し、前半と後半の各要素における増加率を算出し、

一番数値の高いものが原因と推定されます。


実際に前半二回分、後半二回分の値が提示されていれば検証できるのですが、

一回分ずつしか値がないため、検証にいたりませんでした。

以上ご参考まで。

id:adan

ありがとうございます。

ただ、手順は、わかったのですが、なぜこの方法でうまくいくのかが理解できません。できれば、この手法の名前か、最初に増加分の「絶対値」を算出する理由(意味)を教えていただけると助かります。

ちなみに、この方法で計算すると、Aが75%、Bが83%、Cが90%、Dが108%となり、Dが原因と言えそうです。

2006/08/29 14:49:03
id:Mook No.5

Mook回答回数1312ベストアンサー獲得回数3912006/08/29 14:16:37

ポイント14pt

前半5個と後半5個の平均を取ったものをそれぞれ A1,A2,B1,B2,C1,C2,D1,D2 とした場合、

A1/A2, B1/B2, C1/C2, D1/D2 に特徴は出ませんか。


もう少し情報がないと、具体的な回答は難しい気がします。

できれば具体的にA~Dが何のデータかという説明が欲しいのですが、それが難しいのであれば、10程度のデータであれば、全てのデータを掲載できませんか?

id:adan

そうですね。データを掲載します。CSV形式です。

----

,A,B,C,D,A-B+C-D

1回目,2604475,7795470,8104870,2907139,6736

2回目,3557500,10539140,10446050,3456350,8060

3回目,3282050,8965780,8218480,2527904,6846

4回目,2781500,7961350,7710070,2522213,8007

5回目,4282475,13599950,13870530,4546396,6659

6回目,4214950,13935920,14486610,4745889,19751

7回目,3059450,9337840,9687610,3394829,14391

8回目,3386425,10660100,11424080,4122461,27944

9回目,3625500,11101170,11158980,3655159,28151

10回目,2932675,8358040,7843060,2403044,14651

----

2006/08/29 15:18:43
id:RandD No.6

RandD回答回数167ベストアンサー獲得回数52006/08/29 14:51:05

ポイント14pt

この場合、

統計の関数(相関係数)を使えばいかがでしょうか

測定値ですが、例えば温度等の外部要因がA.B.C.Dに共通で作用する場合も考えられますし、個別の変位もあるかもしれません。

従って、下記の相関係数をそれぞれ計算すれば、異常がABCDのどのタイミングで発生したかわかるのではないでしょうか?


(A1,B1)~(A6,B6)

(A1,C1)~(A6,C6)

(A1,D1)~(A6,D6)

(A1,B1)~(A6,B6)

(B1,C1)~(B6,C6)

(B1,D1)~(B6,D6)

(C1,D1)~(C6,D6)

全体的にバラけているのか、その回全体がわるいのか、どの項目だけ悪いのか目安がつくのではないでしょうか。

そこがわかれば、それに特化した統計処理を考えればよいのではないでしょうか。

処理はエクセルのオプションインストールで可能だと思います。

id:Baku7770 No.7

Baku7770回答回数2832ベストアンサー獲得回数1812006/08/29 15:24:58

ポイント14pt

 #a3で回答した者です。

 

 #a4のコメントに対して先に回答しておきます。

>最初に増加分の「絶対値」を算出する理由(意味)を教えていただけると助かります

 この手法は、本来ほぼ一定の値となるはずの計算が一定とならない場合にその原因の究明に利用する手法で、正確には増加率を調べるために

=ABS(「二回目値」-「一回目値」)/一回目値

とします。

 

 次に判らないと私が書いたのは幾つも理由があります。

 

 A-B+C-Dが5桁になるのが何で問題なのでしょう。何が理想なのでしょう?5桁になるのが問題なら丁度10000になる瞬間を再実験して調査するのが実験の常識です。

 T=1~10に従って増えるのが当たり前なのかもしれません。

 T=1と10で比較しても

・増:A~C、減:D

 A-B+C-Dが特定の値になることを期待するなら、A~Dまでが増或いは減。絶対値から判断してADとBCの組み合わせで共に増か減。つまり、Aが増ならDも増。Bが減ならCも減。計測値に対して、A-B+C-Dを計算すること自体が間違いなのか実験で得られた計測値が間違いなのか?

 どう判断しましょう?

id:adan

ありがとうございます。

> A-B+C-Dが5桁になるのが何で問題なのでしょう。

過去のデータが4桁のため、4桁で収まることを期待しているためです。

> 5桁になるのが問題なら丁度10000になる瞬間を再実験して調査するのが実験の常識です。

実験ではないため、測定はできるのですが、測定のために値が変りそうなところを試しに変更する、ということはできません。

2006/08/29 16:39:00
id:rikuzai No.8

りくっち回答回数1366ベストアンサー獲得回数1412006/08/29 15:35:08

ポイント14pt

補足です。


まず私の回答はあくまで「増加」の原因が要素の中の「一つ」だけだ、ということに基づいています。

複数の要因が考えられる場合はRandDさんの方法が有効になってくると思います。


私の方法は、各測定回との増減分を整数値で出すことで値の振り幅を算出して、

その平均が、前半に対して後半との振り幅の割合が一番大きいものを出す、というものです。


データ数がもっと膨大であれば前半と後半の平均値の増加率で十分という気もしますが、

10件程度だと値が似てしまって特定し辛いと思ったので、

値の変化部分だけを取り出して比較する方法を提案しました。

id:RandD No.9

RandD回答回数167ベストアンサー獲得回数52006/08/29 17:43:37

ポイント14pt

先ほどのやり方を、T検定してはどうでしょうか

先ほどの生データを n数10で計算すると、

相対的に

A>D> B>=C の順でデータが変位しているのように出るように思います。見たところ、Aが問題ありで、Dもちょっと問題あるかも、BCはOKのように感じました。

(エクセルで計算 E値は計算せず)

5回づつで、明らかな違いがあるとのことでしたので、それぞれ計算する方法もあるかもしれません。

id:Mook No.10

Mook回答回数1312ベストアンサー獲得回数3912006/08/29 18:18:02

ポイント14pt

A~Dの説明がないので、数値のみの解析ですが、

各パラメータの全体に対する重みの平均を考えると、A,D が12%、B,Cが37%であることが読めます。

このことより、全体に対する主作用は、B,C、副作用はA,D と考えられます。

数値の変化や効果を確認するときには、主効果、交互作用という点で確認する方法があります。

A-B+C-D ⇒ を (A-D) + (B-C)

として、各回に関して A-D, B-C の 計算を行ってみてください。

         A-D        B-C

1~5 平均  109599.6    -102338

6~10平均  -220476.4   241454

これを見ると、それぞれの平均が前5回と後5回で方向が逆になり、大きくクロスしています。

このような状況を、交互作用があると表現します。

数値としてのA-B、C-D がどのような意味になるかは、今回説明がないのでわかりませんが、

これがどのような意味かを考察してみてはどうでしょうか。

もちろんそれ以外の可能性ももちろんありますが、このように単独の数値ではあまり変化が

見えなくとも、数値の複合効果を考えると意味がある場合もあります。

id:adan

ありがとうございます。

明日、もう一度、ゆっくり考えてみます。

2006/08/29 18:33:14
id:Mook No.11

Mook回答回数1312ベストアンサー獲得回数3912006/08/29 18:44:26

ポイント14pt

#10と今回はポイント不要です。

式の変形が間違っていました(変数が途中で変わったので、ごちゃごちゃしてしまいました)。

複合を考える考え方はあるのですが、もうすこし式を整理して考える必要がありますね。

失礼しました。

(回答の訂正機能と、キャンセル機能がないので再度の回答でのコメントで、失礼します。)

id:Baku7770 No.12

Baku7770回答回数2832ベストアンサー獲得回数1812006/08/29 19:00:42

ポイント13pt

 #a3,#a7で回答した者です。

 

 #a5のコメントにあるデータ全てを拝見しましたが、やはりA-B+C-Dを計算すること自体に問題があるか、それが4桁に収まるという推測が過ちであると判断致します。

 

 XnとXn+1の関係を見る限り規則性はありませんが、前述の通りAnとDn、BnとCnがほぼ同じ値。という関係があり、An、DnとBn、Cnの合計はその約1/3という関係があります。

 例えばA-B+C-Dを計算することが有効であるならその値が最小のT=5と、T=6、9を比較した場合、T=6ならA6だけが減っていてB6~D6は減っています。T=9ならどうでしょう?A9~D9全て減っています。

 T=5,6はA~D全てのデータで最大値となっているようです。

 これらの状況から判断して実測値が正しいなら、実測値が正しくないか、A-B+C-Dを計算すること自体に問題があるか、それが4桁に収まるという推測が過ちであると考えるか、A-B+C-Dはかなり振動していて、前回までは偶然4桁に収まるような集計ができた物と考えられます

id:adan

> やはりA-B+C-Dを計算すること自体に問題があるか、それが4桁に収まるという推測が過ちであると判断致します。

純粋に統計学的な解法を知りたかったので、各データの使われ方を説明しなかったのですが、こう考えてください。A、B、C、Dは全て、あるビジネスを遂行する上で動くお金を表しています。それは、簡単に表現すると、仕入金額だったり売上金額だったりします。そして、A-B+C-Dは、売上金額の誤差です。ビジネスの性格上、その日の売上を正確に把握することができないため、そのような誤差を計算しています。これが、ある日を境に、桁が変ったため、どのデータソース(売上なのか仕入なのか)に原因があるかを突き止めたいというのがこの質問の本当の理由です。

2006/08/30 10:25:47
id:Baku7770 No.13

Baku7770回答回数2832ベストアンサー獲得回数1812006/08/30 19:15:11

ポイント13pt

 統計学的に誤差の値が幾らであるかといった分析手法はありません。誤差率ならまだありますが。

 

 絶対値についてなら、プラス要素であるA、Cとマイナス要素であるB、Dの組み合わせ、値の似通ったA、DとB、Cの組み合わせで色々やってみたものの6回目と10回目がネックとなって、お尋ねの、5桁になった6~10回目と1~5回目で共通した特徴は見いだせませんでした。後3回目も特異なデータです。

 

 ビジネスの金額なら他に問題がありそうです。

 

 まず、4桁の誤差があったというなら、マイナスの誤差の例は過去にあったのでしょうか?ビジネス上、売上金額に誤差が生じる例として、計上時の問題で、帳簿の金額と実際の現金とで差異が生じます。毎月、毎日集計の時点と実際の入金は遅れますので誤差は確実に発生します。それが右肩上がりの状態が続いているなら、まだしも右肩上がりと断言できないなら必ず-のデータがあったハズで、そうでなければ小銭をちょろまかしている者がいると判断すべきです。

 基本的に当日(又は月)締め当日(又は月)払いだけど一部伝票の集計の関係でといったデータならA-B+C-Dを計算し、それで正しいと思い雑損として処理し続けていたこと自体が問題で、担当者別なりに数字を出すなり、入金と売上計上のタイミングを合わせた上で判断されてみては如何でしょうか?

コメントはまだありません

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

絞り込み :
はてなココの「ともだち」を表示します。
回答リクエストを送信したユーザーはいません