今、テレビ(民放)が、“日本人の○○について調査する場合、正確な結果を得るために必要な調査実施対象数は、統計学的には、国民1億3千万人に対し1千5百人以上とされている“ 旨、言っていました。この1千5百人という統計学上の定数の根拠について、お教え頂けないでしょうか。
上記「○○」に代入される事物によって、1千5百という数値は変わるでしょうし、ローカル性(例えば、均質な回答が集まる傾向がある、等)もこの数字に影響を与えているでしょう。でなければ、1千5百/1億3千という中途半端な数は出てこないでしょう。
もし前段が当たっているとすれば、「その定数は、△△という事実(ないし定説)を参照しているのだろう」のような回答をお願いしたく存じます。
(私は以前から、統計調査において母集団に対して設定される調査対象数や、調査結果における「有意な差」の判定法などに疑問があります。例えば、先生がプランを練っているのを見ると、「誤差の相場は±5%だからね…」のように、恣意的な閾値を設定しています。本質問には、この類の疑問が根底にあります)
1)テレビ(民放)が、“日本人の○○について調査する場合、正確な結果を得るために必要な調査実施対象数は、統計学的には、国民1億3千万人に対し1千5百人以上とされている“ 旨、言っていました。この1千5百人という統計学上の定数の根拠について、お教え頂けないでしょうか。
【1】たぶん、簡単にわかりやすく視聴者向けの説明しただけで、実際は違うことを考えているのだと思います。(後で補足します)なお、国民1億3千万人には乳児から10歳異常の高齢者までいます。この全体を対象に調査するようなことはほとんどないです。世論調査のような場合だと調査は有権者に絞って行います。また選挙の投票状況からもわかるように全有権者が投票するのではないです。調査対象として1500人を選んでも期待する調査ができるのは1500人ではないです。逆に1500人の有効な調査ができるまで2345人の調査をするというやり方もあると思いますが、通常はそのような調査をしません。また調査方法によって対象者が(回答する/回答しない)(回答する場合の回答の内容)が変わってしまうこともあります。同じ対象者でも数日後には状況が変わってしまっていることもあります。そうなると、多くの手間を懸けて多数の調査をする現実的な価値がなくなって、ある程度の状況が「ひどく間違った考察」にならない程度でわかればイイということもいえます。それらもあって、手法をきちんと決めて、片寄らない、調査対象者のストレートな意見に近いデータを集める現実的なところを決めているのだと思います。
~~~~~~
2)上記「○○」に代入される事物によって、1千5百という数値は変わるでしょうし、ローカル性(例えば、均質な回答が集まる傾向がある、等)もこの数字に影響を与えているでしょう。でなければ、1千5百/1億3千という中途半端な数は出てこないでしょう。
【2】上記「○○」に代入される事象によって、推定の対象とする母集団が変わります。1億3千万人を対象に状況を推定すべきことはほとんどないでしょう。乳児~児童~青年~壮年~中高齢~後期高齢までの男女、健康人・障害者、労働年齢に該当する場合収入レベルを関係なく、1億3千万人全体の、身長・体重・運動能力・生活時間の内訳・経済状況・服装の好み・政治的意見を推計しようとすることはマズないです。推計したい全体は多くても数千万人程度でしょう。仮に、次回国家議員選挙で投票する可能性のあるものが、有権者(男4870万人、女5560万人)投票見込み(男1030万人、女900万人)として、そのようなヒトの中からデータを集めるとしたら、調査方法をどう考えるでしょう。もともと安保法制でも、TPPでも、派遣雇用などでも、微妙な回答を集めようとしたら、かなり大変ですから、集めるのは簡単な選択肢数件でしょう。そうすると回答のバラエティは少ないです。極端な話が、(1~6の目が出るサイコロだが、中には1が出やすい、3が出にくいというサイコロも混じっている、どれも1~6が均等に出るとは限らない状態のサイコロが数千万個)あるとき、どんな状態なのかを調べるとしたらどうでしょう。完全に調べるには悉皆調査しないとならないですが、現実的でないです。600個調べて、1~6の目の数別のサイコロの個数の分布状態で、だいたい正常に各目が均一にでるサイコロが多いか、4の目が出るサイコロが多いのじゃないか、2の目がでにくいサイコロが相当あるのではないかなどと推定するのが、現実的でしょう。
ちなみに、エクセルでRandBetween(1, 6)で60万個の目を作ったら、この回は、1:100322,1:98762,3:98844,4:99222,5:101398,6:101452となりました。(1/6の確率でランダムに数字を発生させても、この程度のバラツキが起きるということでしょう)で、このデータを固定して母集団として、(重複を許さないランダムサンプリングで)1500のデータを選びその標本調査での目の状態を6回調査しました。(1:222,2:246,3:262,4:251,5:262,6:257)(1:263,2:211,3:218,4:270,5:283,6:255)(1:264,2:268,3:239,4:224,5:247,6:258)(1:235,2:253,3:248,4:234,5:267,6:263)(1:282,2:234,3:244,4:236,5:219,6:285)(1:251,2:237,3:284,4:246,5:241,6:241) このサンプル調査で1の目の件数を見ると1500件のサンプルだと「あてにならない」ように感じるかもしれません。
では、(重複を許さないランダムサンプリングで)6000のデータを選びその標本調査での目の状態を6回調査してみました。(1:1031,2:980,3:993,4:962,5:1028,6:1006)(1:1014,2:1021,3:907,4:958,5:1036,6:1064)(1:983,2:1009,3:1052,4:989,5:959,6:1008)(1:1047,2:919,3:1033,4:988,5:974,6:1039)(1:1057,2:964,3:976,4:990,5:987,6:1026)(1:967,2:973,3:980,4:991,5:1021,6:1068) こうして見ると標本数を4倍にしても、「サンプリング調査では限界があるな」という感じです。 ある程度の誤差はあるものとしてどこまで誤差を許容するかを考えて、実際の調査計画を立てる必要があるってことでしょう。
さらに、(重複を許さないランダムサンプリングで)600のデータを選びその標本調査での目の状態を6回調査してみました。(1:127,2:93,3:96,4:88,5:107,6:89)(1:105,2:112,3:117,4:99,5:83,6:84)(1:117,2:88,3:79,4:83,5:121,6:112)(1:113,2:101,3:98,4:97,5:97,6:94)(1:96,2:105,3:90,4:92,5:102,6:115)(1:101,2:91,3:95,4:104,5:106,6:103)この結果と母集団60万件の分布状況をみると、600件のランダムサンプリングの結果で母集団の状況を推定するのは、かなり無理があると言わざるをえないと思えます。
こうした実験ではなくて、数学的なモデルでの確率で平均値推定で起こる誤差の検討、許容誤差から述べる標本数の妥当性を考え、現実的な標本数を調査計画の中で決めます。
~~~~~~~~~~~~~~~~~~~
3)もし前段が当たっているとすれば、「その定数は、△△という事実(ないし定説)を参照しているのだろう」のような回答をお願いしたく存じます。
【3】たぶん 1500件というのは、次のサイトのようなことを、ザックリいっているのだと思います。
https://www.pref.saitama.lg.jp/a0206/toukeifaq/q1-8.html
https://www.pref.saitama.lg.jp/a0206/toukeifaq/q1-8-2.html
~~~~~~~~~~~~~~~~~~~~
4)(私は以前から、統計調査において母集団に対して設定される調査対象数や、調査結果における「有意な差」の判定法などに疑問があります。例えば、先生がプランを練っているのを見ると、「誤差の相場は±5%だからね…」のように、恣意的な閾値を設定しています。本質問には、この類の疑問が根底にあります)
【4】何の目的で何を調査するのかを考えて、調査の計画をたてるのがまともです。母集団にも、年齢や日常の生活状況、性別、健康状態、就業している産業、その対象者の周囲の人々の意見、住んでいる地域などがあり、そうした属性によって、個人が持っている意見や関心の有無などが変わります。単にランダムサンプリングしたのでは、母集団の状況を反映してない結果しか出てきません。また、調査対象者が回答するヒトの意見の分布と回答しない人の意見の分布は違っているのが普通です。どうした回収ができているかもわからないと、母集団の状況の推定は難しいです。さらに通常標本調査を依頼するときには、調査をしている事情などを簡単に説明します。そのときに「現在国会で揉めていますが」「世界各国で意見の調整がつかず交渉が長引いていますが」「米が」「国際紛争が増えていますので」というような説明をしたり、「フジテレビグループの調査です」「政府の委託調査です」などを述べるだけで、回答者の数パーセントはそれに影響されるかもしれません。そうすると、ただ調査数だけを問題にするのではだめだということがわかります。また、特に強い見解を持っているのではないヒトの場合、時間の経過で意見は変わります。交渉に落着が見えたり、法案が通りそうになるだけで、意見はくるくると変わるヒトも少なからずいます。 だとすると、調査の結果をどう考えるかが問題になります。また調査の手間や時間、コストも大事です。「誤差の相場は±5%だから」は、その調査の目的や調査計画の状況でも変わるのですが、10%、5%、1%、どのあたりをねらうかは、その調査の企画を立てるヒトの考え次第ということもあります。
この下のサイトは勉強になります。
http://web-tan.forum.impressrd.jp/e/2008/05/16/3080
http://web-tan.forum.impressrd.jp/e/2008/03/13/2822
http://web-tan.forum.impressrd.jp/e/2008/06/13/3258
たぶん学者さん達の勘じゃないでしょうか?中3の数学で母集団から無作為に抽出するなんて習いましたよね?確かに調べが少なすぎても正確にならないんですが多すぎてもそれなら無作為に抽出する意味ないんで国民全員を調査したほうがいいんじゃないでしょうか?ちなみに学者さん一人一人の考えは違うのでその数字を出した計算なんてありません。学者さん達の今までの感覚だと思います!