無料なんですが、数字に強い人暇な人来てください。


★前置き
とある集団(30人ぐらい)の誕生数を調べてみたところちょっと偏りがありました。
誕生数1 2人
2 1人
3 3人
4 5人
5 5人
6 7人
7 5人
8 3人
9 4人

★本題前の事前情報
誕生数というのは、生年月日にある8ケタの数字を全部足して一桁にするという手順で求めます。(大体二桁になるので十の位と一の位をまた足します。)
例:1999年12月18生
 1+9+9+9+1+2+1+8=40
 40はまだ一桁じゃないので4+0をする=4
 みたいな感じです。
 
★本題
 さて、こういう計算方法で誕生数を導き出した場合。
 それぞれの誕生数生まれに片寄って出るんでしょうか?

 明らかに1や2が出にくい計算方法になっている……など。
 2000年以降生まれとそうじゃない人で出やすい数字が変わってくるとか。

 なんとなく二桁から一桁にする時に出やすい数字と出にくい数字があるんじゃないかと思ったりもしないではないですが……。

 面倒なので質問しました。暇な人お願いします。

回答の条件
  • 1人5回まで
  • 13歳以上
  • 登録:2015/11/19 19:50:13
  • 終了:2015/11/26 19:55:05
id:grankoyan2

二桁が29とかになったら2+9をして11になるので1+1で2になります。

ベストアンサー

id:jan8 No.1

jan8回答回数450ベストアンサー獲得回数962015/11/19 21:02:13

EXCELで1970年1月1日から2015年11月19日まで
単純に機械的に16759行使って計算してみました。

誕生数1 1863人
誕生数2 1864人
誕生数3 1861人
誕生数4 1862人
誕生数5 1862人
誕生数6 1862人
誕生数7 1861人
誕生数8 1862人
誕生数9 1862人

一様分布と言う結果に・・・間違ってるかな?

id:grankoyan2

ありがとうございます。
偏らないんですね。不思議です。

2015/11/20 12:37:44

その他の回答(3件)

id:jan8 No.1

jan8回答回数450ベストアンサー獲得回数962015/11/19 21:02:13ここでベストアンサー

EXCELで1970年1月1日から2015年11月19日まで
単純に機械的に16759行使って計算してみました。

誕生数1 1863人
誕生数2 1864人
誕生数3 1861人
誕生数4 1862人
誕生数5 1862人
誕生数6 1862人
誕生数7 1861人
誕生数8 1862人
誕生数9 1862人

一様分布と言う結果に・・・間違ってるかな?

id:grankoyan2

ありがとうございます。
偏らないんですね。不思議です。

2015/11/20 12:37:44
id:rsc96074 No.2

rsc回答回数4359ベストアンサー獲得回数3982015/11/19 23:30:41

 1950年から2050年までの1月1日から12月31までについて調べて平均をとってみると、同じぐらいになりました。(^_^;
 また、2000年から2050年もやってみましたが、ちょっと変わりますが、似たようなものです。(^_^;
 ちなみに、プログラムをコンソールで実行して、よく眺めてみると、周期的な右斜め下(\)の平行線が見えます。(^_^;
※参考URL
http://d.hatena.ne.jp/rsc96074/20151119/1447943295

id:grankoyan2

ブログ読ませていただきました。なんとなく納得できました。
ありがとうございました。

2015/11/20 12:38:05
id:a-kuma3 No.3

a-kuma3回答回数4365ベストアンサー獲得回数18012015/11/19 23:56:01

かきつばたに投稿がないのだ(約一名を除いて)。
投稿を読むために取っておいた時間が多少 余っているのだ。
# 決して暇なわけでもないし、数字に強いわけではない

第一印象

月の変わり目で不連続になるから、分布に偏りができても不思議ではないなあ、という気もする。

やってみる

def cabara_number s
    n = 0
    s.split('').each { |i|
        n += i.to_i
    }
    if n >= 10 then
        n = cabara_number n.to_s
    end
    n
end

map = {}
(0...10).each { |i|
    map[i] = 0
}

t = Time.gm(1970, 1, 1, 0, 0, 0)
t_end = Time.now
while t <= t_end
    n = cabara_number t.strftime("%Y%m%d")
    map[n] += 1
    t += 24*60*60
end

puts map

結果。

{0=>0, 1=>1863, 2=>1864, 3=>1861, 4=>1862, 5=>1862, 6=>1862, 7=>1861, 8=>1862, 9=>1862}

# 言語を変えたって、そりゃあ VBA や Python と同じ結果になるわなあ……

考え直してみる

月の変わり目に不連続になるにしても、年月が同じなら誕生数は連続になる。
日付の十の位が増えるときはどうだろう。
9 → 10
 9 : 9
 10 : 1 + 0 → 1
19 → 20
 19 : 1 + 9 → 10 → 1 + 0 → 1
 20 : 2 + 0 → 2
29 → 30
 29 ; 2 + 9 → 11 → 1 + 1 → 2
 30 : 3 + 0 → 3
28~30個の連続した数字は均等に分布する。
一日(月の始め)の値がばらけるにしても、年月を変えて平均すれば均等に分布するだろう。

何故、とある集団で偏りが出たのだろう

・仮説 その1:偶々
母集団の分布がある確率関数によって表されるとしても、そこから抽出した標本はばらつく。
統計検定で分布度の検定をすれば良いのかな。
# やってみれ、ってか

・仮説 その2:とある集団に偏りがある
早生まれだと学校に入ったときにさが大きいからと、4月1日に生まれたのに、4月2日として届ける人が多いんだそうな。
後、最近は病院で産む人がほとんどなので、年末年始に生まれている人が少ない。
薬で調節したり、腹を切ったり。
そんなこんなで誕生日の分布には偏りがあるから、それが影響しているのかも。
# 5~7 に偏っている理由としては薄い

・仮説 その3:誕生数の計算が間違っている
質問しておきながら、想定している誕生数の求め方と、分布を調べたときの求め方に差異がある。
ぼくは、行き詰ったときに「前提にしていることを疑ってみる」という思考をすることがあります。
一見、無駄なようだけど、範囲を狭めるという意味では進展があるし、気分転換にもなったりするので。
# それは、お前が迂闊だからだろうって? (聞こえません




追記です。

統計検定で分布度の検定をすれば良いのかな。
# やってみれ、ってか

まだ執筆中らしいので、やってみた。

「適合度検定」というやつをやる。
やり方はネットにたくさん落ちてる(http://www.tamagaki.com/math/Statistics606.html とか)。

帰無仮説は「誕生数は一様分布である」だ。
対立仮説は「誕生数は一様分布ではない」だ。
有意水準αを 5% とする。
適合度検定に使う統計値は
¥chi^2 = ¥sum_{k} ¥frac{(X_i - m_i)^2}{m_i}

これが自由度 k-1 の χ2分布に従う。

誕生数度数確率期待度数統計値
120.1113.8890.917460317
210.1113.8892.146031746
330.1113.8890.203174603
450.1113.8890.317460317
550.1113.8890.317460317
670.1113.8892.488888889
750.1113.8890.317460317
830.1113.8890.203174603
940.1113.8890.003174603
合計351356.914285714



統計値は 6.914 。

自由度 9-1 = 8 でα=0.05 の値を χ2分布表から求める。
http://www.biwako.shiga-u.ac.jp/sensei/mnaka/ut/chi2disttab.html
値は 15.5073 。

6.914 < 15.5073 なので対立仮説は棄却できない。
つまり、これくらいのばらつきはありそうだ、ということ。

ここのサイトで、χ2分布の値を自由に計算できる。
http://keisan.casio.jp/exec/system/1161228834

f:id:a-kuma3:20151120134554p:image
自由度 8 だと、累積確率が40% くらいのところで χ2値が 6.42 で分布のピークくらい。
この近辺は割と出現しやすいくらいの値だと分かります。

他1件のコメントを見る
id:grankoyan2

なんか追記までありがとうございます。
後半なにいってるのかまったくわからない文系だめ人間ですが(数学は高校一年で終わった)

2015/11/23 21:32:16
id:a-kuma3

2行で要約すると、こんな感じです。

  • 年と月を固定して日を変えていくと、誕生数は連続して出てくる。つまり、誕生数の計算方法は、何かの数字だけが出にくい、というような偏りはでてこない。
  • サンプルを取ったときに、何かの分布に従ってるのか、ということを統計的に判断する方法を偉い人が編み出しているので、それに則ると質問にあるデータは「誕生数は均等に出てくる」ということを否定するほど珍しいぱらけ方じゃない。
2015/11/24 09:10:44
id:adlib No.4

adlib回答回数1833ベストアンサー獲得回数1052015/11/25 23:39:01

 
 零の未発見 ~ ゼロのない数列は循環しない ~
 
 この設問の趣旨は頻度の規則性にある。いろは順(年月日)や誕生数
(番号順)に、五十音順(発音)のような法則性は適用できない。
 二月に29日が存在するかどうかで、四年ごとに通日番号がずれる。
 
 月末29日は4年毎1回、28日は年1回、30日は年4回 31日は年7回。
 年は十進法、月は12進法、日は28-31進法、誕生数は九進法。
 この九進法は、九と一が(麻雀牌とおなじく)連続しない。
 
 誕生数の周期 ~ Leap 4*, Week 28*, Gregorio 400* ~
 


00 01 02 03 04 05 06 07 08 09 10 11 12
01 二 三 四 五 六 七 八 九 一 二 三 四
02 三 四 五 六 七 八 九 一 二 三 四 五
03 四 五 六 七 八 九 一 二 三 四 五 六
04 五 六 七 八 九 一 二 三 四 五 六 七
05 六 七 八 九 一 二 三 四 五 六 七 八
06 七 八 九 一 二 三 四 五 六 七 八 九
07 八 九 一 二 三 四 五 六 七 八 九 一
08 九 一 二 三 四 五 六 七 八 九 一 二
09 一 二 三 四 五 六 七 八 九 一 二 三
10 二 三 四 五 六 七 八 九 一 二 三 四
11 三 四 五 六 七 八 九 一 二 三 四 五
12 四 五 六 七 八 九 一 二 三 四 五 六
13 五 六 七 八 九 一 二 三 四 五 六 七
14 六 七 八 九 一 二 三 四 五 六 七 八
15 七 八 九 一 二 三 四 五 六 七 八 九
16 八 九 一 二 三 四 五 六 七 八 九 一
17 九 一 二 三 四 五 六 七 八 九 一 二
18 一 二 三 四 五 六 七 八 九 一 二 三
19 二 三 四 五 六 七 八 九 一 二 三 四
20 三 四 五 六 七 八 九 一 二 三 四 五
21 四 五 六 七 八 九 一 二 三 四 五 六
22 五 六 七 八 九 一 二 三 四 五 六 七
23 六 七 八 九 一 二 三 四 五 六 七 八
24 七 八 九 一 二 三 四 五 六 七 八 九
25 八 九 一 二 三 四 五 六 七 八 九 一
26 九 一 二 三 四 五 六 七 八 九 一 二
27 一 二 三 四 五 六 七 八 九 一 二 三
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
28 二 三 四 五 六 七 八 九 一 二 三 四
29 三 四* 五 六 七 八 九 一 二 三 四 五
30 四 ◆ 六 七 八 九 一 二 三 四 五 六
31 五 ◆ 七 ◆ 九 ◆ 二 三 ◆ 五 ◆ 七
────────────────────────────────
a 一 二 三 四 五 六 七 八 九
b 一 二 三 四 五 六 七 八 九
c 一 二 三 四 五 六 七 八 九
d   二 三 四 五 六 七   九
e   二 三 四 五   七    
f     三 四* 五        

 
 暦日は連続しても、年月日が連続しないので、ユリウス通日が開発さ
れた(小数点以下で時刻も百分率表記できる)。
 BC-47120101 Julian Data 0(逆算起点)1583 開発。
 
 現在のパソコンにも常備されるが、文字列に変換すると計算できない。
 暦に関する質問は、ほとんどが未解決、もしくは誤った結論で終わる。
 下記の過去質問は、いますこし応用的な手法を試みた。
 
http://q.hatena.ne.jp/1287067395(20101014 23:43:18)
 教えて、検算に強い方! ~ チリ生還者の平均年令 ~
http://d.hatena.ne.jp/adlib/20100805 地利知略の33人
 
http://q.hatena.ne.jp/1140181086(20060217 21:58:06)
 生年月日を8桁数に置換して“合計÷人数=平均値”を算出しました。
http://d.hatena.ne.jp/adlib/19230804 八月四日の立方根
 

  • id:grankoyan2
    1970年1月1日生まれぐらいから機械的に誕生数を割り出して分布とか見れば解決しそうですね。年ごとに出力する。
    面倒なので人任せですが。

  • id:grankoyan2
    あと占いの妥当性についての意見は今回求めていません。
    1とか2って珍しくてすごめの数字扱いなのですが、絶対数が少ないからそうだとも言えるし、その数字に生まれてきたことがすごいんだとも言えるし。

    頼れそうな人がウォッチしてくれたからもう安心。
  • id:jan8
    手持ちのExcel97で計算しようと日付を並べたら
    2009/9/15の次が1920/1/2になり、やる気がなくなりました!
  • id:grankoyan2
    9も特別っぽい扱いです。

    それよりもどうして
    >2009/9/15の次が1920/1/2にな
    るのかが気になりました。
  • id:jan8
    18年前のExcelだから日付型も小さいのかなと思っていましたが誤解でした。2009/9/16も入力できました。
    原因はオートフィルが32767行まで連続値を入力した後、32768行目に最初の値に戻ってしまう仕様でした。
    https://support.office.com/ja-jp/article/Excel-%E3%81%AE%E4%BB%95%E6%A7%98%E3%81%8A%E3%82%88%E3%81%B3%E5%88%B6%E9%99%90-1672b34d-7043-467e-8e27-269d656771c3

    暇なので計算を続けます
  • id:grankoyan2
    ほんとに、隙だったらでよいので。
    無理の無いように
  • id:taknt
    とある集団(30人ぐらい)に偏りがあっただけなんじゃないかな。

    たとえば 同級生とか・・・。

    その場合は、年は だいたい 一緒だろうし。
  • id:jan8
    はてぶの記事(2014-08-17)を読んでしまいましたよ。
    偏りがあると言う結論ですが、1から12の範囲で計算しています。
    リンク載せたらぐらんこ。さんに怒られちゃうかな。
  • id:takejin
    母集団が小さいからでしょう?
  • id:takejin
    最期の一桁が0から9の数字を持つので、0から9の間で、出現確率は同じと思われ。
  • id:grankoyan2
    はてブ?の記事に思いあたりがないんですが、、、

    あまりにも1、2の数が少なかったので気になって質問しました。
    末尾の1って、若干多かったり。みたいな疑問。
  • id:jan8
    id:clairvonさんのブログです。1と2が少ないです。
    http://clairvon.hatenablog.com/entry/20140817/1408246132
  • id:grankoyan2

    1と2が少ないですが(3も)、1には10が足され、2には11が足され、3には12が足されと1~9で見た時にはほぼ均等ですね。

  • id:sgo2
    偏る要因1.人の寿命→上位2桁は19か20固定。下位2桁も16〜30位迄が極端に少ないはず。
  • id:sgo2
    偏る要因2→月は1〜12、日は1〜31なので1、2、3の出現頻度が上がる。
  • id:sgo2
    偏る要因3→人が子作りする時期は偏ってるから特定の誕生月の出現頻度が高くなる。
  • id:takejin
    同じ月日でも、年が10年以上動くんだから、日付や月についての偏りは解消されるはず。年の4ケタの末尾の数字は、0から9を均等分布になるから。
  • id:takejin
    同学年に制限されてないですよね。
  • id:takejin
    均等分布と認識できるサンプル数って、ものすごく大きな数じゃないでしょうか。
    あとは、誕生日の方が、均等分布ではないとか。(天体的、気候的、季節的、地域的、流行的、宗教的、占い的)
  • id:jan8
    sgo2さんの要因はどれも確かにあると思うのですが、
    たけじんさんの仰る通り他の要因で解消されるかも。
    複合的な要因が最終的に全部足されちゃうんだから、
    具体的にどの数字に偏るの?と聞かれると判らない。
    誕生数、深いです。
  • id:sgo2
    均等分布なら他要因を「打ち消す」効果は無いので、むしろ無視して良いのでは…
  • id:sgo2
    訂正。他要因による偏りを打ち消すのではなく、分布を変形させるので「無視」しちゃいけなかった。
  • id:sgo2
    あー、計算方法検証して分かったけど、要因3は無視して良いし、要因1と3も決定的要因とは言えないから忘れて良いかも。2桁→1桁の処理の方が重要っぽい。あと正規分布を考えた方が良さげ。
  • id:a-kuma3
    >同学年に制限されてないですよね。
    誕生年が2000年前後に集中しているでしょう、きっと。
    確かめる気はありませんけど、4~6グループくらいを対象にしてるんじゃないかと想像してます。
  • id:takejin
    一年間だけでも、そんなに差が無い。1990年だけなら、
    1 2 3 4 5 6 7 8 9
    37 36 39 38 37 38 36 37 36
    有意な差とも思えず。(年が影響するのは、3日分程度の気がする)これを相補する感じで年が推移するので、出現確率はやはり均等。年の近い集団でも、やはり均等です。

    数学的な原因ではなく、ランダム抽出ではない要素があるだけでしょう。
  • id:sgo2
    いや数学的な要因はあるかと。サイコロを2回(個)以上振って出た目の和を求めると(擬似的な)正規分布になるように、誕生数も各桁の和を求めた時点で正規分布に近くなる(つまり偏りが生じる)はず。
  • id:jan8
    id:clairvonさんのブログ(上記参照)でも正規分布になると仰っています。
    「グラフより、2桁の誕生数分布は、まるで正規分布のようになります。」
  • id:takejin
    そのブログおかしくないですか?
    2000・1・1生まれって、4ですよね。2ケタの時点での最小値は、12ではなく4のはずですが…
  • id:jan8
    ほんとだ。おかしいですね。2桁の場合4から48までになるはずですね

    誕生日が等確率で出現する場合、高さの異なる山が2つありますね。
    1970/1/1-2015/11/23で計算 f:id:jan8:20151123224316p:image

  • id:a-kuma3
    2桁の誕生日数がふた山。
    http://a-kuma3.hatenablog.com/entry/2015/11/24/131516
  • id:a-kuma3
    2桁の誕生数がふた山の件(続き)。

    2桁の誕生数は、それを8で割ると、8つの一けたの数字の平均値と言える。
    中心極限定理があるので、その平均値は正規分布になるから、それに8をかけた数字も正規分布。
    問題は、その分布の平均(と分散)。

    1900年代は、10+6つの一けたの数字の合計。
    2000年代は、2+6つの一けたの数字の合計。
    それぞれ正規分布に近づくが、それらの平均値は 8 離れている。

    西暦ゼロ年から9999年まで集計する、とか、西暦の頭二桁を無視して誕生数を求める、というふうにすれば正規分布になる。


    「1桁の誕生数」が一様分布になる、ということは、2桁の誕生数の1の位と10の位の数字が互いに独立ではない、ということなのだろうけれど、同じ処理をしたら一様分布に戻るというのがとても不思議だ。
  • id:a-kuma3
    2桁の誕生数がふた山の件(派生)。

    この質問にある「1桁になるまで各桁の数を足して 1~9 の数字を得る」を、8桁のランダムな数字に対してやってみると、これも正規分布にはならず、一様分布っぽい感じになる。
    「しつこい誕生数」は、数字が順番に出てくるから一様分布だとはっきり言えるけど、数字が順番に出てこなくてもこの計算方法では一様分布っぽくなるので、演算方法の性質っぽい。
  • id:takejin
    正規分布を一定間隔でサンプリングしたものを、初期値を変えて何セットか採取。その合計が一致するかどうか?という命題に置き換えられそう。
    どうなんだろう
  • id:grankoyan2

    なんだか盛り上がっていただいて恐縮です。(ついていけてないですが)

この質問への反応(ブックマークコメント)

トラックバック

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

絞り込み :
はてなココの「ともだち」を表示します。
回答リクエストを送信したユーザーはいません