離散数のパーセンタイル(百分位点)について

1, 2, 3, ..., 99, 100 と100個の整数があった時に、99.9パーセンタイル点というのは以下のどの数値になるのでしょうか

99, 99.5, 99.9, 99,901, 99.999, 100

また、90パーセンタイル点というのは以下のどの数値になるのでしょうか

90, 90.1, 91

実数のパーセンタイルはわかりやすいのですが、整数の場合

1. 該当のパーセンタイル点が2整数の中間の場合、どちらかに丸めるのか、2整数の中間点を取るのか、2整数のさらにパーセンタイル点を取るのか
2. パーセント計算に該当の点を含むのか含まないのか(「以下」なのか「より小さい」なのか)

の2点がはっきりしません。
Webで検索しましたが記述がまちまちなので確認を取りきれませんでした。

よろしくお願い致します。

回答の条件
  • 1人5回まで
  • 13歳以上
  • 登録:2012/11/09 09:00:48
  • 終了:2012/11/15 08:38:02

ベストアンサー

id:Silvanus No.1

Silvanus回答回数174ベストアンサー獲得回数672012/11/09 12:03:32

ポイント90pt

ご質問のケースでは最早「百分位数」ではなく「千分位数」ですね。
分位数は次の様に定義されている筈です。
小さい方から順にX1, X2,…, Xnの数値データがある時、
第i q分位数にあたるデータは{1+i(n-1)/q}番目(=tとする)になります。
例えば、データが9個(n=9)の場合の四分位数(q=4)を考えると
第一~第三四分位数(i=1,2,3)は、t=3,5,7となることからそれぞれ
x3,x5,x7となります。この例ではtの値が整数になったから良かったのですが
整数にならない場合は以下の値になります。
MS-Excelの関数の様な方式で書きますと
Q(t)=(RoundUp(t,0)-t)*X[RoundDown(t,0)]+(t-RoundDown(t,0))*X[RoundUp(t,0)]
の様な感じになります(※大括弧[]内はデータXの番号を示します)。
つまり、tが整数にならなかった場合は
そのtの前後の2つのXの値を用いて線形補間して求めるということです。
ご質問の例ではX1(=1),…,X100(=100)の100個(n=100)の
第999千分位数(i=999,q=1000)を求めることになりますが、
この時t={1+999*(100-1)/1000}=99.901となります。
よってQ(99.901)=(100-99.901)*X99+(99.901-99)*X100
=0.099*99+0.901*100=99.901となります。

id:Silvanus

補足いたします。上記は定義通りの計算方法ですが、
求められた値の「用途」、つまり第i q分位数を一般的な実数としてしまうと
以降の処理に影響がでる場合は「事後」に操作を加えることはあります。
恐らく、何通りかあるこの「事後」操作を含めた記述が
ウェブ上に散見されたということだと思います。
飽くまで純粋な数学的定義は回答の通りです。

求められた値を「整数」等に丸める場合は四捨五入です。
これが「小数点第y位まで」「十(百,千,…)位まで」でも同様です。
もう一つは、Xのデータに寄せてしまう方法で
この場合はt値を四捨五入しX[Round(t,0)]の値を採用します。

2012/11/09 12:34:24
id:kyo_bracer

ありがとうございました。まさに求めていた回答です。

2012/11/15 08:37:27

その他の回答(1件)

id:Silvanus No.1

Silvanus回答回数174ベストアンサー獲得回数672012/11/09 12:03:32ここでベストアンサー

ポイント90pt

ご質問のケースでは最早「百分位数」ではなく「千分位数」ですね。
分位数は次の様に定義されている筈です。
小さい方から順にX1, X2,…, Xnの数値データがある時、
第i q分位数にあたるデータは{1+i(n-1)/q}番目(=tとする)になります。
例えば、データが9個(n=9)の場合の四分位数(q=4)を考えると
第一~第三四分位数(i=1,2,3)は、t=3,5,7となることからそれぞれ
x3,x5,x7となります。この例ではtの値が整数になったから良かったのですが
整数にならない場合は以下の値になります。
MS-Excelの関数の様な方式で書きますと
Q(t)=(RoundUp(t,0)-t)*X[RoundDown(t,0)]+(t-RoundDown(t,0))*X[RoundUp(t,0)]
の様な感じになります(※大括弧[]内はデータXの番号を示します)。
つまり、tが整数にならなかった場合は
そのtの前後の2つのXの値を用いて線形補間して求めるということです。
ご質問の例ではX1(=1),…,X100(=100)の100個(n=100)の
第999千分位数(i=999,q=1000)を求めることになりますが、
この時t={1+999*(100-1)/1000}=99.901となります。
よってQ(99.901)=(100-99.901)*X99+(99.901-99)*X100
=0.099*99+0.901*100=99.901となります。

id:Silvanus

補足いたします。上記は定義通りの計算方法ですが、
求められた値の「用途」、つまり第i q分位数を一般的な実数としてしまうと
以降の処理に影響がでる場合は「事後」に操作を加えることはあります。
恐らく、何通りかあるこの「事後」操作を含めた記述が
ウェブ上に散見されたということだと思います。
飽くまで純粋な数学的定義は回答の通りです。

求められた値を「整数」等に丸める場合は四捨五入です。
これが「小数点第y位まで」「十(百,千,…)位まで」でも同様です。
もう一つは、Xのデータに寄せてしまう方法で
この場合はt値を四捨五入しX[Round(t,0)]の値を採用します。

2012/11/09 12:34:24
id:kyo_bracer

ありがとうございました。まさに求めていた回答です。

2012/11/15 08:37:27
id:crystalsky No.2

crystalsky回答回数6ベストアンサー獲得回数12012/11/11 10:45:16

ポイント10pt

パーセンタイルは理論上の考え方なので数値は全て理論上の数値で進めるのが一般的です。別の例で言うとA群に3人、B群に4人で、2群の平均は理論上で3.5人とするのと同じです。

kyo_bracerさんの質問1も理論値として小数で示します。ただし理論値以外を聞く設問もあります。例えば、どの個体が一番近いか、という設問だと答えは変わります。
質問2も理論値の考え方からすると、50.00000みたいな数字(整数)が出る確率はゼロです。離散数で計算する場合は0.5カウントなどで行います。これも中央値の計算などと同じ理論です。

ちなみにkyo_bracerさんの数列1から100までの100個の整数の平均は50ではなく50.5になります。計算間違えしそうなので気と付けると良いでしょう。

コメントはまだありません

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

絞り込み :
はてなココの「ともだち」を表示します。
回答リクエストを送信したユーザーはいません