直線上に配置

HKT:グループ最大増分値予測

HKTでのグループ別最大増分値を検討するため、HKTグループメンバーのトータルウォッチ数の大きかった4月30日(朝長、松岡の最終日)の実績データに基づいて、統計的に増分値(5分間あたりのウォッチ数増加分)の最大値を検討した。平均と標準偏差の章でも述べたがHKTは同時に最大4名のメンバーがウォッチバトルに参加していたので、各メンバーの集中タイムが重ならないようにメンバー毎で30分ずつずらして集中タイムを実施していた。したがって各メンバーの増分値は必ずしもそのメンバー個人を応援している個推しのHKTヲタによるものではなく、グループ全体を応援しているHKTヲタによる数字となっていたと推測される。つまり4名の増分値の合計がグループ全体として増分値になるものと考え、朝長、松岡の最終日となる4月30日の21:00〜24:00にその最大能力が発揮されたと考えられるので、その増分値の発生推移からHKTヲタが自然発生的かつ継続的に実現できる最大増分値を予測してみた。

なお、データの分析に関しては基本的に21:00〜24:00の間に最大値が発生したものと考え、その時間帯で各値が正規分布していたかどうかも含め検討するため、19:35〜24:00と21:00〜24:00の間のデータ分布をヒストグラムで表示し、各時間帯における平均と標準偏差を計算した(標準偏差はExcel2013のSTDEV.S関数を利用して求めた)。19:35〜24:00の間のデータで計算した平均と標準偏差と21:00〜24:00の間のデータで計算した平均と標準偏差を比較すると、後者の時間帯のデータで計算したもののほうが大きい。したがって21:00〜24:00の平均をμ、標準偏差をσとし、μ+2σを予想最大値とした。なお、表中の水色に塗った値はμ+2σを超えた値、青く塗った値はμ+3σを超えた値を示している。

最終的に正規性診断ツールよって正規分布として認識できるデータ範囲から算出した平均と標準偏差を用い、1%有意水準で「最大増分値は予想最大値となる」という仮定が棄却されるかどうかを検定する。棄却された場合、累積分布関数の値が0.99となる増分値を最大値とする(累積分布関数の逆関数としてはExcel2013でのNORM.INV関数を用いて値を求めた)。

4/30
時刻
森保
穴井
朝長
松岡
合計
19:35 1,005 392 704 9,207 11,308
19:40 931 685 1,270 6,691 9,577
19:45 924 986 1,186 6,102 9,198
19:50 1,027 1,183 1,340 6,069 9,619
19:55 1,015 1,161 1,307 6,171 9,654
20:00 1,148 794 1,527 6,132 9,601
20:05 2,477 842 2,041 4,277 9,637
20:10 2,320 916 1,337 4,215 8,788
20:15 2,404 1,426 1,025 3,391 8,246
20:20 2,446 1,401 1,519 3,407 8,773
20:25 1,572 975 1,449 4,421 8,417
20:30 1,701 862 1,440 3,791 7,794
20:35 1,499 902 1,097 3,811 7,309
20:40 1,349 1,082 1,139 4,578 8,148
20:45 1,538 1,473 1,203 4,343 8,557
20:50 1,688 2,421 1,272 4,092 9,473
20:55 1,386 2,443 1,503 4,064 9,396
21:00 968 2,285 1,722 4,128 9,103
21:05 735 3,144 1,199 3,878 8,956
21:10 909 3,799 1,243 4,592 10,543
21:15 837 3,674 1,351 5,648 11,510
21:20 810 2,776 1,291 6,397 11,274
21:25 972 3,056 1,592 3,264 8,884
21:30 928 2,444 1,569 3,648 8,589
21:35 956 3,605 1,702 4,156 10,419
21:40 761 4,241 2,199 4,203 11,404
21:45 1,132 4,918 2,792 3,500 12,342
21:50 989 4,709 3,006 3,416 12,120
21:55 1,086 3,736 3,401 3,663 11,886
22:00 1,626 3,427 4,013 3,775 12,841
22:05 11,531 3,095 2,787 4,042 21,455
22:10 13,918 2,654 1,676 4,427 22,675
22:15 11,993 2,761 1,698 3,818 20,270
22:20 8,534 2,693 2,162 4,905 18,294
22:25 7,471 2,944 2,374 6,077 18,866
22:30 7,400 3,880 2,350 5,102 18,732
22:35 1,809 16,643 2,429 4,171 25,052
22:40 1,073 23,761 2,135 4,471 31,440
22:45 1,112 18,722 2,154 3,860 25,848
22:50 1,072 13,502 1,837 4,894 21,305
22:55 670 11,610 1,584 5,654 19,518
23:00 788 11,238 2,277 8,221 22,524
23:05 699 2,982 10,936 18,446 33,063
23:10 811 2,844 13,812 22,639 40,106
23:15 1,378 2,832 11,354 19,298 34,862
23:20 1,517 3,317 9,771 18,377 32,982
23:25 1,715 2,693 10,118 20,480 35,006
23:30 2,597 2,596 11,651 22,352 39,196
23:35 2,787 2,550 12,813 22,863 41,013
23:40 3,008 2,770 14,182 23,485 43,445
23:45 2,629 3,709 15,562 26,975 48,875
23:50 1,578 3,340 18,206 32,220 55,344
23:55 1,123 3,163 25,188 44,830 74,304
0:00 1,556 3,963 37,695 63,109 106,323
平均(19:35〜24:00) 21,183
標準偏差(19:35〜24:00) 18,616
平均(21:00〜24:00):μ 26,767
標準偏差(21:00〜24:00):σ 20,199
予想最大値(μ+2σ) 67,165

   
平均(19:35〜) 19,886
標準偏差(19:35〜) 12,638
   
平均(21:00〜23:50) 23,135
標準偏差(21:00〜23:50) 12,877
5%有意水準(0.95) 44,316
1%有意水準(0.99) 53,092
19:35〜24:00   
データ区間 頻度 累積 %
0-9999 20 37.04%
10000-19999 14 62.96%
20000-29999 7 75.93%
30000-39999 6 87.04%
40000-49999 4 94.44%
50000-59999 1 96.30%
60000-69999 0 96.30%
70000-79999 1 98.15%
80000-89999 0 98.15%
90000-99999 0 98.15%
100000-109999 1 100.00%
上西恵755写真集:HKTヒストグラム1
21:00〜24:00   
データ区間 頻度 累積 %
0-9999 4 10.81%
10000-19999 13 45.95%
20000-29999 7 64.86%
30000-39999 6 81.08%
40000-49999 4 91.89%
50000-59999 1 94.59%
60000-69999 0 94.59%
70000-79999 1 97.30%
80000-89999 0 97.30%
90000-99999 0 97.30%
100000-109999 1 100.00%
上西恵755写真集:HKTヒストグラム2
 ヒストグラムによるデータの検討

19:35〜24:00間のデータ分布と21:00〜24:00間のデータ分布を比較すると大きな違いとしては、19:35〜20:55においては0-9999のデータ区間における値がほとんどであったことがわかる。19:35〜24:00間のデータ分布では0-9999のデータ区間に多くデータが分布しており、そこから大きな値のデータ区間に進むにつれて頻度が減っているように見られるが、21:00〜24:00間のデータ分布では0-9999のデータ区間の頻度が20→4に減っており、それに対して10000-19999のデータ区間は14→13と減少量は少ない。したがって21:00〜24:00の時間帯は10000-19999のデータ区間にピークが発生しており、その前後の区間で頻度の減少が見られる。つまりどちらかと言えば21:00〜24:00間のデータ分布のほうが正規分布に近い形になっている。
 データの正規性に関する検討

データの正規性に関して正規性検討ツールを使い、1%有意水準でK2検定(D'Agostino and Pearson 検定)を行った。19:35〜24:00の間のデータで検定した場合、そのままでは正規分布とは見られないとの判定であったので、正規性が認められるまで上位の値、下位の値を除外してみたところ、下位は8,589/5分未満の値、上位は55,344/5分を超える値を除外することで正規性を認められる範囲となった。
下位の8,589/5分未満の値はその多くが20時台に発生している。上のヒストグラムでも確認できるが、19:35〜24:00の間のデータでは9,999以下の値が非常に多く、正規分布のデータとは認識するのが難しい状況である。8,589/5分未満のデータの多くが主に20時台に発生しており、6件あった。この値を除外すればヒストグラムのデータ区間:〜9,999の頻度が20→14になるわけで、それと上位の値を除けば確かに正規分布の形に近くなるように思われる。

21:00〜24:00の間のデータで検定した場合、全体の値そのままでは「正規分布ではない」との判定であったが、55,344/5分を超える値を除外することでデータの正規性が認められた。つまり、23:55、24:00の値を除くと正規性が見られるということは、終了前10分間のデータは自然発生的に増えたということではなく、最終日の終了間際という条件の場合のみに発生する特異な値で、継続的発生が期待できるものではないという判断になる。

以上の結果から対象となる19:35〜の間と21:00〜23:50の間で正規分布によるデータの発生があったと考え、それぞれの範囲のデータから平均と標準偏差を求めると左記の通りとなった。データ区間:19:35〜に関しては平均:19,866/5分、標準偏差:12,638/5分、データ区間:21:00〜に関しては平均:23,135/5分、標準偏差:12,877/5分となったので、平均、標準偏差共に高い21:00〜のデータを採用することにした。
この値を元にして累積分布関数が0.95となる値(5%有意水準)、0.99となる値(1%有意水準)をそれぞれ求めたところ、44,316/5分(5%有意水準)、53,092(1%有意水準)となった。当初の予想最大値:67,165/5分を平均:23,135/5分、標準偏差:12,877/5分を用いて検定すると、67,165/5分>53,092/5分となるので、1%有意水準で67,165/5分が最大値となるという仮説は棄却され、最大値としては1%有意水準で計算した53,092を選択する。つまり、当初の予想最大値:67,165/5分は終了間際に発生した特異的なデータが、その平均値や標準偏差に影響を及ぼしていたため、自然に発生すると考えられる値の範囲を逸脱していたということになる。

ちなみに、平均:23,135/5分、標準偏差:12,877/5分を用いて23:50に測定されている55,344/5分の累積分布関数を求めると0.9938となる。したがって55,344を超える値が発生する確率は1-0.9938で計算され0.0062となる。言い換えれば、HKTヲタだけが自然発生的に集まって55,344/5分を超えるウォッチ数で15分間継続できる確率は0.0062の3乗 = 2.3833/10,000,000程度だと言え、1,000万回やったら2回程度 = 500万回やったら1回程度発生するという確率になる。一般的にはこのようなことが起きる確率は極めて低いと言えるだろう。ということは、このような値になるのは自然発生的ではない別の方法によって起きたと考えるべきだということになる。つまり最終日の最後の数分間だからということで通常集まらない人が集まったり、その時間だけ集中して作業を行う人が集まった結果によるもので、一般的に長時間の発生が期待できる事象ではないと言えるだろう。

以上の点から1%有意水準で判断して、HKTヲタ全体で継続的に発生させられると予想される最大増分値は53,092/5分だと言える。


前へ トップ アイコントップへ戻る


直線上に配置