直線上に配置

グループ別最大増分値の検討

各グループ毎の最大増分値(5分間あたりの最大ウォッチ数)はそのグループのヲタの特性もあり比較することは難しい。グループによってはいわゆる箱推しと呼ばれるグループのどのメンバーでも応援するというファン層が多いところもあれば、個々の個人を応援するファンが基本となっているグループもある。しかしながら基本的にはそのグループを応援するファンによってウォッチ活動は支えられていたわけだから、複数のメンバーがウォッチバトルに参加していたのであれば、その各メンバーの同日、同時間に発生したウォッチ数合計の最大値がそのグループの持っているポテンシャルと考えられる。

基本的に各メンバーともその能力の最大値が出るのはウォッチバトル最終日になることが多い。平均と標準偏差の章でも説明したように、HKTは最大同時に4名のメンバーがウォッチバトルに参加していたが、集中タイムを分散して各メンバーを相互補完するような形を取って、HKTヲタ全員で全HKTメンバーを均等に応援するような状況を作っていた。NMBは3名のメンバーが同時にウォッチバトルに参加していたが、それぞれのメンバーを応援する個推しのヲタが、各々独立して応援している形になっており、同じ時間に競うような形で集中タイムを作っていた。SKEは2名が同時にウォッチバトルに参加していたが、2名の最終日に5日ほどの違いがあったため戦力を分散させることなく、箱推しヲタの優先順位としては先に最終日を迎える古畑を優先的にウォッチ活動しており、終了後に高柳のウォッチ活動に集中するという形を取っていた。AKBヲタは箱推しと考えられるヲタの動きはほとんど見られず、各メンバーともに個推しのヲタが独立して活動しているようだった。

以上のようなグループの特長から考え、HKT、NMB、SKEの各グループの最大増分値を、HKTは4名のうち2名が最終日となった4月30日、NMBは2名のメンバーの最終日となった5月6日、SKEは高柳の最終日となった5月8日のデータを元にして検証し、それぞれのグループの持っている能力が最大限に発揮されたときの最大増分値を推測してみる。残念ながら、AKBメンバーのデータからはグループ全体で動いていると見られる状況は、毎日0時、12時からの30分間を10分ずつに分け、高橋朱理、佐々木優佳里、大島涼花の3名に対して時間を分けた、10分間程度の集中タイムの実施ぐらいしか見つけることができず、非常に短時間で各メンバー間相互に大きな影響があったようには見られなかった。したがってAKBとしてグループ全体のポテンシャルを測ることのできるような時間帯を見つけることはできなかったので、今回の検討からは除くこととする。

これらの結果を基にして各グループの最大値を推測した後、今までに検討してきた5月3日の上西の予想データや、実測された異常なデータ増加の発生についてその妥当性を検討する。

検討方法


検討方法としてはそれぞれのグループの最大値が発生したと時間帯を最終日の21:00〜24:00と予測する。しかしながら、この時間に発生する最大値は最終日の終了間際に発生するという極短時間に起きるケースが想定される。それに比較すると上西は終了前1時間程度同じぐらいの値で推移しており、その時間帯に最大値が発生している。したがって上西のデータとして比較対象となる最大値は、少なくとも1時間程度は継続できるものでなければならない。これらの点から考えると、最大データとして考えることができるものは、最終日の終了間際にのみ発生するような特異なデータを除いた、正規分布していると考えられるデータ母集団の中から、継続的な発生の可能性が想定できる値の中での最大値を選択する必要がある。

そこでデータの検討範囲はそれぞれのグループの対象日の19:35〜24:00と21:00〜24:00の2つの範囲で検討し、それぞれの平均(μ1,μ2)と標準偏差(σ1、σ2)を求める。ここで仮に予想最大値(M)をμ2+σ2×2として計算しておく。そしてそれぞれの区間の正規性を検討し、正規性が認められない場合には、極端に高い値や極端に低い値など正規性から逸脱するようなデータを除いて、どの範囲のデータで算定すれば正規性が認められる範囲となるか検討する。最低限のデータを除外して正規性が認められる範囲を算定した後に、各対象時間帯の平均(μ3,μ4)と標準偏差(σ3、σ4)を再度求め、μ3+σ3×2、μ4+σ4×2を計算し、高い値になる方のグループを最大値が発生する母集団と見なし、その母集団での累積分布関数から1%有意水準(危険率1%)で発生可能となる値を最大値とする。もし最初に計算した予想最大値:Mを1%有意水準で検定してその母集団での発生が否定されない場合はMを最大値とするが、そうでない場合は累積分布関数で発生確率が99%となる累積分布関数の逆関数で求められる要素:xとなる値を最大値と考える。なお、データ要素の正規性の検定にはシビルワークス社提供のフリーソフトである正規性検定ツールを利用し、有意水準1%のD'Agostino and Pearson検定(K2検定)で検定した。

統計的な用語について馴染みにない方向けに、以下に上記の検定方法を採用した理由及び、用語の概略について説明しておく。



x f(x):確率密度関数 F(x):累積分布関数
-3 0.004431848 0.001349898
-2.5 0.0175283 0.006209665
-2 0.053990967 0.022750132
-1.5 0.129517596 0.066807201
-1 0.241970725 0.158655254
-0.5 0.352065327 0.308537539
0 0.39894228 0.5
0.5 0.352065327 0.691462461
1 0.241970725 0.841344746
1.5 0.129517596 0.933192799
2 0.053990967 0.977249868
2.5 0.0175283 0.993790335
3 0.004431848 0.998650102
 正規分布について

上のグラフはExcel2013のNORM.DIST関数を用いて平均(μ):0、標準偏差(σ):1の標準正規分布となる確率密度関数を求めグラフ化したものである。基本的に正規分布のグラフは平均を中心とし、上のような左右対称のグラフになる。一般的なデータの測定結果をグラフ化した場合、必ずしもこのようなきれいに左右対称の正規分布の形にデータが分布するとは限らない。その為、測定されたデータが正規分布として考えられるデータかどうかを何らかの方法で検定する必要がある。今回は上で述べたようにフリーソフトであるシビルワークス社の正規性検定ツールを用い、計測された増分値データに正規性があるかどうかを確認することとした。
   ヒストグラムの作成

一般的に測定されたデータが正規分布をしているかどうかを判断するには、ヒストグラムを作って検討することが多い。ヒストグラムはデータを区間分けして、その区間毎にどれだけのデータが発生しているかを検討するための方法である。一般的に正規分布が予想されるデータでは、左記のヒストグラム1のように中心部分の頻度が高く、左右に離れるにつれて頻度が低くなるケースが考えられる。

しかし、必ずしもそのような形になるデータばかりではない。ヒストグラム2のようなデータ分布となった場合、正規分布ではないと言い切れるかどうかは判断が難しい。その為に正規分布かどうかを判断するツールとして、上記に記載した正規性検定ツールを利用した。上記検定ツールは実際に測定したデータを用いてその正規性の判定ができるものである。

実際に左記のヒストグラム2の元データを有意水準5%のK2検定で判断すると「正規分布ではない」との判断になったが、データ区間:50,000〜54,999に含まれる2つのデータのうち、最大値となる一つ除くと「正規分布の可能性がある」との判断になった。

一般的にウォッチバトルの最終日のデータでは、最終日の終了間際にその時間帯だけ参加する人や、最後の5分間だけ頑張ってウォッチ数を上げるといった行動を取る人が多かった。そのため、継続的にウォッチし続けられる最大値を統計的に求めるには、そういう特異なデータを除外した上で、発生しうる最大値を検討する必要がある。

したがって、統計的に計算して求める最大値としては、正規性検定ツールでそういった特異なデータを除外した上、正規分布の母集団として認められる範囲のデータを特定して、それを用いて検討した結果、発生しうる最大値を算定することとした。

ちなみに、左記のデータは5月3日のHKT:穴井のデータを元にして作成したものであり、ヒストグラム1が21:00〜23:50、ヒストグラム2が19:10〜23:50の増分値をヒストグラムにしたものである。
いくつかのメンバーのデータを検定したが、最終日でない日の21:00〜24:00の間のデータは、どのメンバーのデータも有意水準5%のK2検定で「正規分布の可能性がある」との判断になることが多かった。

 

グラフ1   累積分布関数

一般的に正規分布している母集団のデータでは平均(μ)、標準偏差(σ)に対して、μ±σの範囲に68.27%、μ±2σの範囲(グラフ1の水色の部分)に95.45%、μ±3σの範囲に99.73%の値が含まれることが知られている。また、一般に両側検定で利用される95%の値が含まれる(5%有意水準)となる範囲はμ±1.96σ、99%の値が含まれる(1%有意水準)の範囲はμ±2.58σということが知られている。

累積分布関数は正規分布となる確率密度関数を積分したものであり、言い換えればその要素(増分値):を最大値としてその値までに含まれる要素が、全体のどれだけの割合になるかを表わしている(グラフ2の水色の部分)。その為、上の表ではμ(0)までの累積分布関数は0.5、μ+2σ(0+1×2=2)の累積分布関数は0.977249868となっているが、μを最大値と考えると全体の50%、μ+2σを最大値として考えるとその値までに全体の97.72%の値が含まれるということを意味する。今回は発生しうる最大値を求めることを目的としているので、片側検定で1%有意水準で検定する場合、累積分布関数として99%の値が含まれる値を求めることよって検定することができる。つまり、累積分布関数の逆関数を利用して平均、標準偏差から累積分布関数が99%となる要素(増分値):xの値を求める。

そうやって要素(増分値):xの値を計算によって求めることができれば、その値が1%有意水準(危険率:1%)でその母集団において発生しうる最大値だと判断することができる。但し、この計算から求める値はあくまでも母集団が正規分布しているデータである場合に妥当性を持つものであり、元のデータを正規性検定ツールで検定し、特異なデータを除いた後に各データを用い平均と標準偏差を求める必要がある。

仮にそれより大きな値が発生していたとしても、それはその母集団から自然発生的に起きた事象とは言えず、意図的もしくは人為的に何らかの方法で発生させた事象というしかない。もしくは母集団を別にして発生した現象だと言えるかもしれない。

今回、累積分布関数の逆関数としてはExcel2013でのNORM.INV関数を用いて値を求めることとした。
 グラフ2
以上の方法で算定した正規分布データとして考えられる母集団から求めた最大値、平均、標準偏差を基準にして、HKT、NMB、SKE各グループにおける最大増分値を推測し、それをグループ全体が持つのポテンシャルとした。その各グループの結果を用い、5月3日における上西の予想データの妥当性、及び実測データの異常性を検討する。


HKT:グループ最大増分値予測  NMB:グループ最大増分値予測
 SKE:グループ最大増分値予測 穴井最終日データの検定 
 上西最終日データの検定   
 


トップ アイコントップへ戻る


直線上に配置