直線上に配置

統計学的見地による上西データの異常性

今まで上西データの異常性について述べてきたわけだが、一部の人と話をしていてその異常性についてなかなか伝わらないような気がした。よくよく話を聞くと正規分布という言葉すら聞いたことがないとのことだった。集団での行動には特有の正規分布とかポアソン分布という、一定の行動パターンがあることを、どうも一部の人はご存じないようだ。私も統計の専門家とは言うレベルではないが、普通に仕事で統計学的処理はよく使うので正規分布なんて当然誰でも知っていると思っていた(偏差値なんて言葉が当たり前に世の中で飛び交っているんだから)。

正規分布については高校数学の教科書にもあったはずだから、高校卒業レベルの人は当たり前に理解されていると思っていたが、統計関係の内容は最近では数学Bという科目に集約されて勉強する人も少なくなっているそうだ。数学が将来役に立たないと言っている連中も多いようだが、せめて社会に出てからいろんな場面で遭遇するような事象に関しては、最低限の知識は勉強しておいてもらいたいものだが。
正規分布及び、ポアソン分布についてはWikipediaの内容に当たっていただくとして、そうした現象と上西データの変動傾向についてあまりにも違いがある点をここで明確にしておく。

時刻 手動分 自動PC分 合計増分値 変動 変動率
22:10 133,844 200,000 333,844 0 0.00%
22:15 150,812 220,000 370,812 36,968 11.07%
22:20 151,194 242,000 393,194 22,382 6.04%
22:25 161,824 266,200 428,024 34,830 8.86%
22:30 153,055 292,820 445,875 17,851 4.17%
22:35 143,905 322,102 466,007 20,132 4.52%
22:40 150,682 354,312 504,994 38,987 8.37%
22:45 153,795 389,743 543,538 38,544 7.63%
22:50 118,983 428,718 547,701 4,163 0.77%
22:55 173,911 471,590 645,501 97,800 17.86%
23:00 165,814 518,748 684,562 39,061 6.05%
上西恵755写真集ウォッチバトル:ウォッチ数推移グラフ

上記の表及び、グラフは以前に仮想データの章で説明した上西データにおける手動作成分とPCによる自動作成分の割合を示したものである。私の意見はグラフのオレンジ色に示している部分がPCによって加速度1.1:初期値200,000から自動的に増やされ、それによって全体の値が水増しされていると考えている(これでも手動ウォッチ部分が約120,000/5分〜約174,000/5分となっており、前日の同時間帯に比べ5〜6倍程度になり、最終日における他のメンバーのデータ増加傾向と比較しても、想定される上西の最終日手動ウォッチ部分は前日データに対して類を見ないほど大きなものになっている)。もし、この自動PC分が本当にSNSツールでの発信の影響で多くの人が賛同して自然に集まってきたのであれば、ウォッチ数の増加傾向はそれなりの自然なデータ分布の傾向を示すはずである。

このケースは「NMBメンバー及びそのファンのSNSツールでの発信に反応し、755ウォッチバトルの参加したAKBGの動向に注目している集団の行動」というくくりで表現されると思う。本来そういうケースはポアソン分布で解析されるべきだが、NMBファンの中ではメンバーがSNSツールで発信したら無条件で多くの人が賛同し、上西のウォッチバトルに参加したと言っている輩もいるので、不特定多数が参加する集団の行動と判断して、一般的に使われる正規分布型のデータモデルを採用し、上西データの推移の異常性を説明しておきたいと思う。まあ、スマホへの755専用アプリの導入を導入しないと参加できないイベントで、短時間での新たなウォッチバトル参加者がSNSでの呼びかけだけで、前日比10倍〜30倍以上の規模で2時間程度にわたって継続的に増加することは通常はあり得ない。そうしたことが自然発生的に起きたと主張している時点で、同一目的での行動が極短時間に集中するという、ポアソン分布型での事象発現と言うこと自体にかなり無理があると思うが。

時刻 手動分 増分1 増分2 合計増分値 変動 変動率
22:10 133,844 42,183 0 176,027 0 0.00%
22:15 150,812 281,092 0 431,904 255,877 145.36%
22:20 151,194 480,311 0 631,505 199,601 46.21%
22:25 161,824 607,771 1,649 771,244 139,739 22.13%
22:30 153,055 480,311 28,122 661,488 -109,756 -14.23%
22:35 143,905 281,092 187,394 612,391 -49,097 -7.42%
22:40 150,682 42,183 320,207 513,072 -99,319 -16.22%
22:45 153,795 2,473 405,181 561,449 48,377 9.43%
22:50 118,983 0 320,207 439,190 -122,258 -21.78%
22:55 173,911 0 187,394 361,305 -77,885 -17.73%
23:00 165,814 0 28,122 193,936 -167,370 -46.32%
上西恵755ウォッチバトル:正規分布型増分値変動グラフ

上記の表及び、グラフは自動PC分の3,706,233ウォッチを正規分布に従って配分したものである。1回のSNSでの発信に全員が反応して同時に行動を起こしたと考えるのはあまりに無理があるので、有力メンバーの発信によって大きく2つのピークが発生したと考え、3,700,000の6割(2,220,000):増分1のグループが22:25にピークを迎え、残りの4割(1,480,000):増分2のグループが22:45にピークを迎えたと仮定してデータを作成した。なお、正規分布の性格上、増分1のグループにおける開始時の2,473(約0.1%)と、増分2のグループの終了時1,649(約0.1%)が対象時刻の範囲以外での発生になってしまい、傾向値としてグラフに反映されていないが、グラフ全体の傾向にはほとんど影響しないのでは今回はご容赦願いたい。

この集団は少なくとも24:00までの決められた時間で少しでも多くの結果を出さなきゃいけないことはわかっているはずだから、参加の意思のある者は一刻も早く参加しようと試みるはずである。従ってその行動パターンは本来早めの時間帯に多くの人が増えるのが必然で、時間の経過と共に少しずつ参加者が増えていく可能性は極めて低い。

また、もし新しく参加した人がそのまま継続してウォッチ活動を続けていたとしたら、その増分値の増加カーブは早い時期に急激に増加する形になり、自動PC型(上西の実測データ)のグラフのようになだらかに増加する形にはならないはずである。

どうだろうか、直感的にこちらのグラフの動きの方がより人間の行動パターンに近いと感じていただけるだろうか?特に変動率の折れ線グラフの動きは、今まで他の時間帯の変動率のグラフと似たような動きにはなっているようにも見えるが、いかがだろう?それに対して自動PC型の変動率の折れ線グラフも一見すると大きく上下に動いているようにも見えるが、これは変動率のグラフの目盛り幅が影響している。両者を同じ目盛り幅で比較したのが下記のグラフになる。

上西恵755写真集ウォッチバトル:変動率推移グラフ1
上記グラフにおいてはその変動率の推移に著しい違いがあるのがわかるだろうか。自動PC型(上西の実測データ)の変動率の動きはプラスの範囲(0.77%〜17.86%)の狭い幅の中で動いているだけだが、正規分布型のデータモデルで考えると、その変動率は振幅範囲が-46.32%〜145.36%と非常に動きが激しくなる。
本来、多くの人に呼びかけ短時間で集まるのなら、必ずこのようなある一定の時間帯に参加者が急激に増加するようなことが起きるはずである。自動PC型のようになだらかに常に少しずつ参加者が増えるというような増え方はしない。

下記部分は削除(2015/05/26 7:00)
また、この正規分布型のグラフには22:55に一つのピークができている。これは以前にも指摘したことだが、本来SNSツールの発信に対して反応した人が参加してポアソン分布型にピークが発生し、それが22:55あたりの手動データ部分に含まれると考えているのでその影響がここで見られる。
今回は比較のため手動データ部分はどちらも同じものを採用しているので22:55のピークはそうした影響が出ていると考えられる。


下記を追加(2015/05/26 7:00)
また、本来手動データ部分に含まれているはずのSNSツール発信によるポアソン分布型のピークが22:55あたりに見られるはずだが、増分2の正規分散データの変動により打ち消されている。

ポアソン分布型データ

ポアソン分布型のデータはある特定の場所や目的に従って発生した現象に現れる傾向を示したものである。

 ・一時間に特定の交差点を通過する車両の台数。
 ・ある一定の時間内の店への来客数。
 ・1分間のWebページのアクセス数。

など、特定の現象でポアソン過程において発生する離散的な自然現象に該当するものである。
大事なことは事象の起きる確率はそれ以前に起こった事象の回数や起こり方には無関係だという点である。

具体的なポアソン分布型のデータの例を下に示す。

日時 高柳明音 増分 変動   小谷里歩 増分 変動   太田夢莉 増分 変動
2015/5/3 23:00 11,884,792       14,641,156       7,297,181    
2015/5/3 23:05 11,889,633 4,841     14,648,055 6,899     7,297,908 727  
2015/5/3 23:10 11,893,301 3,668 -1,173   14,652,900 4,845 -2,054   7,298,355 447 -280
2015/5/3 23:15 11,896,097 2,796 -872   14,656,816 3,916 -929   7,298,804 449 2
2015/5/3 23:20 11,898,666 2,569 -227   14,660,327 3,511 -405   7,299,336 532 83
2015/5/3 23:25 11,900,849 2,183 -386   14,663,802 3,475 -36   7,299,953 617 85
2015/5/3 23:30 11,903,011 2,162 -21   14,667,279 3,477 2   7,300,628 675 58
2015/5/3 23:35 11,904,558 1,547 -615   14,670,832 3,553 76   7,302,718 2,090 1,415
2015/5/3 23:40 11,906,069 1,511 -36   14,674,385 3,553 0   7,303,768 1,050 -1,040
2015/5/3 23:45 11,907,761 1,692 181   14,677,616 3,231 -322   7,304,782 1,014 -36
2015/5/3 23:50 11,909,340 1,579 -113   14,681,357 3,741 510   7,306,277 1,495 481
2015/5/3 23:55                      
2015/5/4 0:00 11,912,025 2,685 1,106   14,686,854 5,497 1,756   7,308,219 1,942 447
2015/5/4 0:05 11,929,623 17,598 14,913   14,707,881 21,027 15,530   7,316,687 8,468 6,526
2015/5/4 0:10 11,965,373 35,750 18,152   14,746,763 38,882 17,855   7,335,419 18,732 10,264
2015/5/4 0:15 12,004,731 39,358 3,608   14,788,066 41,303 2,421   7,358,993 23,574 4,842
2015/5/4 0:20 12,046,635 41,904 2,546   14,819,174 31,108 -10,195   7,378,915 19,922 -3,652
2015/5/4 0:25 12,084,083 37,448 -4,456   14,845,150 25,976 -5,132   7,395,783 16,868 -3,054
2015/5/4 0:30 12,120,666 36,583 -865   14,869,057 23,907 -2,069   7,413,088 17,305 437
2015/5/4 0:35 12,157,914 37,248 665   14,887,313 18,256 -5,651   7,430,092 17,004 -301
2015/5/4 0:40 12,192,922 35,008 -2,240   14,903,398 16,085 -2,171   7,445,909 15,817 -1,187
2015/5/4 0:45 12,228,600 35,678 670   14,918,881 15,483 -602   7,461,256 15,347 -470
2015/5/4 0:50 12,260,985 32,385 -3,293   14,932,879 13,998 -1,485   7,474,178 12,922 -2,425
上西恵755写真集ウォッチバトル:変動率推移グラフ2
上記データ及びグラフは上西-古畑のUTBのイベントが終わった直後の高柳、小谷、太田の各W数及びその変動率をグラフ化したものである。高柳の変動率ピークが高いのは増分値自体が大きいというより、直前値との差が大きいことを意味している。表を見てもらえばわかるが、W数の増分値自体が大きいのは小谷の方になる。
なお、このグラフにおいては三者とも23:55のデータが存在しないので、24:00(0:00)の変動及び、変動率は23:50のデータとの比較になっている。
(23:55のデータがとれていない理由は大量データ作成編にあります)

この三者のグループの行動は、「同じグループのメンバーがウォッチバトルで非常に接戦を繰り広げていたたためそちらの応援に回ったが、終了後直ちに推しメンのウォッチバトルに戻ってきた集団の行動パターン」と位置づけることができる。三者の5/4 0:00以降の増分値の動きを比べると、5/3 23時台の増分値と比較して5倍〜10倍程度の高い値で、少なくとも1時間程度は推移していることがわかる。このグラフは同じ目的で同じような行動をするグループは、その行動パターンにおいて同じような傾向となることを如実に表している。
ちなみに太田のデータで23:35あたりにピークがあるのはもう上西の勝ちが見えてきたので、さっさと戻ってきた一部ファンがある程度いたということだろう。

以上の結果から、「人は同じ目的で行動するとその行動パターンは一定の法則に従った動きになる」ことがわかってもらえただろうか?


上西の実測データにおいては、多くのメンバーたちが支援のメッセージを発信していたから、参加者のピークがたくさんでき、タイムラグが発生していたため少しずつ後ろにずれそのピークが徐々に増え続けるという形になり、そのため5分前直前値より毎回大きくなって全体的にわずかずつ増加していくデータになったということかもしれない。もしそうなら、そんなことが5分間隔で9回連続して起きる確率を明示してもらいたいものだ。たぶん天文学的に発生し得ない確率になると思うが。
もしそんなことがあったとしても、それが5分間隔で50分間の9回連続で起きる確率は、サイコロで6の目が9回連続で出る確率よりは低いものだと考える。

ちなみにサイコロで6の目が9回連続で出る確率は1億2,000万人の日本人の中から無作為に12人を選んだときに自分が選ばれる確率とほぼ同等である。
2015/5/31追記

某巨大掲示板の地下アイドルスレでいろいろ情報を見ていたらおもしろいものが見つかった。本サイトに反論する立場の人が言うには、多くの人が上西氏のtwitterに反応してウォッチバトルに参加したきっかけは下記メッセージにあるというものだった。
https://twitter.com/jonishi3/status/594838296833822721

こちらとしてはメッセージ自体は確認していたが、何時何分に発信したものかわからなかったので言及するのを控えていたが、そこで書かれていた時間は21:17となっていた(転載不可のスレなんでソースとなった記事の転載はいたしません)。たぶんコメントをした人は上西氏のフォロワーで詳細な情報を取得できていた人なんだろう。
となると、以前にも述べたように最終日の詳細分析にも書いておいたが、計算結果から確認できた実際の急激な増分値データ変動の動き出しが、それ以前のタイミングで発生していたことと矛盾する。

逆に上西氏の発信はこちらの考えていた「データからは21:15ぐらいまでは人が認識できる急上昇の動きは見られないはず」という意見と一致する。つまり、データがいつもと違う大きな動きになっているということを認識してメンバーが情報発信したのは5/3 21:15以降で、それを見てNMBヲタを始めとしたAKBGファンが集まったと考えるのであれば、その直後にすぐさま動きがあったとしてもそのコメントに反応した参加者は22:00ぐらいまでにその多くが集中するはずである。少しでも早く追いつこうとしていたと考えられる上西側での参加者が22:00以降に徐々に増える理由は見つからない。いわゆる特定の目的で集まる人は、ある特定の時間帯に集中するはずだという、あえて統計学的に考えなくても常識の範囲内で十分理解できるのではないだろうか。

ちょっと上西氏の発信がこちらの予想したメッセージ発信のタイミングと合いすぎていたので、ここでの予想もそれほど間違ってはいないと確信できた。

 2016/5/25追記

上西の2015/5/3 21:05〜23:00のデータ変動に関する詳細な統計的検定結果については上西恵:最終日データ検討の章に記してあります。


トップ アイコントップへ戻る


直線上に配置