上西恵:最終日データ検討 上西の最終日のデータ変動に関して、ここまでに検討してきたNMBメンバーの実現可能とされる最大ウォッチ数と比較してどの様な推移だったかを検討してみる。なお、上西の最終日のデータを検討するに際し、NMBヲタ全体の最大増分値を算出した際に計算された平均:125,967(μ)と標準偏差:27,849(σ)を使い実際の測定値と比較してみた(NMB:グループ最大値予測の章参照)。表中の水色に塗った値はμ+2σを超えた値、青く塗った値はμ+3σを超えた値を示している。 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
実測値と予想値 左の実測値は実際に上西のウォッチデータの動きから算出した増分値(5分毎のウォッチ数の増加量)を表したものであり、予想値は各時間帯における機械的に発生させたと推定される増分値を差し引いたものである(詳しくは上西データの真実の章を参照)。 ここで注目してほしいのはNMBヲタの最大増分値を算定したときの平均:125,967と標準偏差:27,849(NMB:グループ最大値予測の章参照)と、予想値(時間別ウォッチ数内訳(推論値)の章参照)から計算された平均:128,794と標準偏差:34,877とが非常に近い値になっているという点である。全く違うアプローチをして取得した結果がこれだけ近い数字として現れているということは、NMBヲタ全体の最大値として算出した最大増分予想値はかなり正確なものだと考えてよいだろう。 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
実績値および予想値の検定 まず先に予想値について検定すると、NMBヲタの最大増分値を算出したときの平均:125,967(μ)と標準偏差:27,849(σ)で検定した場合、μ+2σを超えている値が22:00に発生している。22:00に発生している196,852の累積分布関数をμ、σを使って計算すると0.994541となる。従って1%有意差で検定すると0.994541 > 0.99なので196,852がNMBヲタだけで実施できていたという仮説は棄却される。では、1%有意差で確認できる限界値はどの程度かというと、これはNMBヲタの実行できる最大値として求められた190,754である。従ってその差は6,000程度ということになり、この差は22:00という時間帯から発生した事を考えると、当時積極的にNMBメンバーがSNSツールで呼びかけをしていたことにより、NMBヲタ以外からの参加者が発生した影響と考えてもおかしな事ではない。つまり予想値における最大値がNMBヲタの最大増分値を超えていても、それはSNSツールによる呼びかけの結果、自然発生的に集まった参加者によって発生した一時的な増加と、毎時50分から発生しているNMBヲタによる集中タイムによる加算分との合計と考えれば決して不自然は値とは言えないということである。 また、23:55における220,875という値はμ+3σを超えた値となっており、これはいずれのメンバーにも起きている最終日の終了間際に発生した現象と考えるべき事だと思われる。特に上西の場合、最終日の最終時間帯には11:30頃の大きな差をつけられていた古畑を追い越しているため、その時間近辺にはNMBヲタ以外の様々なAKBGファンがウォッチバトルに参加していた可能性が高い。従って最後の終了間際に通常のNMBヲタ以外の大きな動きがあったとしてもおかしな事とは言えないだろう。 上西の実測値データをμ、σを用いて検討すると21:40以降の値は全てμ+3σより大きな値が続いている。μ+3σの値はその母集団の両側検定で99.7%、片側検定なら99.85%の位置を示すことが知られているから、1%有意差で検定しても21:40以降の値はいずれの値もNMBヲタのみでウォッチできる可能性は棄却されることになる。 1%有意差で棄却されるデータがこれだけ長時間続いているのだから、これらのデータはまったく違う母集団によって作成されたデータだと考えられる。もしこのデータが人の手によってもたらされてとすると、23時台の増分値はNMBヲタの最大値の2.4倍から3.1倍のウォッチ数の上乗せがあったということになる。もしそのようなことがあれば多くの自然発生的な参加者増の痕跡が見つけられるはずである。しかし、今までにそうした動きがあったと確認できるようなものは見つかっていない。単に数字だけがほぼ直線的に増えていたという事実しかない。 |
5月2日(実測値)、および5月3日(予想値、実測値)のヒストグラム | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
上西の5月2日:実測値、5月3日:予想値、実測値のヒストグラムを表したものが左のグラフである。5月2日 21:00〜24:00の実測値の平均は30,690、5月3日
21:00〜24:00予想値の平均は128,794となっている。左のグラフを見ると確かに5月2日:実測値のヒストグラムでは25,000〜30,000のデータ範囲が一番頻度が高くピークとなっており、平均付近のデータが非常に多いことがわかる。 基本的に正規分布の母集団では平均付近のデータが一番多く、それを中心に左右対称に少しずつデータが減っていく。そういう点では上西の5月2日:実測値は正規分布であることが十分推測される。 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
それに比較すると5月3日の予想値データに関しては、予想値はあくまで計算によるものではあるが、平均:128,794付近の110,001〜120,000、120,001〜130,000のデータ区間が一番ピークとなっておりそこから右側が少しずつ減っている。左側データ区間は大きく減っているが、平均値付近が一番のピークになっているという点では正規分布の可能性が十分推測される。 なお、予想値(21:05〜24:00)に関して正規性検定ツールを用い、有意水準5%のD'Agostino and Pearson検定(K2検定)で検定したところ、p値=0.4559 > 0.05となり高い確率で「正規分布の可能性がある」という結果になっている。 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
上記の2つのデータ集団に比べ、5月3日の21:00〜24:00の実測値データは平均値は446,336付近となるが、ヒストグラムを見ると400,001〜450,000のデータ件数は頻度が2となっており決して多くない。というよりどちらかというとかなり少ないグループになる。ちなみに21:00〜24:00までのデータを正規性検定ツールで検定すると正規分布の可能性が見られるという結果になった。 当然と言えば当然のことなのだが、実はPCで自動的に作成されたと考えた増分値自体が等差級数や等比級数の組み合わせのため、そうしたデータが加算されていたら正規性を持ってしまう。したがって650,001〜700,000の階級をピークにした正規性を持つ形として認識されたのであろう。 しかし、明らかに上の二つのグラフと比べ、平均値の発生する階級がピークとなっている階級よりはるかに頻度が小さい点など、そのデータ分布形態には上記2グループとは著しい違いが発生している。 念のため、上西の最終日のデータのうち、18:05〜21:00と21:05〜24:00の2区間においてF検定、t検定で検定してみた(データは最終日(5月3日18:00〜24:00)の章を参照)。 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
データ分析ツールでF検定すると、P(F<=f) = 3.58188E-34 となった。 2倍にして両側検定しても7.16376E-34となり、当然のことながら 7.16376E-34 < 0.01であるので、この二つのデータ区間が同じ母分散だという仮説は棄却される。つまり、18:05〜21:00までのデータと21:05以降のデータは、全く別の母分散だということになる。 |
左記のF検定で等分散でないということがわかったので、その前提でt検定を行ったのが上記結果である。 データ分析ツールでt検定すると、P(T<=t)両側 = 4.33434E-13となった。4.33434/10の13乗 = 4.33434/10,000,000,000,000 = 4.9861/10兆 当然のことながら4.33434E-13 < 0.01であり、棄却域を1%(0.01)としたとき,この二つのデータ区間が同じ母集団だという仮説は棄却される。 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
以上の結果からも単に目視での印象だけでなく、数字的にも18:05〜21:00の間の母集団と21:05〜24:00の母集団は全く違うものであり、その集団としてのデータの動きが違うことが数値化して検証されたことになる。 |
21:05〜24:00のデータの異常性 それでは5/3:21:05以降の上西のデータ変動に関してどの様な特徴があるかを数字的に検証してみる。ここで比較検討するのは21:05〜23:00のデータに関してのみとする。この時間帯のデータは常に増え続けており、参加者が増加したことを推測させるが、23:05〜24:00のデータに関してはデータの変動が少なく、何らかの理由で一定のウォッチ数で推移していたと考えられる。したがってこのデータ変動が大きい21:05〜23:00時間帯における増加量が、果たして自然増によるウォッチ数上昇だったかという点が一番のポイントになる。この時間帯を21:05〜22:00と22:05〜23:00の二つのグループに分け、それをF検定、t検定したのが下の結果である。 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
上記検証結果を見るとP(F<=f)片側 = 0.264266363 となり非常に高い値になっている。P(F<=f)両側(P(F<=f)片側の2倍)は0.5以上になっており、通常0.05を超えれば「5%有意水準で同一母分散でない」とは言えない(同一の分散の可能性がある)が、その10倍以上という明らかに分散の一致を示す大きな値になっている。二つのグループの平均値が192,787と472,744と2倍以上違う集団でこれほど高い確率での分散の一致が見られることは自然発生的には極めて珍しいことと言わざるを得ない。この2つの母集団で等分散を仮定したt検定を行うと、その結果はP(T<=t)
両側=2.07144E-06<0.01となり、二つの母集団は「1%有意水準で同一母集団の仮説は棄却される」ということになる。 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
F検定の結果が何を意味するのかわからない人もいるかもしれないが、具体例を出して言えば10から200までの値を10ずつ増加させ、一方をA:10〜100、もう一方をB:110〜200として二つのグループに分けてその分散を検討してみる。機械的に10ずつ増加させている二つのグループをF検定をすると、グループAは平均:55、グループBは平均:155となり、P(F<=f)
片側=0.5となっている。P(F<=f) 両側で検定する場合はP(F<=f) 片側の値を2倍すれば良い。つまりP(F<=f)両側が1に近づけば近づくほど双方のグループのデータのバラツキが一致しており、より分散の同一性が高いことを示す結果になる。 このように一定量を人工的に増加させた母集団同士をF検定手法を用いて検定すると分散の同一性が見られる。F検定というのはこうしてデータのバラツキ具合を見て、その二つの母集団の分散に同一性があるかどうかを検討し、その同一性によって2つのグループが同じ要素から成り立っているかどうかを検討する基礎データになる。しかしながら分散が一致していても平均値が全く違うグループでは同一母集団とは言えず、それを検証するためにt検定を行い同一性をチェックするわけである。ちなみにグループAとグループBで等分散を仮定したt検定を行うと、P(T<=t) 両側=7.5031E-7<0.01となり、1%有意水準で同一母集団という仮説は棄却される。 当然のことだが、平均値が似通っており尚且つ分散にも同一性があれば、検定結果としても同じ母集団と判断されるのが通常である。 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
上西の21:05〜23:00のデータをF検定、t検定を用い検証したところ、上西データの変数1、変数2の二つのグループは分散は非常に似ているけれど、母集団としては全く違うものだという結果になった。当り前と言えば当り前だが、21:05〜23:00の間は増分値(5分間当たりのウォッチ数)が増え続け、数字的には参加者数が大幅に増加しているように見える。したがってこれが同じ母集団であるということは難しい。にもかかわらず分散がこれほど似通っていること自体、これが自然発生的に集まってきた集団と判断するには無理がある。通常自然発生的に参加人数が増えればそれに伴ってデータのバラツキも大きくなる。同じ動作を100人で行うときと、その行動を1,000人で同時に行うときとで失敗する数がほとんど同じになる事はあり得ない。携わる人間が多くなればそれに伴い失敗する件数も多くなるのが普通である。 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
上西 5/3 21:00〜23:00
|
上西 5/3 15:00〜17:00
|
小谷 5/6 21:00〜23:00
|
太田 5/6 21:00〜23:00
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
上記の表は上西の5/3:21:05〜23:00の間の変動(増分-直前5分増分)と変動率(変動/直前5分増分)と、その比較対象として上西の同日:15:05〜17:00、同じくNMBメンバーである小谷、太田の最終日(5/6)の21:05〜23:00の間の変動と変動率を計算したものであるが、上西の21:05〜23:00の変動と変動率の推移には他の時間や他のメンバーと違い、大きな特徴があることがわかる。上西のこの時間帯(21:05〜23:00)の変動の平均値を取るとその値は25,261となる。本来、変動の平均を取ることはあまり意味が無い。他の時間帯や他のメンバーの値を見ればわかるが、一般的には一時的にウォッチ数が増加することはあってその間変動はプラスの値で推移するが、その後は増分値の減少が発生して変動はマイナスの値となるのが普通で、変動の平均はトータル的にはゼロに近い数字になるのが一般的である。これは人手による作業の特徴的なもので、一時的な頑張りによって短時間の作業量が増加することがあってもその後作業量が減少することを示している。上西の他の時間帯や他のメンバーの変動推移を見ると、変動は15分〜20分間程度プラスの値で推移していても、その後マイナスの値が発生していることが確認できる。どの時間帯を切り取るのかによって多少のズレはあるが、一定時間内の変動の平均を取るとプラスマイナス1,000以内に収まっていることが多い。上記表のデータで小谷に平均値が1,115となっているが、これは終了1時間前の23:00頃にに20,000/5分ほど急増した増分値によって変動平均値を押し上げた形となっている。ウォッチバトル終了前の1時間〜30分程度の間、増分値が大きく上昇する傾向は多くのメンバーで見られる現象になっている(BOMBウォッチデータ(0506)の章参照)。 しかしながら、上西の上記の時間帯(21:05〜23:00)では、変動の平均値が25,261と非常に高い値になっている。これは5分ごとに平均25,261/5分ずつウォッチ数が連続して増えているということになり、200/5分・台でのウォッチ活動が可能だと仮定すると、ウォッチ活動に参加する端末が5分毎に100台以上増え続けていたということを示す。その上、21:05〜22:00、22:05〜23:00の2区間のF検定を行った結果を見ても、その増加傾向は2区間の間で非常に似通っていることが検証された。上記の表を見てもこの時間帯では変動が20,000〜40,000程度で推移している時間帯が多いのがわかる。上西の15:05〜17:00の間の変動は平均値を基準にしてプラスマイナス1,500程度、小谷、太田の21:05〜23:00の間の変動は、それぞれの平均値を基準にしてプラスマイナス7,800、6,500程度の幅で多くの値が含まれている。この時間の増分値の平均は小谷が62,634、太田が50,434となっており、増分値の増加に伴って変動の幅も大きくなる傾向があることがわかる。 上西の15:05〜17:00の時間帯に関しては他の時間帯に比べ変動幅が小さい(最終日(5月3日 12:00〜18:00)の章を参照。増分値に対する変動が少ない理由は後述)ことがわかっている。そのため最終日の21:05〜23::00の間の上西の増分値と同時間帯の小谷、太田との増分値とでは2〜3倍程度の違いが発生している状況なのに、それに対する変動幅の差違は上西のものに対して小谷、太田の変動幅が4〜5倍と大きな差になっている。 そうした変化と比較すると上西の21:05〜23:00の間は最初と最後を比較すると増分値が10倍近く増えているのに、変動に関しては大きな変化がない。上西の変動に関しての平均と標準偏差を計算すると、21:05〜22:00は平均:23,709、標準偏差:20,122となっているのに対し、22:05〜23:00が平均:26,813、標準偏差:34,143となり、増分値は21:05が68,567で23:00が684,562と10倍程度に増えているのに、変動幅は2倍にもなっていないという非常にまれな状況になっていることがわかる。 21:05〜22:00、22:05〜23:00の2区間は変動の値自体は非常に似ているが、変動率を見ると21:05〜22:00と22:05〜23:00では大きな違いが発生している。当り前のことだが直前5分前増分値が大きく変化しているわけだから、変動の値が同じレベルであれば分母となる増分値が高くなれば必然的に変動率は低い値になる。21:05〜22:00においては変動率が10%を超える時間帯が8回あったが、22:05〜23:00では2回しかない。21:05〜22:00の1時間を見ると変動率が20%を超えるタイミングが5回もある。にもかかわらず変動率がマイナスになるのは22:05の1回しか発生していない。 ウォッチ活動という単純作業で考えれば、人数が多くなればそれに伴い途中で休憩してスピードが落ちたり作業を中断してしまう人間も増えると考えられる。例えば、100人でウォッチ活動をやっている状況で1人がスピードを落としたり途中で辞めてしまったら、同じウォッチ数を維持するには残りの99人がその減少分を補う行動をしなければならない。2人なら98人で、3人なら97人で挽回する必要がある。同じウォッチ数を維持するのにもそれぐらい大変だから、実際に直前値を上回る増分値になる場合には数字上の増加分以上の参加者が増えたと考えるのが妥当であろう。そうした難しい現象にもかかわらず、5分前値より2割も3割も増分値が増えている時間帯が20分間も連続している状況が上西のデータから確認できる。しかし、こうした現象が他のメンバーや上西自身の他の時間帯で発生している状況は見られない。このような作業を大人数でやっていて参加者が1,000人の時も3,000人の時も増減の幅が一定量で推移するということは通常考えにくい。大勢の人間が参加すればその分一定時間内での増加減少の幅も大きくなるのが普通である。通常、大きな値の増加が発生するときにはある時間帯だけ瞬間的に大きく変動するが、その後の変動は小さくなるかマイナスの値になるのが一般的な動きである。 上西のデータからは21:00頃にはおよそ70,000程度だった増分値が23:00頃には700,000程度に増えている。10倍近くに値が増えるているのにその間のデータ変動でバラツキに大きな変化がないということは普通はあり得ない。大勢の参加者が作業をしていたとすれば、当然その人数に比例する形でデータの変化も大きくなり、分散を計算すればその値も大きくなる。増分値(5分間当たりのウォッチ数)が10倍程度に増えているのに分散の値が近似しているということは、自然な参加者増ではなく何らかの理由により分散がより似通ったものになったと考えた方が理解しやすい。単純に考えて、もしウォッチ活動参加者がほぼ同程度の人数で推移しており、別の理由で自動的に数字だけが増えていたとしたら、人的作業によるデータのバラツキは同じように推移する可能性が高いということは間違いなく言える。 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
F検定による検証の比較対照として上西のデータのうち5/3:12:00〜18:00のデータを用いて、各一時間毎のデータを母集団として直近の母集団同士を比較しF検定を行ってみた(データに関しては最終日(5月3日 12:00〜18:00)の章を参照)。 5/3の12:05〜18:00の間のデータに関する度数分布及びヒストグラムは左記の通りであり、正規性検定ツールを用い、有意水準5%のD'Agostino and Pearson検定(K2検定)で検定したところ、p値=0.3203 > 0.05となり「正規分布の可能性がある」という結果になっている。ということは、この時間帯では極端に大きなデータ変動がなく、一定の幅の範囲内で自然発生的なデータの増減になっていた可能性が高かったことを示している。 一般的に考えれば直近の1時間毎のデータでは、急激に参加者が増えるなどしてよほど大きな変化が見られない限り、一時的な数字の上昇が見られたとしても同じ母分散となる可能性が高い。この時間帯は連休中で握手会が開催されていたということもあり、実際に手動でウォッチ活動をしていた参加者はそれほど多くなく、そのため増分値の増減は大きくならなかったものと思われる。 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
この時間帯のデータは「時間帯別平均と標準偏差の推移(UTB)」の章で確認しているように、平均値に対しての標準偏差の比率が低く、非常にデータのバラツキが少ない時間帯だということがわかっている。このバラツキが少ないというのは増分値が平均値付近から大きく変化することなく推移しているということを示し、言い換えれば平均的なウォッチ数のうち、かなりの割合でマクロ化した端末が稼働しており、一定のスピードで自動的にウォッチ活動を行っている端末の割合が高いことを意味する。しかし逆に増分値の平均が低い時間帯は、一人の参加者がウォッチ活動に始めたり途中でやめたりしても大きな変化となるので、人手による参加者の割合が低いことににより数人の参加者が増減することにより分散比は高くなることもあり得る。 そのような時間帯においても、直近の1時間毎の母集団を比較しF検定を行うと、P(F<=f) 片側がおよそ0.0456〜0.1919程度の範囲内の値をとっていた。2倍にしてP(F<=f) 両側の値を計算しても最大値となっているのは15:05〜17:00の時間帯で、その時のP(F<=f) 両側は0.4程度である。5/3:12:05〜17:00の間の増分値の平均は15,000〜20,000/5分程度で推移しており、それほど大きく変化しているわけではない。つまり参加者に大きな増減が発生している状況ではないということになる。 それに比べ、21:05〜23:00の増分値に関しては前半と後半の各一時間の平均は192,787と472,744と2倍以上の違いが発生している。にもかかわらずF検定を行うとP(F<=f)片側 =0.264266363となり、P(F<=f)両側は0.5を超える値になっている。つまりこれは単位時間当たりの平均値は倍以上に変化しているが、極めて高い確率でデータのバラツキが類似していることを示す状況になっており、母分散の同一性が見られることを表わしている。参加者の増減がほとんど発生していないと推測される12:05〜17:00の間のF検定結果と比較しても、21:05〜23:00間のF検定結果からは22:00を基準にしてその前後で高い確率での分散の一致が発生していることがわかった。 |
5/2及び5/3における18:05〜23:00間のデータ変動に関する検証 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
左の表は上西の5/2,5/3における18:00〜23:00の増分値(5分間当たりのウォッチ数)の推移を表わしたたものである。ウォッチバトルの最終日(5/3)とその前日(5/2)に当たるわけだが、日付が違えど時間帯によってウォッチ数の変化が特徴的だということとがわかる。各時間帯において1時間毎の分散の変化について検討し、大幅にデータの増加のあった5/3
21:00〜23:00の間のデータ推移の異常性について検討してみる。 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
18:05〜20:00の間のデータ推移は両日とも大きな変動はない。この時間帯は5/2,5/3ともに平均値に対する標準偏差の比率が11〜15%と非常に低く、データのバラツキがほとんど発生していないことがわかる。 この時間帯におけるF検定を行った結果のP(F<f)片側=0.131649467(5/2)、0.455420244(5/3)となっており、P(F<f)両側にいたっては、その2倍となるので約0.26と約0.92となり、いずれも0.05より大きな値となって、十分分散の同一性が確認できる。 特に5/3においてはP(F<f)両側が約0.92と1に近似しており完全一致に近い状況で、この時間帯では参加者の増減がなくおよそ2時間の間ウォッチ数は平均値レベルで推移して、ウォッチ活動への参加者や利用端末数はほとんど変化はなかったものと推測される。 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
5/2,5/3両日とも19:05〜21:00の時間帯に於ける増分値の変動は、20:00を境にして大きな違いが発生している。基本的に20:00までは参加者の増減はそれほど大きくはないが、両日とも20:20を過ぎたあたりから参加者の増加が見られ、増分値が大きく変化している。これは上西ヲタたちが毎時20分と50分に集中タイムを実施しており、特に20時台の参加者が集まりやすい時間帯に、その効果が大きく表れた結果だと考えられる。 こうした点を考慮し、5/2.5/3両日の19:05〜21:00の間のデータを正規性検定ツールを用い、有意水準5%のD'Agostino and Pearson検定(K2検定)で検定したところ、p値=0.0005 < 0.05となり「正規分布ではない」という結果になった。つまりこの時間帯では急激な参加者増(もしくは端末増)などがあり、この間のデータ変動が自然発生的なデータのバラツキとは言えない状況にあったということになる。 正規分布とは言えないデータであれば、F検定による分散の同一性を確認することは出来ない。したがってF検定によってこの時間帯の分散を比較するとP(F<=f) 片側=8.92992E-11(5/2)、1.28808E-07(5/3)と0.005を大きく下回っており、5/2,5/3両日ともに19時台と20時台では等分散であることを否定される結果になっている。その結果は標準偏差にも表れ(標準偏差は分散の平方根になる)、19時台では標準偏差が平均値の11〜12%程度だったものが、20時台では40〜50%程度に上昇しており、5/2,5/3ともにウォッチ数の増加によるデータのバラツキが発生していることがわかる。 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
20:05〜22:00の時間帯に関しては5/2と5/3で大きな違いが発生している。5/2は変数1(20:05〜21:00)の1時間の増分値に関しては大きな変化が発生しているが、21:05が41,563/5分、22:00が41,493/5分とほとんど変化がなく、それ以外の時間帯はさらに低い値となっている。こうした動きから見ると、変数1の時間帯で急上昇したウォッチ数が一旦停滞し、また元に戻ったという状況だったことがわかる。 それに対して5/3は21:05が68,567/5分、22:00が362,811/5分と変数1(20:05〜21:00)の時間帯で参加者が急激に増加していた状況が、変数2(21:05〜22:00)の時間帯になってもそのまま継続していたように見られる。その結果は分散や標準偏差にも表れており、変数2の時間帯に於いて5/2では標準偏差比率が15%程度に落ち込んでいるのに、5/3では50%程度と引き続き高い比率となって、増分値に大きなバラツキが発生していることがわかる。念のため、5/2.5/3両日の20:05〜22:00の間のデータを正規性検定ツールを用い、有意水準5%のD'Agostino and Pearson検定(K2検定)で検定したところ、5/2がp値=0.8842 > 0.05、5/3がp値=0.0739 > 0.05となり、いずれも「正規分布の可能性がある」という結果になった。但し、5/3の結果はp値=0.0739と0.05をわずかに上回るものだったが、5/2はp値=0.8842と非常に高い確率で正規分布の可能性を示している。 F検定による結果は5/2,5/3ともに等分散と言えるものではなかったが、それぞれに於いてその差が出ている理由には違いがある。5/2においては変数1の時間帯には大きな動きがあり増分値のバラツキも大きいが、変数2の時間帯はそれほど大きな変化が発生しておらずバラツキは小さくなっている。しかし5/3においては変数1の時間帯の増分値のバラツキは大きいが、変数2の時間帯は増分値がさらに大きく増加し続けており、平均値、バラツキ共に変数1の時間帯より大きなものになり、それに応じて分散も大きくなって、平均値、標準偏差共に変数1の時間帯の4倍以上の値になっている。この違いは観測された分散比に表れ、5/2では変数2に対する変数1の比が7.44と変数1の値のほうがはるかに大きいが、5/3においてはその分散比が0.0356程度と変数2のほうが大きな値になっている。こうした状況を見ると5/2,5/3は変数1,変数2の集団はそれぞれ別の理由で等分散であることを否定される結果に至ったものだったということがわかる。 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
このページの最初にも記載しているが、左の表の実測値は上西のウォッチデータの動きから算出した増分値(5分毎のウォッチ数の増加量)であり、予想値は各時間帯における機械的に発生させたと推定される増分値を差し引いたものである(詳しくは上西データの真実の章を参照)。ここまでの最終日前日(5/2)や最終日(5/3)の21:00以前のF検定の結果を考慮し、5/3の21:00〜23:00とを比較検討してみる。 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
再度、21:05〜23:00の実測値を用いてF検定した結果を上記に提示しておくが、ここで変数1(21:05〜22:00)、変数2(22:05〜23:00)の時間帯では平均値は2倍以上の増加になっており、その差は279,957/5分となっている。もしこれらの値の増加が、多くの参加者が短時間で集まった事による自然増だと考えた場合、端末1台での平均的なウォッチ数を200/5分程度だと仮定すると、その増加数は約1,400台/5分程度あったものと考えられる。 変数1と変数2の時間帯を比較して、平均値が2倍程度に増えている状況というのが非常に興味深い。変数1の時間帯では68,567/5分(21:05)→362,811/5分(22:00)と、この一時間で約5.3倍程度に上昇し、5分間当たりのウォッチ数が急激に増えているという印象がある。ところが変数2の時間帯に関しては308,880/5分(21:05)→684,562/5分(23:00)と約2.2倍と、伸び率から考えると急激な上昇には見えない。しかしながら増加量自体を考えると、21時台が294,244/5分で22時台が375,682/5分と22時台のほうが増加量は多い。 同じ増加量でも70,000/5分の状況から増加するのと、既に300,000/5分ものウォッチ数が発生させる参加者がいる状況から増加するのではまるで意味が違う。前者は1台当たり200/5分のウォッチを前提として考えた場合、およそ350人が参加していることになる。他方後者はおよそ1,500人が参加していることになる。同じ増加量でも前者は350人がずっと同じペースで維持しながら、それの加えてさらに300,000/5分ものウォッチ数が増えており、後者はその約4倍となる1,500人がずっと同じペースを維持しながら、そこから380,000/5分程度増えたということになる。 通常、一人の人間が単純作業を長時間継続することは難しい。人間がやっている以上長時間の同一作業に於いてはその作業量にはバラツキが発生し、増減を繰り返すようになるのが自然である。参加者が多くなればその増減の幅はさらに大きくなり、データの変動量が大きくなるのが普通だと考えられる。そうしたことが数字的な結果として反映されるのが統計的な分散や標準偏差の値になる。 にもかかわらず、変数1と変数2の時間帯を比較すると、標準偏差は96,730→117,556と約2割程度しか変化していない。今までの上西の前日のデータや他の時間帯のものでF検定した結果から見ても、平均値が大幅に上昇した場合、その時のデータの分散はそれに連動して大幅に増加し、結果として標準偏差も影響する形になっている。特に20:05〜21:00の時間帯は5/2,5/3ともに大幅にデータの増加が見られ、その前の1時間と比較すると、平均値と分散(標準偏差を含め)の変化量の違いは歴然としている。 自然増で大幅なデータ増加が発生した場合、分散に影響が出ないということは考えにくい。増分値が68,567/5分(21:05)→362,811/5分(22:00)→684,562/5分(23:00)と大幅な増加が見られる状況で、平均値が大きく違う2つの母集団のF検定を行った結果が等分散になるような変化は通常は考えられない。特に左記のF検定による結果のように、P(F<=f)片側=0.264266363という高い確率で分散の一致が見られることは、自然発生的にはあり得ないと言える。 こういった点から見ても上西の、5/3 22:05〜23:00のデータ変動が、多くの参加者が集まった事による自然増による結果だったと言うには、あまりにも不自然であると言わざるを得ない。 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
ここで予想値を用いてF検定した結果を上記に提示しておく。予想値の平均値は変数1(21:05〜22:00)の時間帯と変数2(22:05〜23:00)の時間帯では、その差は増加量:21,506となっており、端末1台での平均的なウォッチ数が200/5分程度だと仮定すると、平均で107台/5分程度増加したと考えられる。 あくまで推測を元にした仮定の数字ではあるが、ウォッチ数の変化は22:00頃をピークに増加し続け、その増加の影響が22:25まで継続し、最大値のレベルでの値から増減しながら23:00頃まで推移している。21:30〜22:00の間では急激なウォッチ数の増加が見られ、上西自身が急激なウォッチ数の伸びに気づき、SNSで支援を依頼するメッセージを発したのが21:17だということから考えて、上西自身及びNMBメンバーの発信による影響が参加者の増加に1時間程度の間効果を表わしていたと仮定した結果である。 この結果を基にしてF検定すると、その分析結果に関しては上西の5/2 20:05〜21:00、21:05〜22:00の間の動きに非常に酷似している。つまり、一旦何らかの働きかけがあると短時間でピークを発生させるような参加者が集まる時間帯が発生し、その後その最大値近辺の値を暫く維持し続けることより平均値は若干増加するが、分散は大幅に減少している。F検定による検証ではP(F<=f)片側=0.000537789となり、等分散を否定する結果となった。毎時50分頃を中心に集中タイムを実施していた上西のところでは、最終日以外でもこのように一旦急上昇した増分値がその後減少したり、増加した値付近で推移する状況が頻繁に見られた(平均と標準偏差:上西恵の章参照)。 5/3の21:05〜23:00の間における上西の実際のウォッチ数の増加分がこうした動きであったのではないかという仮定は、他の時間帯のデータの動きから見ても決して不自然だとは言えない。むしろ実測値の不自然な分散の一致を目の当たりにすると、実測値はこの予想値のようなデータ変動に、機械的な定量的データ加算があったと考えた方が妥当だと言える。 ちなみにあくまで仮定の値ではあるが、予想値に対して、21:10〜21:35の間では21:10に初期値15,000/5分として、5分ごとに15,000/5分ずつ増加した値を予想値に加算し、21:40〜23:00にかけては21:40に初期値100,000/5分として、それを5分ごとに直前値の1.11倍した値を予想値に機械的加算するとほぼ実測値に近い値になる。 さらに、予想値(21:05〜23:00)を正規性検定ツールを用い、有意水準5%のD'Agostino and Pearson検定(K2検定)で検定したところ、p値=0.8404 > 0.05となり高い確率で「正規分布の可能性がある」という結果になった。 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
まとめ | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
以上のヒストグラムや検定結果から考えて、上西の21:05以降のデータは前日及び当日の21:00以前のものと比べ、全く別の母集団によるものと考えられる。上にも述べたようにその母集団となる増分値の増加が本当に人手によってもたらされたものであれば、その増加分をみるとそれだけでもそれまでのNMBヲタ全体でウォッチしていた増分値の2.4倍から3.1倍程度増やすことができるほどの人数が参加したということを意味する。仮にHKTヲタの協力を得ることが出来て、その多くが21:00以降に参加していたとしても、21:00時点ではHKTヲタの多くはまだウォッチバトルが終了していないHKT:穴井のウォッチ活動に参加していたはずである。穴井のデータ推移を確認すると増分値が21:00以降ピーク時で54,000/5分程度、終了間際の23:50頃でも17,450/5分を記録している。どれだけHKTヲタの上西への協力があっても、最大の増援分はせいぜい穴井のウォッチ数で40,000/5分程度であろう。その増分値の半分程度がリトークタップの出来るAndroid端末だったと仮定して、リトークタップによる上西側での作業量を穴井の時の5割増しで計算しても、増援分の最大値はせいぜい50,000/5分(20,000+20,000×1.5)程度しか考えられない。NMBヲタの最大値とHKTヲタの最大値を合算しても240,000/5分程度にしかならず、700,000/5分程度となっている実測値には遠く及ばない。 もし残りの増加量:500,000/5分程度がSNSなどの呼びかけによって自然増での増加分であったら、データ変動や分散などにもそれの増加量に伴った大きなバラツキや変化が見られるはずだが、どこにもそうした多くの参加者が自然に増えたと考えられるデータ変動をしめす痕跡は見つけられない。と言うより21:05〜23:00をデータ検定すると、他の時間帯と比較してもあまりにも不自然に分散が一致する定量的なデータ増加となっている。F検定を行った結果としてもこの分散が非常に似通っていることが検証できた。こうしたバラツキが似通っているという検証結果から考えても、21:00以降のデータ増加は一部は自然増による参加者増があったとしても、それを遙かに上回る機械的な手法によって定量的なウォッチ数の加算があったと考えたほうが極めて蓋然性が高いと言える。 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
前へ | トップへ戻る |