まだプログラマーですが何か?

プログラマーネタ中心。たまに作成したウェブサービス関連の話も https://twitter.com/dotnsf

タグ:analytics

最近は少子化の影響で事情が少し違うかもしれませんが、自分が中高生だった頃の1クラスはおよそ40~45人でした。そしてクラスには「班」という制度?があり、クラスの中をいくつかのグループに分けて活動することが多くありました。自分の場合は1つの班に5~7人が割り当てられていたと記憶しています。

班は便利です。例えば掃除などのローテーションを行う単位になったり、ちょっとしたグループディスカッションを行う場合のグループになったりします。 これをあらかじめ決めておくことでグループ分けの時間が必要なくなるので先生としても便利だったと思っています。

が、1つわからなかったのが「何故1クラスは40人前後なのか?」、そして「何故1つの班は5~7人程度で構成するのか?」でした。ずっと疑問に思っていたわけではなく、まあそういうものだったんだろう、、という程度に考えていましたが、改めて考えると統一する理由はあまりないと思ってます。 ましてや1クラスの人数は(学校によって担任の負担が変わらないように、とかの理由で)わからなくもないけど、班の人数を決める必要性がどこにあるのか、別に3人でも4人でもいいと思うし、3人の班や7人の班が混在していてもいいのでは?? と考えていました。例えば仲のいい5人組とかがいて、その中にもう1人入っていくのはお互い嫌な気分とかにならないのかな・・・と。それでも班の人数を固定する理由があるのか・・・という感じでした。

ところが、これは統計を勉強するようになって気付きました。「理想を言えば1クラスは42~3人、1班は6~7人がいい」のです。適当な数字ではなかった、ということです。


この秘密の鍵は「正規分布」「標準偏差」にあります。

「正規分布」は「平均値に近いほどそのサンプル数が多くなるような連続した確率の分布」のことです。わかりやすく言えばテストの得点が横軸、その点を取った人の人数が縦軸になるようなグラフを書いた時にこんな感じになるような分布のことです(この例だと平均点は50点あたりで一番多く、そこから離れるにしたがって人数が減っていくような分布):
Standard_tscore

学力テストなどでは、例えば全国模試など充分な数の受験生がいるような試験ではその結果は正規分布になります。精度が少し荒くはなりますが、1つの学校内での模擬試験などでも正規分布として考えることが多いです。

そして「標準偏差」。受験ではよく聞く「偏差値」というキーワードを耳にすると思いますが、「標準偏差」は偏差値と大きな関わりがあります。「標準偏差」は「バラつき度合い」を示すものです。要はグラフの形は上記のようになるけど、平均点付近にかなり固まっているのか、あるいは0点から100点までそれなりにバラついているのか、という数値の指標になるものです。標準偏差そのものはエクセルを使って簡単に(STDEV関数で)求めることが出来ます。

で、日本の受験で用いられる学力偏差値では標準偏差1を偏差値10とみなし、以下のような関係が成立します:
 ・平均点を偏差値50とする
 ・平均点よりも標準偏差1つぶん多い点数を偏差値60とする
 ・平均点よりも標準偏差2つぶん多い点数を偏差値70とする
   :
 ・平均点よりも標準偏差1つぶん少ない点数を偏差値40とする
 ・平均点よりも標準偏差2つぶん少ない点数を偏差値30とする
   :

要は、各個人の得点が平均点と比べて標準偏差いくつ分離れているのか?を数値化したものが偏差値なのです。

そして成績の分布が正規分布だった場合、偏差値にはおおまかに以下の関係が成立します:
 ・偏差値60以上は全体の15.6%(6~7人に一人
 ・偏差値70以上は全体の2.275%(43~4人に一人
 ・偏差値80以上は全体の0.135%(約740人に一人)
   :
 ・偏差値40以下は全体の15.6%(6~7人に一人
 ・偏差値30以下は全体の2.275%(43~4人に一人
 ・偏差値20以下は全体の0.135%(約740人に一人)
   :

言い方を変えると、
 ・偏差値60以上は班に一人、
 ・偏差値70以上はクラスに一人、
 ・偏差値40以下は班に一人、
 ・偏差値30以下はクラスに一人、
   :
言えるようにするには、1クラスを43~4人、1班を6~7人で構成するのが理想、という表現もできることになります。

さすがに1学年で740人というマンモス校は珍しいと思いますが、2つの学校の同学年を足すとこのくらいになることはあると思います。その場合は「偏差値80以上と、偏差値20以下は2つの学校で一人ずつ」とも言えますね。


これが本当にクラス編成、班分けの理由かどうかはわかりませんし、試験結果は必ずしも正規分布にならないこともあります。でも6~7人のグループや40数名のグループが集められることがあったら、それは統計目的でグルーピングされている可能性もある、のかも。 少なくとも、上記のような統計との関係はあるので。



 

2014 年も終わりが近づいてきました。

このたび拙作マンホールマップにおける2014年分の利用実態調査を行ったので、そのレポートを2回に分けて発表させていただきます。初回はアクセス解析結果より世の中の「マンホーラー」の実態を浮き彫りにしよう、というのが目的です。いちおうビッグデータ解析です。 

なお、データは全て Google Analytics から取り出したものです。グーグル先生、こんな便利なツールを無料で提供いただき、いつも大変お世話になっております。 m(__)m


また、以下のデータには利用者の年齢や性別、趣味、言語といった情報が含まれていますが、これらはグーグルのプロフィール予測に基づくものです。グーグルに正しい情報を入力している人の場合はその正確なデータが使われますが、グーグルに情報を入力していない人の場合は、ウェブページの閲覧履歴から、これらのデータを予測しており、その予測データが使われています。

あなたがグーグルからどんな人だと思われているのか、興味がある人はこちらのサイト(https://www.google.com/settings/ads/onweb/?hl=ja)を見てください。


では実態調査の発表です。まずは「2014 年マンホールマップの年齢別利用率」です:
2014121901

あら、意外と(?)若い。この結果を見る前は 35-44 歳がダントツの印象を持っていたのですが、結果は 25-34 歳の層が全体の3分の1のアクセスを占めての1位。そして更に若い 18-24 歳の層が2位となりました。マンホーラーの未来は明るいです!

次は「マンホールマップ利用者の性別」
2014121902

わずかに男性の方が上回っていますが、女性率なんと 45.85 %!これなら合コンが成立する割合です(笑)。「マンホール女子」が 2015 年の流行語大賞ダークホースに踊りでたと言っても過言ではないでしょう。


そして「マンホールマップ利用者の興味分野」、つまり利用者の趣味です。これはまあ普通に「旅行」関係でしょう、と思っていたら・・・
2014121903

1位は「ウォーキング」と考えればまあ分かる。3位も「サイクリング」なので自転車で探しまわる人がいるのでしょう。4位の「フード」は食べ歩きとセットなんですかね。大本命と思われた「旅行」は5位。 

そしてこれらに割って入ったのが2位の「コンピュータ」。いや、たしかに周囲に関係者が多いのは実感として分かっていました。分かってましたが、「マンホール」と「コンピュータ」の意外な結びつきが明らかになりました。本当にビッグデータ解析っぽくなってきましたよ(笑)。


ここから下はより一般的なウェブ統計情報です。

まずは「新規ユーザーと既存ユーザーのアクセス比率」です:
2014121904

新規ユーザーの方が10ポイントほど上回っており、常に新しいユーザーの開拓に成功していることが分かります。自画自賛!

次は利用者の言語。これはブラウザに設定された優先言語を見ているのだと思います。つまり日本人がアメリカから日本語環境でアクセスした場合は「日本語」としてカウントされ、アメリカ人が日本に来て、アメリカ設定でアクセスした場合は「米語」としてカウントされる、ということです。 さて日本語が高いのはわかるとして、その次に高いのは・・・
2014121905

英語(米語)でした。アメリカ人も日本のマンホールに興味を持っている、と考えていいんでしょうかね。


次はアクセス元の国別です。こちらも上記の結果からアメリカかな、と思っていたら・・・
2014121906

2位おそロシア! 3位フランス! 以下、英国、インド、ニュージーランド(!?)と続いて、アメリカ7位。これは意外でした。

これらの結果だけから推測すると、アメリカ人がロシアやフランスに渡った際にマンホールマップを見ている可能性が高い、ということになります。本当か? (^^;


次は日本国内の市区町村別アクセス元ランキング。こちらの結果は・・・
2014121907

1位港区、2位浦安市、3位渋谷区。。。 仕事中にマンホールマップを見ているのがバレた可能性が僕の地元船橋市がありません。もっと頑張らねば!

続いていきましょう、利用ブラウザランキング。一応マンホールマップを PC から見る場合は Chrome を推奨しているのですが、実態はというと・・・
2014121908

まさかの Internet Explorer !これ動作確認もしてないどころか、非推奨ブラウザなんですけど・・・


では OS 別ではというと・・・
2014121909

まあ順当、ですかね。 ちなみに1位の Windows はダントツ。2、3、4位が激戦。6位の Chrome OS はおそらく僕だけのデータです(苦笑)。


以上の統計結果より、意外に面白い 2014 年版マンホーラーの実態が浮き彫りになってきました:

・若い女性/新規参入者が多い
・「リア充」か「コンピュータおたく」に2極化している
・アメリカ人がロシアやフランスに旅行してマンホールを探している
・Internet Explorer の根絶は無理!


最後のはマンホーラーとは関係ないような気もするけど・・・


さて、次回はいよいよマンホール蓋別年間アクセスランキングの発表です。栄えある 2014 MVM(Most Variable Manhole) に輝くのはどのマンホール蓋か!? お楽しみに!


(2014/12/21 追記)
続きはこちら

 

このページのトップヘ