2ちゃんねるの草の長さを測ってみた
はじめに
2ちゃんねるを始め,日本のインターネットでは(笑)を「w」と略して表記することがあります.
さらにその「w」を「wwww」のように繰り返して「草を生やす」という表記をすることもあります(参考: Wとは (ダブリューとは) [単語記事] - ニコニコ大百科).
「wwww」(以後,草と呼ぶ)の長さ(「w」の繰り返し回数)はその場ののりや記入者によって決まるはずです.
その草の長さがどのように決まっているか気になったので調べてみました.
方法
以下の板の各スレッドからレスを取得し,草の長さの頻度分布を計測しました.
- ニュース速報(VIP) : http://hayabusa.2ch.net/news4vip/subject.txt
- 草といえばということで採用.計51,082件のレス.
- 2012/07/07時点の全スレを採用.
- 自転車: http://kohada.2ch.net/bicycle/subject.txt
- VIPとの比較として比較的まったりっぽい趣味系の板を採用.計139,719件のレス.
- 2012/07/07時点の一部スレを採用(全部を対象にすると時間がかかるので)
本来は英単語やURLに含まれるwは計測対象から除外すべきですが,今回はやっていません.
ですので次節で示す結果の草の長さが1〜3の結果は草の長さとしてはあまり適切ではありませんので注意してください.
勉強も兼ねてScalaとMongoDBでやってみました.
Scalaでダウンロード・整形して,MongoDBに保存,ダウンロード完了後,MongoDBで集計してます.
- ソースコード: https://github.com/mtkn-misty/2chAnalyzer
- 面倒なので定数とかベタ打ちです.
- DOSにならないように適当にウェイト入れてやってください.
結果
以下に集計結果を示します.
データが少なく,グラフが見づらいため頻度分布ではなく累積頻度分布を示します.
次に両対数グラフです.
横軸・縦軸は上記と同様です。
VIP・自転車板共に,草の長さが長ければ長いほど出現頻度は低くなっており,分布の形もほぼ同様の傾向を示しています.
自転車板の方が件数が多いのは,単に対象のレス数が多い為です.
両対数グラフの形状から頻度分布は指数分布であることがわかります.
ということは,草の長さはほぼ独立事象と言えそうです.
なので,おおざっぱには草の長さの決定については以下だと考えられます.
- 草の長さは記入者によってほぼ独立に決定され,レス間の相互作用はなさそう.
- つまり他の人が長い草を生やしていたとしても,それを見た人の草の長さには影響が無いということです.
きっと以下みたいな感じなんでしょう(適当).
- : 長さの草を生やす確率
- : キー「w」から指を離す確率