データの分布(バラつき)を捉えよ！アプリゲームを分析する上での観点

データの分布をとらえる重要性
データの分布と代表値の限界
データの分布を捉える
分布図の活用事例
データの分布を捉えることが大事

データの分布をとらえる重要性

まずセグメントを切るべし！アプリゲームを分析する上での観点 - YuRAN-HIKOという記事で、運営型のゲームを分析する上で多様なユーザーをセグメント化し、それぞれの特徴を捉えることの大切さを書きました。

1つのゲームの中においてもモバイルゲームのユーザーは非常に多様であり、その動向を正確に捉えて施策に繋げるためにはデータの解析や可視化の面で専門的なテクニックが必要になってきます。今回はその中でも、ユーザーの動向をデータの分布として捉えることの大切さについて述べさせてもらおうと思います。本記事を通じて持ち帰っていただける点は以下の3点です。

代表値 (平均値や中央値など) で現状を捉える際の限界が分かるようになる
データの分布を捉えることの大切さが分かるようになる
どういう時にデータの分布をみる必要があるかが分かるようになる

データの分布と代表値の限界

代表値とはいわゆる平均値・中央値・最頻値といったデータの分布を捉えるための統計量のことで、あるデータ全体を代表する値のことを指します。例えば平均年収やクラスの生徒の身長の平均、ゲーム関連だと ARPU やバトルの平均プレイ回数、あるアイテムの平均所持数などがそれにあたります。

この中でも最も馴染みが合っておそらく一番用いられているのが平均値ではあると思いますが、例えば平均値と中央値の違い | ブログ | 統計WEBなどでも解説されている通り、平均値は極端なハズレ値に影響されやすくデータの分布が偏っている場合には実態を捉える上であまり適さない数値であると言われています。

ですので、よく年収の平均値ではなく中央値を見るべきだという議論なんかが起こったりするわけです。少し統計の専門的な話になりますが、データの分布が正規分布になっていない場合は平均値だけを見て満足するのではなく、分布そのものや中央値など他の代表値も見て判断をしないと、実態を誤って認識してしまうリスクを抱えることになってしまいます。

ですが、上の記事の一番最後の分布にもあるように、このような複雑な分布を取ると中央値すらもあまり意味をなさないことが多く、記事で紹介されているような五数要約を行ったり、分布そのものをちゃんと見る必要が出てきます。そして、ゲームのデータにはこのような分布になっているものも珍しくありません。

また、代表値はデータ全体を簡潔に代表して分かりやすく伝えることに利点はありますが、ゲームのように多様なユーザーからなるサービスにおいては、何か施策を打つ段において「どういう人に」「何を届けるか」というターゲティング・ポジショニングを考えることが重要であり、代表値だけではその判断材料として不足しています。そのため、ユーザーの動向をデータの分布として捉えることが重要になってくるわけです。　

データの分布を捉える

データの分布を捉える方法はいくつかありますが、最も基本的なものがヒストグラムになるかと思います。ヒストグラム自体の解説は2-2. ヒストグラム | 統計学の時間 | 統計WEBなどを参考ください。基本はこのようにヒストグラム (ないしは累積相対度数を追加したパレート図) を用いて分布を捉えていくことが一番の基本になります。

ヒストグラムの描画に関して、主要なBIツールであれば揃えているところが多いかもしれませんが、例えば Google Data Portal のようにヒストグラムが搭載されていない BI ツールもいくつか存在します。その場合は Excel や Spreadsheet の機能を用いるという方法もあるかもしれませんし、データ件数が多くなるようで SQL 上で一定の集計を行う必要がある場合も出てくるかもしれません。SQL 上でもヒストグラムを作成するための集計を行うこと自体は可能ですが、やや冗長なクエリを書かざるを得なくなるため、場合によってはヒストグラムではなく例えば横軸の値を一定間隔で区切る( 10刻み、100刻みなど) ヒストグラムライクな棒グラフを作成するという方法もあるかもしれません。

その他、分布を表現する方法としては箱ひげ図、バイオリンプロット、散布図、バブルチャート......と用途に応じて複数存在しますが、基本的には対分析者用でない限りは箱ひげ図やバイオリンプロットを用いることはあまりお勧めできません。理由はデータ分析の素養や経験のある方を除いて日常生活の中であまり馴染みのないビジュアライゼーションの手法であり、非分析者の方にとってはグラフの意味するところを理解するまでに一定の認知負荷がかかってしまいデータを活用して効果的な意志決定を行うまでのハードルが高くなってしまうためです。分析結果を最終的な意志決定に繋げるためには、情報の抽象度合い (現実という膨大な情報のどこまでをそぎ落とすか) と網羅性 (どこまでの情報を可視化に含めるか) の狭間で悩むことが多く、それだけで一つのトピックとして成り立つものではありますが、ここでは深追いせずに別記事に譲りたいと思います。　

分布図の活用事例

では、どんな場合に分布をみるとよいでしょうか。基本はあらゆるデータに関して代表値だけで満足せず、分布をしっかり見ることが大切ではありますが、ここでは一例として、課金額の分布について考えてみたいと思います。ゲームの課金に関するKPIとして、PUU・ARPU・ARPPU・課金率というものがあるとDAU, PUU, ARPU, ARPPU, 課金率をアプリゲーム分析の専門家が解説 - YuRAN-HIKOの記事では述べました。

このうち、ARPUとARPPUがいわゆる平均値を用いた指標になります。そして課金率がアクティブユーザー中に占めるPUUの割合です。日本の運営型ゲームによくあるガチャをマネタイズの主軸に据えたゲームでは、一番の課金商材としてのガチャのKPIを細かくとらえることが重要になってきます。その際、一番シンプルなのはガチャごとの ARPU や課金率、ARPPUを見ていくことですが、それだけでは満足せずに課金額の分布を見ることによってどういう課金のされ方をされているのかがより明瞭にわかってアクションにつなげやすくなります。

例えば、PUUは多いもののARPPUが低いという場合、課金額の分布を見ることで低額課金帯の人が多いのか、どちらかというと中額課金帯に人が集中しているのかによって施策のターゲティングやポジショニングが変わってきます。この場合、前者であれば低額課金帯の方に向けてもう少し課金してもいいと思ってもらえるよう、低価格帯で2回目の課金には少しお得なプランをを用意するという施策も考えられるかもしれません。逆に後者であればそもそもこの事象自体が課題にならないこともあります。