見出し画像

のんびりnote運用2年間のアクセス分析。

noteを書きはじめてから2年が経過しました。早いものですね。

先日投稿した記事でちょうど30記事。1年間で約15記事と緩いペースですが、気になって集計してみると合計で14万文字も書いていて驚きました。

合計のビューの数は約2万5千、スキの数は638となりました。まだまだではありますが、個人的にポチポチと書いた記事を多くの方に見ていただいたと思うとうれしいですね。

よい機会なのでもう少し手をかけてアクセス分析をしたくなり、ポチポチ分析してみました。少ないサンプル、限られたデータを使った分析ですので個人の趣味の範囲ですのでご参考程度に読んでいただければと思います。

分析の目的とアプローチ

今回のアクセス分析の目的を「人気記事の特徴を探って今後の運営に活用すること」とし、以下の分析アプローチに沿って分析しました。

  • スキの数=人気の指標と見立る。

  • ダッシュボードや各記事から取得できた定量的な情報を特徴探索の範囲とする。トピックスなど筆者が知っている情報も活用。

  • データ量が小さいので、基本的に可視化を中心に探索する。

あくまで私のnote記事の範囲であって、しかも高々30記事程度の情報からの分析になります。いろいろと無理のある分析になっていますが、ご容赦くださいませ。

分析の手順・データ

分析の手順は以下の通りです。(超絶アナログ)

  1. note標準のダッシュボードで全期間を指定し全記事が出てくるまで表示ボタンを押す。表をコピーしてExcelへ貼り付け。

  2. 記事を一つ一つ開いて文字数、マガジン有無等を調べてExcelへ転記。(つらい)

  3. ExcelをPythonのPandasへ取り込み。(自分のWindowsパソコンに入れたDocker環境)

  4. あとは心の赴くままにEDAを楽しむ。

用意したデータのサンプルは以下の通りです。いろいろ準備したのに使っていない項目もあります。

自分のnote分析に利用したデータ(サンプル)

基本的な統計量の確認

まずは基本統計量の確認からやりました。文字数、ビュー、スキの数の統計量を見ると、思ったよりもばらつきが大きいことがわかりました。

  • 記事数: 30記事  (1記事は現在非公開)

  • 文字数: 合計 142,466  平均 4749 標準偏差 4155

  • ビュー: 合計 24,828 平均 828 標準偏差  2608

  • スキ : 合計  638 平均 21 標準偏差 32

文字数のばらつきが大きいのは自覚していましたが、スキ・ビューのばらつきもそれなりにあったので、どういった記事に関心を持つ人が多いのか気になりました。

人気記事(スキの多い記事)

人気上位20%の記事

まずは定性的な情報を把握するため、スキの多い順に6位(上位20%)まで見てみました。ダッシュボード上のスキの数と記事ページに表記されるスキの数に差があるのが気になりますが、ひとまずダッシュボードの数字を正として人気上位記事をリストアップしました。

  1. データサイエンティスト生活でお世話になった本 〈182スキ〉

  2. データ分析のテーマを整理するためのフレームワーク(TIHAM)〈62スキ〉

  3. エンジニアの背骨: プログラミング〈46スキ〉

  4.  データ分析・機械学習タスクの問題設定力を高める30の問い。〈32スキ〉

  5. 自律的キャリアの個人的な話(キャリア観)〈26スキ〉

  6. 人事データと向き合う。HRアナリティクス事始め。〈24スキ〉

上位6位まででスキの合計は371となり、全体の約6割を占めていました。20:80の法則とまでは極端ではありませんが、特定の記事にスキが集中している様子がわかります。

内容を見てみると、データサイエンスの記事の人気が高そうですが、個人的なキャリアについて書いた記事やピープル・アナリティクスといったニッチな記事も上位に来ていて驚きました。

トピックス別の人気傾向

私のnote記事はデータサイエンスに関する記事を中心に、それ以外にも少し話題を広げることがあります。そこで、記事のトピックスを分けて集計してみました。トピックスの分類は筆者の独断かつシングルラベルで付与しました。以下の通り、平均で見るとやはりデータサイエンスの記事の人気度が高い傾向にありました。

  • データサイエンス(12件)

    • スキ平均 30.8 文字数平均 6493.3

  • ピープル・アナリティクス(3件)

    • スキ平均 19.3 文字数平均 4816.6

  • 自分語り(10件)

    • スキ平均 14.3 文字数平均 3002.6

  • ビジネス一般(5件)

    • スキ平均 13.4 文字数平均 4014.4

予想外に自分語りの記事数が多く狼狽したのですが、スキ平均で見るとビジネス一般と変わらないということで複雑な気持ちになりました。また文字数の平均で比較すると、どの話題もそれなりに長い文章を書いていました。自分語りだけ極端に長いなどという恥ずかしい事態も予想していたのですが、それは回避できていて安心しました。

ちなみに、下図のように記事毎のスキ数をトピックス別に可視化してみると、ばらつきが大きいことがわかります。特に、データサイエンスの記事は182スキの一つの記事が平均を押し上げていたようです。中央値で比較すると、大きな順にピープル・アナリティクス、ビジネス一般、データサイエンス、自分語りになります。

トピックス別の文字数を可視化してみると以下のようになりました。これだけで考察するのは難しいですが、文字数とスキ数の関係が気になってきました。

スキの傾向分析(どの項目と関係がありそうか?)

スキの数が特定の話題に偏っているわけでもなさそうだとわかりましたので、それ以外の項目と関係がないか探ってみます。

ビュー数の推移

まず素直に考えられることは、ビューの数が増えればスキの数も増えるのではないかということです。これは当たり前の話に感じられます。この疑問に答える前に、そもそもビューの数はどのように変化してきたのか気になってきました。運用とともに増えているといいなと思いつつ。

これを調べるため、記事のビューの数を投稿順に並べて棒グラフで可視化してみました。これを見ると必ずしも時間の経過とともにビューの数が増えているようには見えません。これは書き手および運用者として真摯に振り返る必要がありそうです。

次に日付ベースでビューの累積を可視化してみました。この図と上の図を合わせて考えると、たまにビュー数の大きな記事があって累積ビューが積みあがっていることがわかります。一方、ストックとしての効果はあまりなさそうだと考察されます。2年で30記事のスローペースなので個人メディアとしてのポジションが弱く、記事の内容次第でビューが変わる状況ではないかと想像しています。この辺は改善が必要ですね……。

ビュー数とスキ数の関係

ここまでの分析で、今のところビュー数と時間経過の間に強い関係はなさそうだとわかりました。逆に言うと記事一つ一つを独立に見てビューとスキの関係を分析してもよさそうです。
そこで、散布図を使ってビュー数とスキ数の関係を可視化してみました。散布図の点一つが一つの記事に対応しています。右肩上がりにも見えますが、極端にビュー数が大きな点があり読み取りにくいですね。

そこで、極端にビュー数が大きな点を外れ値としてのぞいて同様の可視化をしてみました。今回はlmplotを使って回帰直線をあてはめています。全体として右肩上がりにはなっています。(データ少なく信頼区間が広い状況となっており参考程度に見てください。)
原理的にビュー数以上にはスキ数は獲得できないので、スキを増やすためにはビューを増やすことが必要なのは明白ですね。

公開日数とスキ数の関係

先ほどの分析で私のnoteがストック化できていなさそうだと考察しました。そこで、記事の公開してからの経過日数(公開日数)とスキ数の関係を可視化してみました。一つ目が全記事での散布図、二つ目が外れ値を除いた散布図です。
散布図を見ると公開日数とスキ数には関係がなさそうだと考察できます。参考として外れ値を除いたデータに対して相関係数を計算してみると-0.17となり、今のところ公開日数とスキ数の間に相関は見られません。

これらの分析からも私のnoteがストック型のコンテンツになっていないことがわかります。

文字数のスキ数の関係

次に記事の文字数とスキ数の関係を調べてみました。私の記事は長くなりがちなのでWeb媒体では好まれないのではないかと想定してのことです。これまでの分析と同じく散布図を利用して可視化しつつ、大雑把な傾向をつかむためにlowess曲線をフィットさせてみました。
曲線だけを見ると文字数5000~6000くらいがピークに見えますが、曲線から大きく外れている値もあるので何とも言えません。どの程度の文字数が適切なのか調べるにはもう少し研究が必要のようです。

ヘッダー画像とビュー数の関係

note記事には記事毎にヘッダー画像を付けることができます。ヘッダー画像は記事内容に合わせて適当にpixabayから探してくることが多いです。技術系の記事やノウハウ系の記事は何となく画像にタイトルを埋め込むような感じで作っています。これはSNSでシェアするときに目につきやすいかな……と思ってのことですが、最近は判断が適当になっていました。

そこでヘッダー画像にタイトルを含むか否かでビュー数に違いがあるのか調べるために箱ひげ図で可視化してみました。箱ひげ図の上に実際の観測値を重ねています。(このため箱ひげ図の上端・下端はそれぞれ最大値、最小値になるように設定しました。)
これを見ると、若干ではありますがタイトルを含むヘッダー画像を利用した方がビュー数が多い傾向にあると言えます。

一方、ヘッダー画像の種類とスキ数の関係を同様の図で見てみると以下の通りになりました。明確な差があるとは言えない感じですね。
当然ながらヘッダー画像はアイキャッチまでの効果であり、コンテンツの良し悪しとは関係がありません。スキにつなげるにはやはり中身が大切だと改めて感じた次第です。

まとめ

noteを書きはじめてから2年間で30記事という超スローペースで運用してきたわけですが、今回アクセス状況を分析してみてわかったことをまとめます。

  • スキを増やすためにはある程度ビューを増やす必要がありそう。

  • 公開日数とスキやビューの数は関連があるとは言えない。個人メディアとしてストック型になっていない。更新頻度が低いのが原因だろうか。

  • 記事の文字数や画像ヘッダーとスキ数の関係はよくわからない。画像ヘッダーにタイトルを含めるとビュー数は若干多くなる傾向にある。

  • 記事のトピックス別で見ると、データサイエンスが平均的にスキ数が多いものの、特定の記事に引っ張られている。中央値ベースでみるとどのトピックスも大きな差がみられない。

  • 全体的にみて、ビュー・スキの数が大きないくつかの記事があり平均を押し上げている。

ゆるく運用していることがそのまま出たような結果となりました。自分としては2年間も続けられたこと自体驚きですし、予想以上に多くの方に見ていただいたことがうれしいです。

ひさびさにデータを探索できて楽しかったです。EDAは楽しいですね。

この記事が気に入ったらサポートをしてみませんか?