データの海を渡るには

2019年7月15日 19:12

先の「ビッグテーブルに挑む３つの基本技」で使った名字ランキングデータなんですが、参考までにどうやって作ったかを紹介しますね。

元ネタはこれです。
http://www2s.biglobe.ne.jp/~suzakihp/jun40.html

これをカーソルでなぞります。
（といっても5,000行ありますから、右のスライダー使って下までいかないと大変ですよ）
念のため言うと、新順位のところにカーソルあててから、スライダーでページの一番下まで行き、Shift押しながら右端の枠を指定すると、全体が選択できます。

そのままコピーして、EXCELに貼り付けます。
これを順位5001～10000までも同様に行います。

よく見ると、佐藤が２つありますね。
でも順位や世帯数のデータは同じ。つまりカブっている。
どうやらフリガナが違うので行を分けたのかと。

で、フリガナを削り、重複を削除します。
EXCELの「データ＞重複の削除」ですね。

名字の列(B列)にチェックを入れてOKボタン。
たまたま上位のデータで重複があることがわかりましたが、このデータの重複があるかないかのチェックは結構重要です。

一応、順位を確認してみます。

右の空いている列に、上の図のように、1, 2と入れます。
後はオートフィル機能※で最下段まで番号をふります。
※オートフィル機能：範囲指定している枠の右下に出る＋印をトントンと右クリックするとデータ最下段までコピーされます。その時コピー元が1,2のようだと1づつ繰り上がった値でコピーされていきます。

最下段まで順位が一致していることを確認。
とまぁこんな感じで、ものの数分で1万もの名字ランキング表ができます。

データの海に囲まれる

近年急激にデジタルデータが増えており、今後はもっと急角度で増え続けるという予想があります。
2025年に全世界で発生するデータ量は163ゼッタバイトに、IDC調査

DXとかIOT, AIと言われていますが、こうしたデジタルデータの急速な蓄積が背景にあるのですね。

その広がりつつあるデータの海をどうやって渡っていくか。

本格的にはそれなりの大型船を造り、万全の装備をして臨まなければならないでしょう。
しかし、貧弱な装備しかない個人の場合は、データの大海原から目的に沿って切り出し、プールを作ってできるだけ早く渡るというか泳ぎ切るということになるのでは、と思っています。

ネットを探せばいろいろなデータがあることに気づきます。
使えそうなものがあれば、いかにそれを早く取り込み、必要な情報を入手するか。
この辺がカギになってきそうですね。

例えば、駅乗降客数ランキングという検索をする。
たぶんデータとしてトップ1000くらいあるでしょう。
それは立地マーケティングの有効なツールになります。

EXCELは、プール程度といっても、シートあたり1,048,576行×16,384列の容量があります。
ここに収まる程度に切り出し（または集計して）、分析する手法を持っていれば、EXCELを使って個人でもそこそこデータの海を渡ることができると思うのです。

この記事が気に入ったらサポートをしてみませんか？