オープンデータを見てみよう
あおむんです。
はい、なんだか今日はちょっとお堅い内容になりそうですね(笑)
でも、『大人の自由研究』みたいな感じで、できるだけ面白くなるように書いてみます。
オープンデータとは
そもそも、『オープンデータ(open data)』という言葉はご存じでしょうか?
読んで字のごとく、『開かれたデータ』なんですが、誰でも二次利用ができるように公開されているデータのことを言います。
例えば、地方自治体や各省庁などが人口統計や家計などの統計データを公開しています。
例えばですが、警察庁のホームページには『交通事故統計情報のオープンデータ』というものが公開されています。
オープンデータをダウンロードしてみよう
ためしに、2023年(令和5年)のデータをダウンロードしてみましょう。
その前に、先に『ファイル定義書』と『各種コード表』を見ておかなければいけません。
PDFとExcelのファイルがありますが、今回はExcelのファイルを落として開いてみました。
中身はこんな感じです。
こんな感じでずらっと、どの項目がどんなものですよ、という解説が入っています。
ふむふむ。
では、本題のファイル『本票_01-12月』というcsvファイルをダウンロードしてみます。
Excelで開いてみました。
見ただけでは全然なんだかわからないデータがてんこ盛りです。
しかもこれ、行数を見ると307,931行もあります。
すごい量です。
しかし、このままでは、このデータ見ても「事故、多いですね…」以外なにも感想が出てきませんので、少し見やすくしていきます。
データを可視化してみよう
BIツールと呼ばれるデータを図やグラフで可視化するソフトを使っていきます。有料や無料のソフトなど様々ありますので、ご興味ある方は調べてみてくださいね!(後日BIツールは記事書くかも…)
今回はTableauというツールを使います。
とりあえず今回の約30万件データの中に『緯度』と『経度』という座標の情報が入っていたので、日本地図にプロットしてみました。
青い点1つ1つが交通事故が起こった場所です。
とても多いですね・・・
当たり前のことなんですが、人口が密集しているところに事故は多く発生していることがわかります。
それから、『事故内容』という項目に1なら死亡事故、2なら負傷事故という情報が入っているので、色分けしてみます。
関東・東海(愛知付近)・大阪あたりに死亡事故が集中していることがわかります。まぁこれも人口が圧倒的に多いからそうなってしまうのはわかりますが、可視化することで見やすくなりました。
また、『昼夜』という項目は、
11は昼ー明:日の出時間の後1時間
12は昼ー昼:「昼ー明」「昼ー暮」以外の時間
13は昼ー暮:日の入り時間の前1時間
21は夜ー暮:日の入り時間の後1時間
22は夜ー夜:「夜ー明」「夜ー暮」以外の時間
23は夜ー明:日の出時間の前1時間
となっており、更に『天候』という項目には、
1は晴
2は曇
3は雨
4は霧
5は雪
となっています。
これを縦横の表に見やすくまとめてみると…
約半分の47%が晴の昼間に事故発生しています。
雨や雪の方が多そうだなぁ、と思っていましたが、確かに言われてみれば、
そもそも天気が悪い日に外出することを控えますよね。だから、数値としては活動が多い晴の昼間が多いのでしょうね。
ということで、もっとも事故に遭わないように外出するとしたら、『霧の日の日の入り前1時間』とがおススメです!いうことになります。データ上は。
(こんな酷いレポートを持ってくる人は信用しないでくださいね)
まとめ
今回はあくまでもオープンデータを誰でも自由に触って可視化したりできるんですよー!
ということをお伝えしたく記事を書きました。
私なんかよりもキレイにまとめて見れるようにしている方がいらっしゃいますので、こちらをご覧いただいて、自分の家の周りで事故が起こりやすいところを把握して、気を付けるようにしてください。
真面目な話をすると、交通事故のデータは人命に関わる大事な情報です。
このようなデータをしっかり活用して、人々の生活が安全で豊かなものになればいいなぁ、と思っています。
勘や経験だけに頼らず、データドリブンで明るい未来を!
ではまた!
この記事が気に入ったらサポートをしてみませんか?