見出し画像

「Pythonデータ分析ハンズオンセミナー」という本を執筆しました

Pythonで国勢調査のデータを分析してビジネスに活かすことを学べる書籍「Pythonデータ分析ハンズオンセミナー」を、日経BPさんから出版しました。この本では位置情報と統計データを扱ったデータ分析を、ハンズオン形式で学べます。

日経BOOKPLUS Pythonデータ分析ハンズオンセミナーページ
Githubサポートページ

書籍のイメージ画像


今回のブログでは、この書籍で目指したものなどを書いていきます。

書籍の想定読者

「Pythonデータ分析ハンズオンセミナー」は、データ分析にPythonを使ってみたい方に手に取ってもらうために執筆しました。

Pythonの入門本をやってみた人がメインターゲットですが、Python自体が初めてという方でも取り組めるように、Pythonの基礎もコンテンツとしました。

書籍の概要


データ分析でビジネスを伸ばす

Pythonデータ分析ハンズオンセミナーの目的は、国勢調査のデータを実際のビジネスで活用できるよう、実際にコードを書いていろいろ試していただくというものです。なので、プログラミング初心者の方に1冊を完走していただき、ビジネスにおけるデータ分析役割・Pythonのプログラミング・国勢調査を使うことを学んでいただけるという、かなり欲張った内容となっています。

書籍は3つのパートから構成されます。

  • データ分析の解説

  • Python基礎の解説

  • 国勢調査のデータを実際に扱うハンズオン

本書では、ハンズオンをこなすことにより、読者の方にビジネスでのデータ分析のイメージを膨らませていただくことを目指しました。そのため、ライブラリなどの使い方は必要最小限なものとなっていますが、それぞれを組み合わせることにより多くのことが見えてくるような内容になっています。

工夫した点はPythonの開発環境です。プログラミング初心者が最も躓きやすいのが、プログラミング環境の作成です。ウェブブラウザからお手軽にPythonを利用できるGoogle Colaboratory(Colab)を用いることにより、その辺りを解決しました。

データ分析の解説


データ分析を知る

データ分析の解説の1章では、ビジネスにおけるデータ分析の目的を定義した後、データ分析を実際にプロジェクトに組み込んだ際の手順、メリットデメリットを最初に解説しました。

2章では、今後のビジネスで役に立つであろうオープンデータの概要・活用方法をとりあげました。個人的には、オープンデータのサイトには「一流の分析者たちが分析した情報が載っていて、分析方法や可視化方法、出す結論について学べる」という部分に、まずは触れていただければと思います。

Python基礎の解説


プログラミングに触れる

3章ではプログラミングの必要性、なぜPythonかという点に触れてます。ChatGPTも使っているからPythonでしょう。と1行で終えたかったが書籍ということでそういうことも行かず、いくつか理由を述べました。一方で、本人的にはPythonを選んだ理由というのは、とりあえず取り組んだものがPythonで下的な面が大きいようにも思います。

Python基礎ではColabを使うための設定方法、Pythonの基礎的な使い方をとりあげた。Pythonの基礎的な使い方は、別構想があった。もっと入門者にわかりやすく、実践的にそれぞれの昨日の役割を解説したいという点だ。これは私が入門書で悩んだ点で、そういうものがあるということは分かるがどう使うかが全く見えないという点をカバーしたいという思いがあった。リストとかどう使うかを、もう少しわかりやすく解説したかった。

一方で、この書籍は基礎は取り上げるが、詳しく取り上げるとトンデモナイページ数になってしまう。そうすると1冊を完走していただくという目的が果たせないということで、今回は基礎的な部分でそれを実現するのはあきらめ、代わりに様々な処理にその要素をちりばめるようにしました。なので、ハンズオン部分をこなしていただくことで、リストや辞書を活用したり、for分を使っていただいたりすることが出来るようになっています。

その分、コードを書きなれた方からすると冗長な部分もあるかもしれませんが、色々なやり方を試せるという面から筆者は頑張ったんだなぁと思っていただけると幸いです。

4章では、本書籍で取り上げるサードパーティーライブラリの基礎的な使い方を解説しました。具体的には次の3種類です。

  • 位置情報(GeoPandas, Shapely, Foliumなどのライブラリ)

  • 表データ(GeoPandas, Pandasなどのライブラリ)

  • データのインタラクティブな可視化(Panel, plotlyなどのライブラリ)

ハンズオン


データを扱い、考える

ハンズオンでは、データをeStatから取得し、そのデータを分析に使いやすい形に前処理したあと可視化、ビジネスに欲しいデータを作成するという工程を取り扱いました。位置情報に紐づいたデータ分析により、視覚的にも理解しやすいものができることが分かっていただけると思います。

ここに軽い機械学習を入れるか?ということも検討したのですが、ビジネスにおけるデータ分析の初歩として、普通にターゲットとする人が多い地域を探して施策を打つというようなことが重要だと判断し今回は機械学習を含めることを、見送りました。

一方で、自前で商圏を作成するなど位置情報使えば容易に面白いものを作れるという例を出すことで、様々な方の発想を解放するような作りにしました。ハンズオンには大阪府のデータを使ったのですが、プログラムで次のように2kmの商圏を作って、その中の年齢別人口のデータを作るようなこともできます。書籍ではその円に触れる地域の人口をすべて計算に入れましたが、円に含まれる面積で割合を作り、上手く人口を作るような工夫もできます。

最終的には、自社商品を求める人が多そうな商圏を特定することが出来るようになります。


執筆のあとがき

この書籍は3月末くらいにお声がけいただき、5月から執筆開始、7月末に執筆終了、8月中旬に発売という流れとなりました。編集者の仙石さんとは毎週mtgして内容を作らせていただき、非常にお世話になりました。

最後の仕上げはかなりドタバタしたので、レビュアーの方にも入っていただきかなりハードに確認しましたが、コードが動かないとかミスを発見したとかございましたら、このコメント欄でもgithubのサポートページでもどこでもお知らせいただくと非常にありがたいです。


最後のドタバタ、皆様本当にありがとうございました

なんか言い訳っぽいですけど、本を作る作業の最終段階は非常にアナログなので、本の通りやってプログラミングが動くかどうかというのの判断が非常に難しいのです。しかも本書はハンズオン形式で、コードの一部をとりあげ次にまた違うコードを動かすというもののとなっているため、一個が間違っていると全部動かなくなります。そんな、かなりリスキーな企画に取り組んでいただいた、日経BPの皆様には感謝しかありません。

いまのところ、動かないというご意見はもらっていないので大丈夫かなぁと思っていますが、もし何かございましたら、ぜひ教えてください。すぐに修正対応させていただきます。

ドタバタに話を戻すと、この本には索引、あとがきがない。というのは、ページがぎりぎりだったのです。紙の本はページ数が16ページごとに設定しないといけません。そしてその余裕が出たページ数が、索引やあとがきなどに割り当てられます。この本は画像も多いせいか、大体のページ数は見えていたが、最後にその辺りでぎりぎりの処理が必要だったようです。今後は、出版物は大変だなぁと思って見ていただくと良いかもしれません。索引のない本は手抜きではなく、そのページ数に収める努力の結晶なのでしょう。ちなみに私も今回その辺りを初めて知りました。

あとがきっぽいことに話を戻します。

本書は2023年3月末にアイデアを出しました。そのころというと新型コロナの規制がそろそろ終わり、海外旅行者の方も日本に来られる。そんなタイミングでした。

「物価も上がって大変だろうし、実際日本に旅行に来られるか?」

私は不安に思っていました。しかし実際ゲートが開くと多くの旅行者が日本を訪れました。その辺りは円安の影響もあるかもしれませんが、コアな価値はやはり日本という国の持つ資産価値ではないかそう思いました。

一方で、ゲートが閉まっていた期間を考えると、「資産は生かさないと負債を増やす要因」にもなる。もっと砕いていうと、非常に役に立つものも使わないといらないものという評価にもなりかねないということです。日本の歴史ある文化を生かしたアベノミクスは、そのような点でも評価されるべきでしょう。


眠っている日本の価値を活かす

本書では、国勢調査というオープンデータを取り扱いました。国勢調査のデータは、日本に住む人の属性、家族の属性を明らかします。また、それを位置情報でも分かるように提供します。国勢調査自体は大正9年から行われ、令和2年の調査で実施100年の節目となりましたリンク

そのほかにも多くの統計調査が長い間日本で行われ、公開されています。これらを用いることにより、ビジネスの効率化や課題の発見が容易になる。そう思います。一方で、デジタルやデータを使うのが弱い日本では、その活用が遅れています。

そう。まるで、アベノミクス前の日本の歴史ある資産のように。

オープンデータを活用することにより、ビジネスの効率化+新たな課題の発見が今までよりも容易になります。そうすると、ビジネスで利益が上がりやすくなり、雇用も増加し、税収も増えよりデータも拡充されるような正のフィードバックが回り始めます。下の図は弊社が浜松市でオープンデータの利活用のPOCのときに使った図表です。この本でオープンデータの章をわざわざ作ったのは(2章)、その全体像を載せ、活用者を増やそうとの意図がありました。


オープンデータのポジティブフィードバック

本書のメインと思われるテーマは、Pythonを使ったデータ分析ですが、裏テーマは実は「日本の眠っている資産、オープンデータを活かして価値を出そう」ということです。そのような流れをちょっとでもうみだせればと思います。

日本の統計データの価値が十分に認識され、活用されることを心より願っています。

2023/10 小川 英幸

無料イベントのお知らせ


TECHPLAYさんでイベントを開催していただきます!!!

2023年10月31日の19時から20時30分に、TECHPLAYさんにて「Pythonデータ分析ハンズオンセミナー」に関連する無料セミナーを開催させていただきます。

すでに100名以上のお申し込みをいただいているのでびっくりしているのですが、まだまだ枠は増えるようですので、お申込みいただけますと幸いです。お申し込みは次のURLからどうぞ。

https://techplay.jp/event/921607

この記事が気に入ったらサポートをしてみませんか?