見出し画像

Geospatial Data Science こと始め

こんにちは、Tokyo Creators' ProjectのWorkplace Scientistです。自分は、大量データを用いて、統計学的検定、重回帰分析、PCA、クラスタリング、汎用的な機械学習による、時系列予測、Deep Learningによる画像判定、階層ベイズ、を用いた分析予測や分類をやっていたことがあるのですが、特にサプライチェーン系の仕事が長かったため、地図を使った分析に落とし込んでいることがたくさん経験できました。最近はGeospatial Analysisと呼ばれ、さらにデータサイエンスが紐づき、にわかに、Geospatial Data Scienceと言われてグローバルニッチな領域だそうです。この記事では何に役に立つのかとどうやって学べるのかを書きたいです、

Geospatial Analysis、何に役立つのか?

画像2

これは150年前ロンドンのコレラの地図表現(出典:感染地図 歴史を変えた未知の病原体 (河出文庫))です。ロンドンではコレラの流行が頻発。医師のジョン・スノウは解決方法を探ろうと動き出します。そこでコレラが流行りやすい地域に注目し、罹患者が出た家を地図にチェックしたところ、罹患者たちが共通の井戸を使っていることが判明しました。病院の医師が病気への対処だけでなく、その発生源を探ったことにも脱帽ですが、まさか地図に頻度を入れていくと、一発でわかることがあったということで、にわかに地図を使った分析は、その後も分析界の底辺で、雑草のように、力強く生きていく道を与えられました。

2020年、新コロナウイルスの拡散を下記のような地図で表現したり、世界中の情報を簡単にインタラクティブに触れるようになったことは言うまでもありません。https://thibautfabacher.shinyapps.io/covid-19/

画像1

どうやって学べるのか

やってきた私からすると、地理空間データサイエンスの学習は、初心者殺しです。Pythonにそこそこなれた方でも(あまり厳密な言葉の利用にはなっておりませんが)、困難を極めます。分野の学習リソースとその学習のパスは、他のデータサイエンスリソースと比較してあまり知られておらず、あまり共有されてきてこなかったからです。ええ、常に地理空間分析は底辺を雑草のように力強く歩いてきました。したがって、MOOCプロバイダーで地理空間データサイエンスリソースを探したりして何万円も使ったところで、ほとんどおなじような内容だったり、がっかりの連続です。でも実はほとんどがOpen Sourceで学べるこの分野ですので、以下におすすめを書きます。

KaggleのGeospatial Analysisでスタート!

日本人のデータサイエンティストにはおなじみKaggleですが、2019年にチュートリアルを公開してくれています!インストラクターのJessica Liさんは、GISやこのGeospatial Analysisの教育をしたいと思ってKaggleに入社したと言っているくらい、熱意のもったかたでPythonを用いた分析のプロセスになれることができます!

Geo Python (ヘルシンキ大学2019)

ここは多くの地理空間データサイエンティストがお勧めするのですが、Python初心者にもおすすめです。どうやって住所を地図が扱う位置データに落とすかや、Visualizeなどができるようになることを目指しているだけでなく、最先端の情報を組み込んだクラスを提供してくれています。ええ、Jupyter Notebookも見れますから、コーディング面でも安心です。

https://geo-python.github.io/site/

Geographic Data Science (リバプール大学2019)

リバプール大学のこのコースはたくさんの応用事例に出会えます。講義とLabにわかれているこのコースでは、講義の動画はみることはできませんが、Slideがのこっていることと、Jupyter Notebookでコードの公開があります。

http://darribas.org/gds19/

Automating GIS Processes (ヘルシンキ大学2019)

またヘルシンキ大学です。自動化を主に扱ったコースは先に紹介したヘルシンキ大学のコースの次のコースという位置づけです。には、Pythonで一般的なGISタスクを実行する方法に関するチュートリアルがあります。Jupyter Notebookですか?あります!Python言語の知識があることを前提とした中級コースです。

Spatial Data Science (シカゴ大学2017)

上級者のための8回のクラスです。コンセプトの理論的基盤に関する詳細な説明がされます。トピックには、EDAならぬ、探索的空間データ分析(ESDA)、空間回帰、および地理空間データの教師なしクラスターが含まれます。ええ機械学習ですね。コースのラボではGeodaを使用していますが、Pysal — Python Spatial Analysis Library—を使い、ほとんどのラボ演習をPythonで実装することができ、理解を深められます。

https://www.youtube.com/playlist?list=PLzREt6r1Nenlu-MBaxCRL2KZNk62n7o1g

Spatial Data Science and Applications (Coursera)

地理空間ビッグデータの世界で、多く応用例を取り上げ、地理空間データサイエンスのアプリケーションを議論します。このコースにはPythonを含めたプログラミングタスクはありません。しかしながら、Open Sourceで使用されるツールや段階的な手順など、地理空間データサイエンスの実際のアプリケーションが理解できます。

まとめ

地理空間データサイエンス、Geospatial Data Scienceは、グローバルニッチとして最近取り上げられることがありますが、生まれた時からニッチであり、「日陰からあなたのことをじっと見ていた」というような分野の分析です。データサイエンティストがホットと言われますが、地理空間データサイエンティストは、今後も日向にでてくることはないでしょう。まさか、データサイエンティストとして差別化したいなどと考えているかたには、なかなか良いかもしれません。グローバルニッチなので、仕事も見つかります。ただし、日本ではこれを応用しようとする企業なんてほんとに一握りとなってくると思います。今だと、日本企業でも楽天が地図を使ったアプリケーションを検討している仕事が見つかりますね。あと日本企業では宇宙衛星を打ち上げる会社なんつーのもあるみたいですね。そこの取引先をみてみると、ええ世界の名だたる自動車メーカーです。つまり次世代の自動車には、衛星から得られる最新の地図データを使った、走行が欠かせないということなんでしょう。世界ではGoogle, Microsoft、Amazonなど世界の名だたる企業もそうです。何に使っているんでしょう?

https://www.linkedin.com/jobs/search/?geoId=92000000&keywords=geospatial%20analysis&location=%E3%81%99%E3%81%B9%E3%81%A6%E3%81%AE%E5%9B%BD