Courseraのデータサイエンス専門講座を受けた感想その3

2020年3月29日 16:26

Courseraのデータサイエンス講座の4コース目、5コース目を受講しました。前回のコースの受講感想はこちらになります。

探索的データ解析

　R言語を使ってデータをグラフを使って可視化することについて学べます。最初はデフォルトで使えるグラフのプロットをする関数を使い、pngに保存するまでをします。ですが、デフォルトのグラフではモノクロな図しかできず、あまり見やすくはありません。なので、ggplotを使って色の使いわけからより高度な可視化をする方法を学ぶことができます。ここでは線グラフや散布図、箱ひげ図などをプロットし、その見方について学ぶことができます。
　さらに高度な可視化として、階層的クラスタリング、k-meansや次元削減が学べます。これにより、対象のデータに対して、どういう情報が含まれているかを見ることができるようになります。
　最後に、アメリカ合衆国におけるPM2.5のデータについて実際に分析をする様子をみることができます。データ分析に起こりうる問題と、何に着目してるかを学ぶことができました。

Reproducible Research

　データ分析においては再現可能性が重視されています。再現可能性とは、自分が行った分析を、他の誰かが追試でき、同じ結果を得ることができるようにすることです。なぜこれが重要視されるかというと、データ分析はエビデンスが重要視され、自分の分析に説得力を出すことができるからです。このコースではRMarkdownをknitrを使って書くことにより、再現可能性を実現する方法を学ぶことができます。
　また、ここでもデータ分析のケーススタディが紹介されます。大気汚染と、ハイスループット細胞生物学という細胞生物技術の自動化をテーマについての事例を学ぶことができます。

まとめ

　探索的データ解析はデータサイエンスにおいて重要なプロセスだと思うので、それを実例とともに学ぶことができたのはよかったと思います。
　また、データ分析の根底となる考え方である再現可能性を学べたのはよかったと思います。これについて学べることは意外と少なかったので、そのやり方と考え方を実例とともに学べました。

この記事が気に入ったらサポートをしてみませんか？