【#45】統計データ分析コンペティションに正式に応募しました!
おはようございます!
データサイエンスを学んでいる、大学4年生のUKIです。
今日は、『統計データ分析コンペティションに正式に応募しました!』というテーマでお話ししたいと思います。
ちょっと先が見えてきました!
先日、統計データ分析コンペティションというものに参加してみようかなという記事を投稿させていただきました。
【#38】今年一の大勝負になりそうな予感|UKI |データサイエンティストになる地方学部生 (note.com)
この時点では、参加する前提で考えてはいたのですが、まだ応募はしていませんでした。
というのも、応募期限に結構余裕があったので、実際にデータを見て、どんなことができそうかを考えてから応募しようと考えていました。
そんな中でこの一週間ほど、いろいろ試行錯誤しながら考えていて、なかなかテーマが決まらなかったのですが、昨日、ようやく突破口が見えてきたような気がします。
まだなんとなくですし、今後テーマを変える可能性も大いにありますが、とりあえず先に進めそうなので、タイトルにある通り、正式に応募しました!
今後は、実際にデータから問題を特定して、分析して、改善策を提案するみたいな形になると思いますが、多分ここでは踏み込んだ話をしないと思います。
※大体の進捗報告と最後の結果報告はできると思います。
Googleトレンドのデータって、意外と面倒???
いきなり話は変わるのですが、現在、卒業研究でGoogleトレンドのデータを扱おうと思っています。
Googleトレンドは、特定のキーワードがどれだけ検索されたかを数値で出してくれるツールで、表示させる期間や地域を指定したりできる、非常に便利なツールです。
しかし、実際に出してくれる数値は「そのキーワードが検索された回数」ではなく、「指定した条件下で最大になる値を100とした時の割合」が出力されます。
例えば、「データサイエンス」というキーワードを直近1カ月の期間で出力したとします。
すると、直近1カ月の中で最大になる日の値を100として、それ以外の日の値は0から100の間に収まるようになっています。
そしてもう一つ不便さを感じたのが、表示される期間の粒度です。
今回、卒業研究では日別のデータが欲しかったのですが、表示させる期間を伸ばすと、日別ではなく、週別や月別の値が表示されてしまいます。
表示させる期間が9カ月未満であれば、日別で表示されることが確認できたので、今回は8カ月ごとにCSVファイルに出力して、それらを結合させる必要があるのですが、この結合をする際にも少し工夫が必要です。
今はまだこの結合の処理が完成していないのですが、また後日、Googleトレンドのデータを日別に取得するための手順を紹介したいと思います。
まとめ
最後まで読んでいただき、ありがとうございました。
今日は、『統計データ分析コンペティションに正式に応募しました!』というテーマでお話しさせていただきました。
今後も日々の活動や学び、考えていることなどを発信していくので、よろしくお願い致します。
また、X(旧:Twitter)でも発信しているので、フォローお願いします!
匿名で質問募集中です!
聞いてみたいことなど、お気軽にメッセージください!
この記事が気に入ったらサポートをしてみませんか?