公開日記 - 13日目

明日開催のハッカソンに出場予定ですので、今日も手短に日記を記していきます。

機械学習

今日もテキストデータの扱いの部分をやっていきました。
そもそものデモデータに含まれる単語数が7万語くらいあるので、とにかく学習に時間がかかりました。(普通の機械学習はこれ以上なんだろうが。)
テキストデータについて、今日、具体的に勉強したことは、LDA (Latent Dirichlet Allocation)と呼ばれる、トピックモデルについてです。簡単な説明をすると、それぞれの文書(データ)に1つ以上のトピックを与えていくという処理をする、教師なし学習です。
言語を扱う処理だと、結果等が言葉で表されるので、トピックがなにを表しているのか等、直感的に見れるのが良いなと思いました。

明日の目標

明日はハッカソンに全振りするので、勉強はしない予定です。
日記には、ハッカソン初日の感想でも書こうかなと思います。

それでは、おやすみなさい。

この記事が気に入ったらサポートをしてみませんか?