miure

菌類からロケットまで、複雑なものならなんでも扱う雑食系の研究者。 学生結婚からの4児の父。自然、生き物、創発現象などが大好き。博士(工学)。 専門は分散協調制御/システム工学/PBL型工学教育など。自己紹介ページ:http://m-miura.jp/

miure

菌類からロケットまで、複雑なものならなんでも扱う雑食系の研究者。 学生結婚からの4児の父。自然、生き物、創発現象などが大好き。博士(工学)。 専門は分散協調制御/システム工学/PBL型工学教育など。自己紹介ページ:http://m-miura.jp/

    マガジン

    • テキストマイニング技術の無駄遣い

      大量のテキストデータを分析して有益な情報を取り出す技術である「テキストマイニング」の手法を使って、特に有益ではない情報を取り出します。分析対象:「異世界転生小説」や「死ぬほど洒落にならない怖い話を集めてみない?」など

      • テキストマイニング技術の無駄遣い

    最近の記事

    • 固定された記事

    はじめに

    こんにちは、miure(みうれ)です。工学系の研究者をやりながら、仲間たちと起業した会社の経営とか、4児の父とかをしています。 研究成果は論文で、会社の活動はコーポレートサイトやブログで、実績などはプロフィールページで発信していますが、その他の雑多なアウトプット先として遅ればせながら noteアカウントをつくりました。 ぼちぼちやっていきたいと思います。アウトプット先がなくて溜まっているものは次のような感じです。  ​● プロジェクト型工学教育の中でのいろいろな気づき

      • 異世界転生あるあるを定量的に導出してみた(4) まとめ

        この記事は、以下の記事の続きです ・異世界転生あるあるを定量的に導出してみた(1):準備と例 ・異世界転生あるあるを定量的に導出してみた(2):結果① ・異世界転生あるあるを定量的に導出してみた(3):結果② このシリーズでは、テキスト分析によって「異世界あるある」を定量的に導出することにチャレンジしてみました。「小説家になろう」からスクレイピングしたコーパス(100作品22,466ページ分)に対して言葉の共起関係を調べることで、たくさんのそれっぽい「異世界あるある」が抽出

        • 異世界転生あるあるを定量的に導出してみた(3)

          この記事は、以下の記事の続きです ・異世界転生あるあるを定量的に導出してみた(1):準備と例 ・異世界転生あるあるを定量的に導出してみた(2):結果① 前の記事で上位150までの頻出語とその共起語から異世界あるあるを導出してきました。もうたくさん出たので十分な気もしますが、上位300まで分析してしまったので、最後までやりたいと思います。 しかしここまで来ると上位頻出語の共起語が中心語としてたくさん現れてきて、すでにあるあるとして抜き出した関係も多くなってきました。そこで、

          • 異世界転生あるあるを定量的に導出してみた(2)

            この記事は、以下の記事の続きです ・異世界転生あるあるを定量的に導出してみた(1):準備と例 前の記事で紹介したような手順で「異世界あるある」を導出していきます。まずは頻出語上位15位とその共起語から生成した共起ネットワークを見ながら考えてみます。 共起ネットワークを見ながら、あるあるにつながりそうな共起関係をピックアップしていきます。特にリンクが太い関係(相互情報量スコアが大きい関係)は優先的に着目します。(※そもそもMIスコアが高い語を抜き出しているので、この図中でリ

          マガジン

          マガジンをすべて見る すべて見る
          • テキストマイニング技術の無駄遣い
            miure

          記事

          記事をすべて見る すべて見る

            異世界転生あるあるを定量的に導出してみた(1)

            ぼくは無類の漫画好きで、これまでに読んだ漫画が1万冊を突破しました。読み終わった漫画のリスト(ブクログ)を見ると、この数年間はとにかく「異世界転生モノ」が多いです。異世界転生モノばかりを選んで読んでいるというわけではなく、世の中に出てくる異世界転生漫画の量がどんどん増えているからです。 面白い/面白くないは作品それぞれで、賛否もいろいろあると思いますが、これだけ量があると、お話や設定に一定のパターンがあることについて議論できるようになってきます。いわゆる「あるある」や「テン

            ネット上の怖い話をトピックモデルで自動分類してみた(3)

            こちらの記事の続きです。 トピックモデルによる分類ではないのですが、せっかくコーパス化と分かち書きまでやったので、ついでに共起(collocation)まで見てみました。 共起(collocation)とは、ある言葉とある言葉が文書の中で同時に現れることを指します。「よく共起する言葉」を評価することでいろいろなことが分かります。評価の方法(得点をつける方法)には単純頻度の他、Tスコア、MIスコア、LogLogスコアなど様々なやり方がありますが、ここではMIスコアを使いたい

            ネット上の怖い話をトピックモデルで自動分類してみた(2)

            こちらの記事のつづきです。 (1) ではネット上の怖い話14,000件から30個のトピックを生成してみました。では、その14,000件の怖い話はそれぞれどのトピックに分類されるのでしょうか?LDAは一つの文書が複数のトピックを持っていることを仮定していますが、ここではそれぞれの文書について最も重み(尤度)が大きいトピックをその文書の主要なトピックとして分類します。すると、各トピックに分類される文書の数は下図のような分布になります。 一番多くの文書が分類されたのは Topi

            ネット上の怖い話をトピックモデルで自動分類してみた(1)

            皆さんは怖い話は好きでしょうか? ぼくは怖い話が大好きで、ネット上の有名な怖い話はだいたい既読という状態です。コトリバコとか八尺様とかクネクネとか、そういうやつです。 今回はテキスト分析の練習台として、自分がよく知っている文書集合である「ネット上の怖い話」を対象にして文書の自動分類にトライしてみました。ゆくゆくは自動生成とかもやってみたいのですが、まずは分類です。 今回トライしたのは、LDA(潜在的ディリクレ配分法)を用いたトピックモデルによる分類です。解説が目的ではない