見出し画像

テキスト分析の大通り#19: 参考にしたページ

このマガジンに記載したテキスト分析、ならびにPythonの処理を行うにあたり、以下のページを参考にさせていただきました。Sholder of Giants.

  • Anacondaのインストール

  • MeCabのインストール

  • Excelファイル読み込み

  • 列取得

  • docidを振る

  • 件数確認

  • MeCabの利用

  • append > concat
    FutureWarning: The frame.append method is deprecated and will be removed from pandas in a future version. Use pandas.concat instead.

  • pandasでの件数カウント、データフレームとして戻す、並び替え、複数列groupby、列名変更

  • sqlalchemy

  • mojimoji

  • neologdn

(neologdnをデータフレームで扱う)

  • neologd

(自然言語処理の前処理色々)

(neologdをwindowsで)

  • 大文字を小文字に

  • mecabユーザー辞書追加

  • sudachipy

  • sudachipyユーザー辞書追加

(コマンドラインがそのまま実行できなかった)

  • 縦横変換、結合、group by等

  • Countvectorizer > ナイーブベイズ

(一文字が消える)

  • TF-IDF > ナイーブベイズ

  • 細かな操作
    (csv書き出し)

(case文的な)

(配列に変換)

(型変換)

(配列をデータフレームに変換)

(indexを結合キーに利用する)

(rangeをリストに変換)

(縦持ち変換)

  • コサイン類似度

(文書側ではなく、単語側の類似度を計算する)

  • LDA(sklearn)

(トピック数決定)

  • gensimをpipからインストール

  • LDA(gensim)

  • データフレームがらみの操作
    (dict > データフレームに変換)

(縦横変換)

行番号の付与

縦分解、SQLでいうregexp_split_to_table()

列名の付与、何度やっても覚えられない

janomeの処理について

pandasのデータフレーム型変換について

Janomeのユーザー辞書について

データフレームの全行削除

///

この記事が気に入ったらサポートをしてみませんか?