見出し画像

テキスト分析の大通り#19: 参考にしたページ

2022年10月5日 19:55

このマガジンに記載したテキスト分析、ならびにPythonの処理を行うにあたり、以下のページを参考にさせていただきました。Sholder of Giants.

Anacondaのインストール

MeCabのインストール

Excelファイル読み込み

列取得

docidを振る

件数確認

MeCabの利用

append > concat
FutureWarning: The frame.append method is deprecated and will be removed from pandas in a future version. Use pandas.concat instead.

pandasでの件数カウント、データフレームとして戻す、並び替え、複数列groupby、列名変更

sqlalchemy

mojimoji

neologdn

(neologdnをデータフレームで扱う)

neologd

(自然言語処理の前処理色々)

(neologdをwindowsで)

大文字を小文字に

mecabユーザー辞書追加

sudachipy

sudachipyユーザー辞書追加

(コマンドラインがそのまま実行できなかった)

縦横変換、結合、group by等

Countvectorizer > ナイーブベイズ

(一文字が消える)

TF-IDF > ナイーブベイズ

細かな操作
(csv書き出し)

(case文的な)

(配列に変換)

(型変換)

(配列をデータフレームに変換)

(indexを結合キーに利用する)

(rangeをリストに変換)

(縦持ち変換)

コサイン類似度

(文書側ではなく、単語側の類似度を計算する)

LDA(sklearn)

(トピック数決定)

gensimをpipからインストール

LDA(gensim)

データフレームがらみの操作
(dict > データフレームに変換)

(縦横変換)

行番号の付与

縦分解、SQLでいうregexp_split_to_table()

列名の付与、何度やっても覚えられない

janomeの処理について

pandasのデータフレーム型変換について

Janomeのユーザー辞書について

データフレームの全行削除

///

この記事が気に入ったらサポートをしてみませんか？