テキスト分析の大通り#19: 参考にしたページ
このマガジンに記載したテキスト分析、ならびにPythonの処理を行うにあたり、以下のページを参考にさせていただきました。Sholder of Giants.
Anacondaのインストール
MeCabのインストール
Excelファイル読み込み
列取得
docidを振る
件数確認
MeCabの利用
append > concat
FutureWarning: The frame.append method is deprecated and will be removed from pandas in a future version. Use pandas.concat instead.
pandasでの件数カウント、データフレームとして戻す、並び替え、複数列groupby、列名変更
sqlalchemy
mojimoji
neologdn
(neologdnをデータフレームで扱う)
neologd
(自然言語処理の前処理色々)
(neologdをwindowsで)
大文字を小文字に
mecabユーザー辞書追加
sudachipy
sudachipyユーザー辞書追加
(コマンドラインがそのまま実行できなかった)
縦横変換、結合、group by等
Countvectorizer > ナイーブベイズ
(一文字が消える)
TF-IDF > ナイーブベイズ
細かな操作
(csv書き出し)
(case文的な)
(配列に変換)
(型変換)
(配列をデータフレームに変換)
(indexを結合キーに利用する)
(rangeをリストに変換)
(縦持ち変換)
コサイン類似度
(文書側ではなく、単語側の類似度を計算する)
LDA(sklearn)
(トピック数決定)
gensimをpipからインストール
LDA(gensim)
データフレームがらみの操作
(dict > データフレームに変換)
(縦横変換)
行番号の付与
縦分解、SQLでいうregexp_split_to_table()
列名の付与、何度やっても覚えられない
janomeの処理について
pandasのデータフレーム型変換について
Janomeのユーザー辞書について
データフレームの全行削除
///
この記事が気に入ったらサポートをしてみませんか?