テキスト分析の大通り#11: ナイーブベイズテキスト分類用の横持ち連結
前回SQLでのナイーブベイズ利用について整理しました。また次回以降はPython Scikit-learnを使って同じことをしようと思いますが、その前にScikit-Learn用のデータを今回は作ります。入力として一つの文書が半角スペースで区切られた1列に入れる必要があります。英語の半角スペース区切りの文書なら、ワンチャンそのまま利用できるデータの形式です。一方でSQLでは単語ごとに分解し、縦持ちしており、その中で不要語を削除したり、矯正したりしてきました。これはこれで扱いや