記事一覧
300次元の単語ベクトルを1次元に圧縮する
この記事は自分のzennの投稿の転載です。
Word2Vecに代表される単語分散表現を、1次元で表すことを目的とした単語埋め込み手法を日本語データで追試したので手順と結果をまとめます。
今回参考にしたのは京都大学から発表されたWordTourです。著者ご本人の解説資料が以下に公開されています。
単語ベクトルは、昨今の大規模言語モデルの発展を見るに非常に有効であることは明らかです。一方で
Streamlitを使ったテキストアノテーションツール
Streamlitを使ったテキストアノテーションツールを作成したので手順をまとめます.今回は5W1Hのアノテーションを付与するツールを作成します.
先日,仕事中に簡易で良いからテキストのアノテーションをして機械学習モデルに学習させてみたい,という場面に遭遇しました.そこで,最低限の機能だけ持ったアノテーションツールをpythonで作成しました.
StreamlitとはPythonでWebアプリ
SpeechRecognitionを使ったマイク音声認識
以下の記事を参考に音声認識とファイル出力を行うクラスを作ったのでまとめます.
動作環境Ubuntu 20.04
Python3.8.10
環境構築sudo apt-get install portaudio19-devsudo apt-get install python-pyaudio python3-pyaudiopip3 install SpeechRecognition==3.8.1