kaeru

自動車←印刷←大学院←大学編入←高専

2 フォロー 0 フォロワー

300次元の単語ベクトルを1次元に圧縮する

この記事は自分のzennの投稿の転載です。　Word2Vecに代表される単語分散表現を、1次元で表すことを目的とした単語埋め込み手法を日本語データで追試したので手順と結果…

kaeru

1年前

文字列や単語の類似度を測る6つの手法

この記事は自分のzennの投稿の転載です。　単語の類似度を計算するプログラムを書いていたところ、「文字列の類似度」や「単語の類似度」という表現を見て、何が違うんだ…

kaeru

1年前

BERTの実装を分解する

この記事は自分のzennの投稿の転載です。以下の書籍を読んだ際にBERTの実装をコメントを付けながら読み進めていきましたので、まとめます。新卒で入社した会社で深層学習…

kaeru

1年前

Streamlitを使ったテキストアノテーションツール

Streamlitを使ったテキストアノテーションツールを作成したので手順をまとめます．今回は5W1Hのアノテーションを付与するツールを作成します．先日，仕事中に簡易で良い…

kaeru

1年前

Deticによる物体検出とセグメンテーション

以下のリポジトリを参考に物体検出モデルDeticをローカル環境で動作確認したのでまとめます．公式実装は以下です．リポジトリにはセマンティックセグメンテーションも実装…

kaeru

1年前

SpeechRecognitionを使ったマイク音声認識

以下の記事を参考に音声認識とファイル出力を行うクラスを作ったのでまとめます．動作環境Ubuntu 20.04 Python3.8.10 環境構築sudo apt-get install portaudio19-devsu…

kaeru

1年前

kaeru

2023年2月16日 22:30

300次元の単語ベクトルを1次元に圧縮する

この記事は自分のzennの投稿の転載です。

　Word2Vecに代表される単語分散表現を、1次元で表すことを目的とした単語埋め込み手法を日本語データで追試したので手順と結果をまとめます。

　今回参考にしたのは京都大学から発表されたWordTourです。著者ご本人の解説資料が以下に公開されています。

　単語ベクトルは、昨今の大規模言語モデルの発展を見るに非常に有効であることは明らかです。一方で

もっとみる

kaeru

2023年2月16日 22:26

文字列や単語の類似度を測る6つの手法

この記事は自分のzennの投稿の転載です。

　単語の類似度を計算するプログラムを書いていたところ、「文字列の類似度」や「単語の類似度」という表現を見て、何が違うんだと感じたので調べた結果をまとめます。

　調べた結果、筆者の認識では「文字列の類似度は(手法は問わず)文字列の一致度」、「単語の類似度は(手法は問わず)文章中の文脈に基づいた意味の一致度」という認識になりました。さらに、単語の類似度だ

もっとみる

kaeru

2023年2月16日 22:01

BERTの実装を分解する

この記事は自分のzennの投稿の転載です。

以下の書籍を読んだ際にBERTの実装をコメントを付けながら読み進めていきましたので、まとめます。新卒で入社した会社で深層学習を勉強していたときに大変お世話になった書籍です。自信を持っておすすめします。

今回はモデルの説明だけでも説明量が多い関係から、optimizerやDatasetLoader、推論部の説明は割愛します。ご了承ください。

BERT

もっとみる

kaeru

2023年1月13日 20:54

Streamlitを使ったテキストアノテーションツール

Streamlitを使ったテキストアノテーションツールを作成したので手順をまとめます．今回は5W1Hのアノテーションを付与するツールを作成します．

先日，仕事中に簡易で良いからテキストのアノテーションをして機械学習モデルに学習させてみたい，という場面に遭遇しました．そこで，最低限の機能だけ持ったアノテーションツールをpythonで作成しました．

StreamlitとはPythonでWebアプリ

もっとみる

kaeru

2023年1月5日 16:00

Deticによる物体検出とセグメンテーション

以下のリポジトリを参考に物体検出モデルDeticをローカル環境で動作確認したのでまとめます．公式実装は以下です．リポジトリにはセマンティックセグメンテーションも実装されており，結果を合わせて確認できます．

DeticとはMeta researchがECCV2022で報告した物体検出を行うモデルです．出典は以下です．

物体検出タスクは，位置特定とクラス予測から定義されると解釈して，それらを分解し

もっとみる

kaeru

2023年1月3日 16:07

SpeechRecognitionを使ったマイク音声認識

以下の記事を参考に音声認識とファイル出力を行うクラスを作ったのでまとめます．

動作環境Ubuntu 20.04

Python3.8.10

環境構築sudo apt-get install portaudio19-devsudo apt-get install python-pyaudio python3-pyaudiopip3 install SpeechRecognition==3.8.1

もっとみる

記事一覧

300次元の単語ベクトルを1次元に圧縮する

文字列や単語の類似度を測る6つの手法

BERTの実装を分解する

Streamlitを使ったテキストアノテーションツール

Deticによる物体検出とセグメンテーション

SpeechRecognitionを使ったマイク音声認識

300次元の単語ベクトルを1次元に圧縮する

文字列や単語の類似度を測る6つの手法

BERTの実装を分解する

Streamlitを使ったテキストアノテーションツール

Deticによる物体検出とセグメンテーション

SpeechRecognitionを使ったマイク音声認識