見出し画像

BPEの概要

形態素解析で低頻度語への対応方法を提案

機械翻訳の評価指標で性能の向上を確認

形態素解析の手法

日本語だとmecabといった辞書ベースの手法が主に用いられる

サブワード

トークンをさらに文字ベースで分割したあとに頻度でペアを見つけることを繰り返す。

サブワード正則化

様々なトークンの分割を用いて学習することによって、色々なサブワードについて学習でき、低頻度語に対しても学習が進むと考えている。

SentencePeace は内部でEMアルゴリズムを用いている。

SentencePeace のデメリット

直観的なアルゴリズムではない。

BPE 

ランダムにサブワードのChunk化をスキップすることに様々なサブワードを学習する。

BPE のメリット

アルゴリズムが直観的。

低頻度語の学習が進む。

機械翻訳で性能アップ。

デメリット

計算負荷が高い。

今後の課題

計算量の改善



私にカフェオレを飲ませるためにサポートしてみませんか?