日本語ALBERTモデルをアップデートしました
前回の記事はこちら
日本語ALBERTモデルを再学習しました。v2として公開します。
え、また…?日本語には不向きな前処理がかけられていたことを見落としていました。
具体的には以下のコードです。
outputs = unicodedata.normalize("NFKD", outputs)outputs = "".join([c for c in outputs if not unicodedata.combining(c)])(ALBERTのtokenizatio