Teruaki Oka

NLPの後顧学者。

Teruaki Oka

NLPの後顧学者。

記事一覧

Newsela コーパスの文アライメントツールを使う

今回は簡単に n-gram ベースの『CATS』使う方法。 [1] CATS: A Tool for Customized Alignment of Text Simplification Corpora [2] Sentence Alignment Methods for Impro…

Teruaki Oka
8か月前
2

英語 Wikipedia と Simple English Wikipedia の対応関係を観る(2)

前回は、Simple Einglish Wikipedia (以下、SimpleWiki) と English Wikipedia (以下、EnWiki) を比較して同一記事タイトルが約20万件あるとわかりました。 ここからはその…

Teruaki Oka
9か月前

PenLP の定数部分がわからなかったという話。

https://aclanthology.org/2020.tacl-1.20.pdf の p.302 Table 2 の PenLP の式で 5 とか 1 という定数が出てきて、これはナンジャラホイ? という話になったのでメモ。 …

Teruaki Oka
10か月前
1

クラスタリングツール bayon インストール

管理者権限なし。ローカルインストール。sparsehash インストールして動かす方法メモ。 $ git clone https://github.com/sparsehash/sparsehash$ cd sparsehash$ ./config…

Teruaki Oka
10か月前

英語 Wikipedia と Simple English Wikipedia の対応関係を観る(1)

Simple English Wikipedia は名前の通り、Simple な英単語と文法を使って書かれた英語版 Wikipedia です。 この Simple な英語で書かれた Wikipedia 記事と通常の英語版 W…

Teruaki Oka
10か月前
1

短単位自動解析用辞書を作る(5)

設定ファイルの準備 いよいよ解析用辞書の学習フェーズです。『MeCab』用の辞書の学習にはseed として以下の設定ファイルが必要です。 今回の目的は最新版『UniDic』の軽…

Teruaki Oka
11か月前
2

短単位自動解析用辞書を作る(4)

学習用コーパスを用意する 『UniDic』の学習には最低限、『現代日本語書き言葉均衡コーパス(BCCWJ)』や『日本語話し言葉コーパス(CSJ)』が必要です。 しかしこれらの…

Teruaki Oka
11か月前
3

短単位自動解析用辞書を作る(3)

連接表を圧縮する(その2) 前回書いた圧縮法で、『UniDic』の matrix.def は、 21,202x18,859 (5.9GB) → 18,157x15,572 (4.2GB) と、約70%のサイズに圧縮できました…

Teruaki Oka
11か月前
1

短単位自動解析用辞書を作る(2)

連接表を圧縮する(その1) 前回書いたモチベーションの1つ目は『UniDic』の単語連接表 matrix.def が大き過ぎるというものでした。 これを最終的に 1/100 の大きさまで…

Teruaki Oka
11か月前
3

短単位自動解析用辞書を作る(1)

モチベーション問題意識、問題提起もしくは Issue とも言いますが、スタートとなったモチベーションはこの2つ。 短単位自動解析用、すなわち『MeCab』の辞書としての『解…

Teruaki Oka
1年前
9
Newsela コーパスの文アライメントツールを使う

Newsela コーパスの文アライメントツールを使う

今回は簡単に n-gram ベースの『CATS』使う方法。
[1] CATS: A Tool for Customized Alignment of Text Simplification Corpora
[2] Sentence Alignment Methods for Improving Text Simplification Systems

まずはなんとかして『Newselaコーパス(以

もっとみる
英語 Wikipedia と Simple English Wikipedia の対応関係を観る(2)

英語 Wikipedia と Simple English Wikipedia の対応関係を観る(2)

前回は、Simple Einglish Wikipedia (以下、SimpleWiki) と English Wikipedia (以下、EnWiki) を比較して同一記事タイトルが約20万件あるとわかりました。
ここからはその記事の本文テキストを見ていく準備をします。

前回の最後に同一の記事タイトル数を数えた時に 2つの dump データを 1つの json ファイルにまとめました。
共通記

もっとみる
PenLP の定数部分がわからなかったという話。

PenLP の定数部分がわからなかったという話。

https://aclanthology.org/2020.tacl-1.20.pdf の p.302 Table 2 の PenLP の式で 5 とか 1 という定数が出てきて、これはナンジャラホイ? という話になったのでメモ。

もともとの出どころは、下記の Wu et al. (2016) で、
Section 7 Decorder に出てくる (14)式 Length normaliz

もっとみる
クラスタリングツール bayon インストール

クラスタリングツール bayon インストール

管理者権限なし。ローカルインストール。sparsehash インストールして動かす方法メモ。

$ git clone https://github.com/sparsehash/sparsehash$ cd sparsehash$ ./configure --prefix=/work/oka/lib/sparsehash/$ make$ make install$ git clone https

もっとみる
英語 Wikipedia と Simple English Wikipedia の対応関係を観る(1)

英語 Wikipedia と Simple English Wikipedia の対応関係を観る(1)

Simple English Wikipedia は名前の通り、Simple な英単語と文法を使って書かれた英語版 Wikipedia です。

この Simple な英語で書かれた Wikipedia 記事と通常の英語版 Wikipedia 記事の間の差異や一致を見ていきます。

まずはデータの取得から。クロールせずとも dump が公開されているので、今回は両方 2023/07/01 の du

もっとみる
短単位自動解析用辞書を作る(5)

短単位自動解析用辞書を作る(5)

設定ファイルの準備

いよいよ解析用辞書の学習フェーズです。『MeCab』用の辞書の学習にはseed として以下の設定ファイルが必要です。

今回の目的は最新版『UniDic』の軽量化と設定ファイルの不備の修正なので、『unidic-csj-202302_full』のものを修正して使いました。

dicrc は、ほぼ別モノに差し替えていますが、主な変更点は下記の通り。

eval-size が 1

もっとみる
短単位自動解析用辞書を作る(4)

短単位自動解析用辞書を作る(4)

学習用コーパスを用意する

『UniDic』の学習には最低限、『現代日本語書き言葉均衡コーパス(BCCWJ)』や『日本語話し言葉コーパス(CSJ)』が必要です。
しかしこれらのコーパスはお高く、アカデミックでない一般(非営利)ですと、
BCCWJ: 20万円
CSJ: 25万円
となっています。(2023/7月現在)

しかも最新版の『UniDic』(ver. 202302) は明示されていません

もっとみる
短単位自動解析用辞書を作る(3)

短単位自動解析用辞書を作る(3)

連接表を圧縮する(その2)

前回書いた圧縮法で、『UniDic』の matrix.def は、
21,202x18,859 (5.9GB) → 18,157x15,572 (4.2GB)
と、約70%のサイズに圧縮できました。
ただ、これでもまだサイズが大きいので、さらに小さくしてきます。

前回の圧縮方法は、
まず matrix.def の行を成す right-id に着目し、列を成す le

もっとみる
短単位自動解析用辞書を作る(2)

短単位自動解析用辞書を作る(2)

連接表を圧縮する(その1)

前回書いたモチベーションの1つ目は『UniDic』の単語連接表 matrix.def が大き過ぎるというものでした。
これを最終的に 1/100 の大きさまで圧縮できたのですが、順を追って書いていきます。

/unidic-cwj-202302_full$ head matrix.def21202 188590 0 00 1 -18140 2 -18140 3 -18

もっとみる
短単位自動解析用辞書を作る(1)

短単位自動解析用辞書を作る(1)

モチベーション問題意識、問題提起もしくは Issue とも言いますが、スタートとなったモチベーションはこの2つ。

短単位自動解析用、すなわち『MeCab』の辞書としての『解析用UniDic』(以降、単に『UniDic』)の現状の最新版は、2023年03月24日公開の -202302。(2023年7月現在)
以下の4つです。
(https://clrd.ninjal.ac.jp/unidic/ba

もっとみる