記事一覧
![](https://assets.st-note.com/production/uploads/images/113922559/rectangle_large_type_2_4209824a401d99bcef8af0d226d0e2d5.png?width=800)
PenLP の定数部分がわからなかったという話。
https://aclanthology.org/2020.tacl-1.20.pdf の p.302 Table 2 の PenLP の式で 5 とか 1 という定数が出てきて、これはナンジャラホイ? という話になったのでメモ。 …
![](https://assets.st-note.com/production/uploads/images/112902628/rectangle_large_type_2_41f7a6b5f935a9d3c024d1004eebb39c.png?width=800)
クラスタリングツール bayon インストール
管理者権限なし。ローカルインストール。sparsehash インストールして動かす方法メモ。 $ git clone https://github.com/sparsehash/sparsehash$ cd sparsehash$ ./config…
英語 Wikipedia と Simple English Wikipedia の対応関係を観る(2)
前回は、Simple Einglish Wikipedia (以下、SimpleWiki) と English Wikipedia (以下、EnWiki) を比較して同一記事タイトルが約20万件あるとわかりました。
ここからはその記事の本文テキストを見ていく準備をします。
前回の最後に同一の記事タイトル数を数えた時に 2つの dump データを 1つの json ファイルにまとめました。
共通記
PenLP の定数部分がわからなかったという話。
https://aclanthology.org/2020.tacl-1.20.pdf の p.302 Table 2 の PenLP の式で 5 とか 1 という定数が出てきて、これはナンジャラホイ? という話になったのでメモ。
もともとの出どころは、下記の Wu et al. (2016) で、
Section 7 Decorder に出てくる (14)式 Length normaliz
クラスタリングツール bayon インストール
管理者権限なし。ローカルインストール。sparsehash インストールして動かす方法メモ。
$ git clone https://github.com/sparsehash/sparsehash$ cd sparsehash$ ./configure --prefix=/work/oka/lib/sparsehash/$ make$ make install$ git clone https
英語 Wikipedia と Simple English Wikipedia の対応関係を観る(1)
Simple English Wikipedia は名前の通り、Simple な英単語と文法を使って書かれた英語版 Wikipedia です。
この Simple な英語で書かれた Wikipedia 記事と通常の英語版 Wikipedia 記事の間の差異や一致を見ていきます。
まずはデータの取得から。クロールせずとも dump が公開されているので、今回は両方 2023/07/01 の du
短単位自動解析用辞書を作る(1)
モチベーション問題意識、問題提起もしくは Issue とも言いますが、スタートとなったモチベーションはこの2つ。
短単位自動解析用、すなわち『MeCab』の辞書としての『解析用UniDic』(以降、単に『UniDic』)の現状の最新版は、2023年03月24日公開の -202302。(2023年7月現在)
以下の4つです。
(https://clrd.ninjal.ac.jp/unidic/ba