データ置き場

TwitterとQuoraから平仮名ベースで86141語収集(2023年)。

ひらがな(8.6万字)

ひらがな 頻度
ひらがな 頻度


ローマ字(14.8万字)

日本語のローマ字入力 頻度


日本語のローマ字入力 頻度


頻度表
日本語+英語


頻度表
日本語:英語 = 5:1


キーの頻度(参考)


2連字(bigram)

平仮名からローマ字への変換は「じ→zi」としている。
「じ→ji」とした場合は
「 nz → 66  nj → 152 」
となる(一番右の表)。

ny は拗音と「ん+や行」があるが、まとめて拗音の方にカウントしている。


元データから母音を消した際の、子音のbigram

子音の一文字飛ばしのつながりやすさ(d○s, n○kなど)の大まかな把握が目的。
元データから母音を消しただけなので、例えばn○tの分析を目的とした
nt の1021回には「n○○t, nt」などが含まれる。
元の文で言えば「なおと、忖度」などが含まれる。


元データから母音を消した際の、子音のbigram

%計は、それぞれの子音の頻度%を単に足したもの。
頻度が高い子音同士がつながりやすいのは「まぁそりゃそうだよね」なので、
%計を出すことで「頻度の割につながりやすいね」のペア探すのが目的。
視覚化したのが↓


元データから母音を消した際の、子音のbigram

線の右下にあるのが「頻度低い割につながりやすいペア」


元データから子音を消した際の、母音のbigram


英語のbigram

https://gist.github.com/lydell/c439049abac2c9226e53


ショートカットキー

タブ操作
ctrl + t  新しいタブ
ctrl + w  タブを閉じる
ctrl + shift + t  消したタブの復元
ctrl + pgup  右のタブに移動(pgdnで左)
ctrl + tab  右のタブに移動(+shift で左)
ctrl + 数字  ?番目のタブに移動(0は一番右)
ctrl + f  ページ内検索(ctrl + g も同様)
ctrl + e  検索
ctrl + h  履歴
alt + ←  戻る

ウィンドウ操作
alt + tab  上2枚のウィンドウの入れ替え
alt + esc  ウィンドウの循環
win + 数字  ?番目のタスクバーのアプリ起動
win + e  エクスプローラーを開く
win + L  画面ロック
win + ctrl + →  隣の仮想デスクトップに移動

文字入力
ctrl + t, u, i, o 文字のいろいろ変換(F6~F10と同じ)

QWERTY前提のキーバインド

  • wasd移動

  • その他ゲーム系(Lshift, Lalt, space, tab, 1234, wasd以外の左手キーの各機能)

  • hjkl カーソル移動(というか vi操作全般)

この記事が気に入ったらサポートをしてみませんか?