見出し画像

ローマ字入力に最適なキー配列を考える(比較編)

QWERTYに反抗した古今東西のオルタナティヴ配列の哲学を汲みながら、100万字を解析して日本語ローマ字入力の最適化を考えた「大西配列」の実力を確かめる。

比較方法

Keyboard Layout Analyzer(KLA)というウェブアプリを使う。
解析する入力には、大西配列の制作過程で集めた青空文庫の100万字*を用いる。
ただし、各配列で明らかに打ちやすくなる代替入力がある場合(例:M式は「ji」より「zi」)、入力をそちらに修正して個別に解析を行った。 
また、「ai」などのキーが存在する拡張配列については、Google IMEなどのローマ字テーブル追記で実装した想定で、打鍵する位置のキーに入力をすべて置き換えて解析した。それによって入力字数そのものが減じる場合、総合スコア**を入力字数の変化率で割ったものを補正スコアとして評価する***。


文体の新しさと多様性を考えて選んだ、
太宰 治『人間失格』
片岡 義男『物のかたちのバラッド』
富田 倫生『パソコン創世記』
カーペンター ケニス・J/水上 茂樹『栄養学小史』
高橋 悠治『音楽の反方法論序説』
の各全文を、gooラボのAPIでひらがな化してから変換サイトでローマ字にしたもの。ただし、複数の入力法がある文字については、打鍵数が違う場合は少ないほう(chi→ti, zyu→ju…)、同じ場合はキー使用率が偏るほう(fu→hu, sya→sha…)に修正して揃えた。また、母音にもYにも続かない「ん」はすべて2つめのnを省略し、実際の入力に近づけた。さらに、句読点(、。)と長音符(ー)以外の記号は今回はノイズとして半角スペースに置き換えてある。合計998,589字。実際のファイルはこちら

**
指の移動距離の短さ・強い指の使用率の高さ・手指の連続使用の少なさからKLAが独自に算出しているもの。逆に言えばそれだけであり、頻出二連字が打ちやすいか、同鍵連打を強い指でしているか、コマンドが打ちやすいか、覚えやすいかなどは評価に入っていない。細かい算出方法もブラックボックスなので、あくまで一つの目安。

***
同じ文字列をいくら繰り返したものを入力しても総合スコアは変わらないことから、これは一定字数の入力に対する効率として扱うことができる。

比較対象

ローマ字入力を考えて作られた配列を、検索して見つかった限り集めた。

・Eucalyn配列(2018, ゆかり
・Astarte配列(2018, Neinvalli
・Clandor(2020, Y.Matsubayashi
・Ohashi rev2(2022, フライングオニオオハシ
・Tomisuke配列(2022, とみすけ

より広い議論をするため、プログラマブルキーボードの普及以前に主流であった、ローマ字入力規則に手を加えることで実装するタイプの “配列” からも代表的なものを参戦させる*。

・M式(1983, 森田正典)
・SKY配列(1987, 白鳥嘉勇・小橋史彦
・OEA(2000?, 南堂久史
・AZIK(2000?, 木村清
・DvorakJP(2003, Aki:z
・けいならべ(2007, kouy

比較対象の多くはロウスタッガードな物理配列を前提にしていることから、公平を期して*大西配列もロウスタッガードにアレンジした。

具体的には、外にあるシフトキーに合わせてZXCVをひとつ左の指にずらした。おかげで「ze」を踏んでローマ字のスコアが若干下がっているが、誤差ということにする。


KLAでの再現が難しいルールを実装したカタナ式やHarmony配列を筆頭に、諸事情で今回比較できなかった配列は無数にある。そもそもJISかな配列や親指シフトなど、ローマ字入力以外の配列が同じくらいある。学習コストをかけてでも大量の日本語を疲れずに書きたい職業ライターは特に、かなの名配列たちも要検討だ。

**
KLAではErgodoxのプリセットを選ぶことでオリジナルの大西配列の想定環境(Corne)に近い物理配列の指の移動距離を測ることもできるが、それだけで数ポイント有利になってしまう。


補正した総合スコアが低かった順に詳解する。

12位|AZIK

あくまでデフォルトのQWERTY配列のまま日本語を楽に打つために、木村清氏が配布した拡張規則のハッピーセット。同様のコンセプトにチーズタイピングなど。
単語レヴェルまで省略の手を伸ばすことで今回最大となる12%もの打鍵数削減を実現しているが、根本的な運指の悪さを放置した完全なる対処療法。
「あっ、若干IMEキモい」の略。

11位|Clandor

自然言語処理研究者の「Y.Matsubayashi」氏が、英語用モダン配列の一角Workman(2010, OJ Bucao)をローマ字向けに改変した配列。
三連字の打鍵速度を意識したいうから気になるが、実際にどのような「設計戦略」と「スコアリング」でEucalynやAstarteに勝ったのかはまったく不明*。


これがあり得ない話だと言うつもりはない。
とかげ配列の作者も指摘している通り、KLAスコアの1/6?を占める「手の交互使用」は必ずしも多い方がいいとは言い切れない(一部の片手内連続は交互打鍵より速く楽なため)。母音と子音を分けなかった配列のスコアが顕著に低いのは単にそういう採点基準だからであり、じじつClandorはほかの項目では優秀な部類である。
ちなみに中段の使用率も同様にこだわるべきでない(人差し指の横は5番目に打ちやすいキーではない)ことはWorkmanが主張した通りである。

10位|Ohashi rev2

自作キーボード製作者の「フライングオニオオハシ」氏が独自プログラムによって生成した配列。
日英1000字ずつと解析の規模が小さいうえ指の連続使用が軽んじられているため、母子分離系のなかでは最低のスコア。

9位|Eucalyn

自作キーボード製作者の「ゆかり」氏がTwitterの意見を見ながら考えた配列。キーボード側で実装が完結すること(ローマ字無拡張・英語兼用)を前提にした第3世代の皮切りであり、自キ界隈で有名。「biacco42」氏による改変版もある。
比較対象のなかで唯一ZXCV(のみならずAQWPK)の位置が保存されており、コマンドが打ちやすい。さらにVimという、HJKLでしかカーソル移動できない謎のソフトが使いやすいらしい。
二連字対策の浅さ(wo, uiなど)と小指の酷使が欠点。
英語用配列にローマ字入力で勝ったことが自慢されているが、ローマ字のポジションコストが3位タイで草。

8位|Tomisuke

Eucalynに影響を受けた高校生の「とみすけ」氏が考えた配列。
WOを分離しNを人差し指に移すことでEucalynの目立った欠点を克服した代わりに、「ん→ガ・ハ・ジャ行」の二連字を踏んでいたり、コマンドに使うZが右手に飛んでいたり、そもそもFが飛び出ており私のキーボードには収まらなかったりする。
特筆すべき思想も無いジェネリック配列だが、作者の扇動的な布教努力によって若年層を中心に使用者コミュニティが広がっている。

7位|OEA

作家の南堂久史氏が、日本語・英語・ドイツ語・フランス語のすべてを疲れずに打てるよう提唱した配列。
日本語入力だけを考えた複雑なIME拡張が隆盛した時代にあって、同じ配列で英語を打つことを想定した「多言語配列」の嚆矢であり、残存する僅かな資料からは特許申請の痕跡が読み取れる。
こちらも3×10には収まらない。

6位|Astarte

エンジニアの「Neinvalli」氏が機械学習を使ってローマ字+英語+プログラムに最適化させた配列。
既存の無拡張配列のなかで最高のローマ字スコアを保持しながら、英語用モダン配列(Dvorak・Colmak・Workman)に英語入力で勝っているという驚異のバイリンガル。
指使用率の勾配が理想的なのも1つの美点だが、左人差し指の「や」「ア段→ヤ行・句読点」だけがバグったように辛い。

5位|けいならべ

かな配列「新下駄」の作者としても知られる「kouy」氏が下界(ローマ字入力)のために用意した配列。
「や」「ゆ」「よ」を母音扱いして拗音を2打にしたほか、「っ」「ん」に専用キーを設けることで同鍵連続を極限まで減らしているのが特徴。同様のコンセプトにやまとならべ、きゅうり改やつがしらなど。

4位|M式

NECの研究員であった森田正典氏が考案し専用のキーボードも発売された、ローマ字向けキーマップの先駆け。
母音・子音が五十音表の順に並んでおり、濁音・半濁音(ガザダバパ)が清音(カサタハ)に隣接しているなど、日本人にとって抜群に覚えやすいのが特徴。
頻出二連字(ai・ei・ou)に専用キーを割り当てて打鍵数を減らすというチートを初めて行ったゲームチェンジャーでもあるが、それが無くても73.29点と優秀だ。

3位|DvorakJP

OS標準で選べるDvorak配列(1936, August Dvorak)を日本語入力に活用するため「Aki:z」氏が考えたローマ字拡張規則(を施したDvorak配列)。現在も有志によってGoogle IMEの追記例が配布されているほか、より複雑なルールを実装した派生が数多く存在する
6.5%もの省打鍵を実現する「連母音」「母音→ん」キーの配置と実装はパズル的に美しく、拗音の拡張にはアルペジオ打鍵(片手内の高速連打パターン)が意識されている。
素のDvorakのローマ字スコアが55.03点なのを考えれば大いに有効なハックだが、母音やYなどの根本的な悪配置にはパッチを重ねても見苦しいものがある。

2位|大西配列

今回考えた配列。
制作に用いたのと同じデータで比較している点で若干の有利があるかもしれないが、EucalynやAstarteなどの無拡張配列はもちろん、ほとんどのIME拡張配列よりも(理論上)優れているという嬉しい結果になった。
補正前スコアはぶっちぎりの1位でありながら、ZXCVの保存によるコマンドの打ちやすさ・濁音隣接による覚えやすさを兼ね備え、頻出連母音や拗音のアルペジオ打鍵によるスコア以上の打ちやすさを秘めている。

1位|SKY

情報処理学会の白鳥嘉勇・小橋史彦(NTT)が発表したM式への対抗馬。こちらもいくつかの派生がある
計3.7%の省打鍵をもたらす「母音→ん」拡張の初出である35年前の配列が今回、IME拡張の有用性を擁護する唯一の材料になった。
ただ、9つもの拡張専用キーに押しのけられた句読点や外来音、五十音準拠を中途半端に崩して拗音を踏みに行ったYなどいくつかキモい点があり、手元で入れ替えたところ簡単に2ポイントほど上がったので完成度は微妙。
また、英語やコマンドを打つことは全く考えられておらず、そこまでするなら人はカナ配列を選ぶのではないかという疑問が残る。

参考1|QWERTY

1800年代にモールス信号の書き起こしのためにABC順を崩して作られ、市場の独占によって普及した配列。
FとLを使わないローマ字入力ではホームポジションの使用率はいっそう低く、標準運指では「で」「き」「ウ段→ナ・ハ・マ・ヤ行」など大量の二連字を踏む。
大西配列に比べて指の移動距離は2倍、同指異鍵の連続使用は8.5倍、総合スコアも半分以下になった。
しかし恐ろしいのは人間の適応能力で、右手は上段をホームにして親指を使う、運指を柔軟に切り替えて二連字を躱すといったワークアラウンドの研究によって、競技タイピングの上位勢を見てもQWERTYのシェアはさほど落ちないのが現実だ。
ひとたび慣れてしまった人は速さ目的で配列を替えるべきではないとDvorakのランカーも言っている
まだ慣れてない?なんだそれ。チャンスか?

参考2|英語での比較

ついでに、英語(『罪と罰』英語版全文約113万字)での比較も行った。詳しくは分析しないが、総合スコアの一覧はこちら。SKYとけいならべは位置未定義のアルファベットがあるので失格。

本来英語用なだけあってDvorakJPが強いが、Astarteがそれを上回る機械学習の暴力で1位。

大西配列はというと、白状すれば英語入力のことも多少考えて作ったので、次いで善戦している。二連字も32位まで避けており、英語用モダン配列に食い込める水準だ。

Eucalynは最頻二連字の「th」を3万回踏んでおり、対策の浅さが窺える。

結論

まとめるとこんな感じ。

「結局どれがいいの?」に応えるとこんな感じになりそう。

もちろん、これ以外の配列が最適なペルソナがいないとまでは言わない。結局は自分が納得して使い込める配列が何より最適なのだから。

2022/12/11追記:
大西配列(普及版)の試し打ちができるホームページを作りました。

ここから先は

0字
500円の買い切りで過去・未来すべての記事の有料部分が丸見えになるぜ!!!!

大西拓磨のこと好きな人向けの情報。近況、思い出話、グロいポエム、新コンテンツのβ公開(テストプレイ募集)とか。

この記事が気に入ったらサポートをしてみませんか?