見出し画像

SAT大正新脩大藏經テキストデータベースのコピペツールを作ってみた。

私はSATの2015年版が使い慣れているので、いつもそれを使用しているのだが、コピペの際には、「T0001_.01.0001a05:」とかいうカタログ番号や「画像」という文字列が含まれていて、非常に不便に感じていた。

論文執筆の際には、いちいちこれらを除去しないといけない…。

もしかすると、設定で排除する方法とかがあるのかも知れないが、SATの細かい機能もよくわからないので、ブラウザプラグインでなんとかしてみることにした。はっきりいって学生時代に作っておけばよかった…。

そんでもってできたのがこれ。
SAT Copy & Paste 支援プラグイン

まず基本機能として、半角スペース、アルファベット、数字、コロン及び「画像(IIIF)」という文字列、複数行に渡る連続した改行を削除する。

他にオプション機能として、
(1)句点を取り除く機能
(2)改行を取り除く機能
これはワードにコピペしたいときに使う。
(3)文節区切り
「改行を取り除く機能」を使ったときに、文節に改行を加える機能。
(4)偈頌の添削
偈頌のコピペの際には、不要なスペースがあるので除去。
(5)異体文字同定
学生にはありがちだと思うが、旧字体というのはめちゃくちゃ読みづらい。
そこで自動で新字体にさせる機能を追加した。

文節区切りは文字数で無理やりなんとかさせたのだが、「 西天經三藏朝散大夫試鴻臚卿」といったところは、最初の一文字のスペースを認識させれば、もう少し区切れそう。のちのちアップデートしよう。

話は変わるが…

プログラムコードを書いて、ミスを修正しているうちに、因縁やら空やらダルマやらを分析している気持ちになった。
こういう条件の時、こういう結果がおこって、色んな条件や要素によって構築されている。

プログラムコードをかくとき、全体としての動作はわかるけれども、その一々のコードの動作について、人間には認知が難しいから、フラグ名やら説明をつけて「仮」の名前を与える…。

最後に思ったことは、インターフェイス部分のところだ。
細かい設定は人間が視覚で認知し、クリックして設定させる。
一方、機械側は、その設定にそった決まった動作をする。
仲介役になるのがインターフェイスだ。

この仕組みは、ある意味、五蘊十二処十八界に似ているかも知れない…。
そんなことを思いながら、今日も一日が終わった。

この記事が気に入ったらサポートをしてみませんか?