国試データの中間フォーマットの理想

国試は概ね、PDFファイルで公開されています
実際に行われた紙面そのままで見れて、すごく有り難い
ですが、コンピュータで扱う上では、プレーンテキストがいい

プレーンテキストで通じなければ、
Windowsのメモ帳で開いて保存する形式、といえばイメージできるでしょうか
飾りも何もなく、シンプルに文字だけのテキスト

ずばり、こんな風がいい

68
全身麻酔中の合併症について、誤っているものを一つ選べ。
1 気道閉塞(気道狭窄)
2 呼吸促進
3 低酸素血症
4 不整脈
2
# 准看護師、平成29年度、その他コメントでもなんでも

問題番号、問題文、選択肢、解答、が改行で並んでるだけ
機械可読と人間可読の最低ラインの折衷案

文字コードは今時、ユニコードでいいでしょう
本当は、漢字や記号はある程度制限したいけど、医学用語で凄い漢字もあるから、ユニコードしかないかも

文字修飾は、HTMLか簡単なマークアップ程度なら?
表現力とか、欲を出せば切りがないのですが、
言えば言うほど面倒になるばかり
技術系ならXMLとかJSONとか言いたくなるけど、文法エラーがあるのはパス
記号の使い方とか、細かい約束は一切抜きで、
ともあれ、プレーンテキストにしてくれれば、後の処理はなんとかなります

最近、公開されている国試のPDFには、意図してか分かりませんが、テキストデータも埋め込まれていて、コピーすればプレーンテキストが取り出せるのもあるけど、
多分、ワープロソフトのお任せで入ったものなので、
文字や順序が適当だったり、化けたり崩れたりします

公文書の公開が、紙面そのままだけじゃなく、内容のテキストも含めて公開だといい
じゃあ誰が責任持ってするのか、となると、そう簡単ではないのでしょうが

本当のデジタル社会を目指して

まだ読む

この記事が気に入ったらサポートをしてみませんか?