見出し画像

文章型データベースを求めて①テキストファイルは永遠

 新聞スクラップ・電話応対記録・議事録など「文章」を「時系列で整理」したい。これを「and検索」したい。検索、閲覧はスマホでもできるようにしたい。見出し単位で記事を「個別表示・個別印刷」したい。しかも「手軽・無料」で。そんなアプリを探したのですが、見つけられませんでした。
 そこで、別稿で紹介したTxt_htmlの作成に至った次第です。
 pomeraの日記をデータベースに~html化のすすめ~

 Txt_html作成の道のりを何回かに分けて紹介します。
 第1回目は、「テキストファイルは永遠」です。
 データをテキストファイルであることにこだわった理由について説明します。

テキストファイルの一例

テキストファイルの汎用性

 新聞スクラップ・電話応対記録・議事録など文章をデータベース化するのにどのアプリがよいのかあれこれ試しました。google keep、Evernote、OneNoteなどを試しましたが一長一短があり、一つに絞り込めませんでした。
 どのアプリを使うにしてもテキストファイルで入力しておけば、全てのアプリで使いまわしができます。テキストファイルは汎用性があります。
 そこで、新聞スクラップ・電話応対記録・議事録などを上の図のようなテキストファイルで保存することからはじめました。

プレーンテキストファイル

  • 汎用性、互換性のためにプレーンテキストファイルにこだわる
     webページに使われるhtmlもテキストファイルですが記号(タグ)が付加されています。他のアプリに取り込む際にこの記号は邪魔になります。
     他のアプリにデータを変換しやすいように、できるだけプレーンテキストファイル (英:plain text file)にします。
     プレーンテキストファイルとは 、文字、タブ、改行マークだけで、「他の情報は含まれていない」テキストファイルです。

  • 例外として普及している「#」「*」を認める
     文章型データベースは「見出し」と「本文」という形をとります。「ここが見出しですよ」と示す記号が必要です。
     見出し記号として「#」が使われていますが、「#」はハッシュタグとして特に普及しています。このnoteでもハッシュタグとして有効です。そこで「#」はハッシュタグとして使うことにします。
     「#」をハッシュタグとしましたので、見出し記号を「*」とします。「*」は箇条書きリストの記号としてよく使われています。

*ここは見出しです。
ここは本文です。
ここは本文の2行目です。 #ハッシュタグ  です。
 #ハッシュタグ  です。

*ここは次の記事の見出しです。
ここは次の記事の本文です。
ここは次の記事本文の2行目です。

テキストファイルは手軽・無料

 テキストファイル作成、編集に特別なアプリは必要ありません。Windowsパソコンには「メモ帳」が標準で準備されています。
 スマホにもテキストファイルが使えるメモアプリがあります。
 しかもどのアプリでも文章はテキストファイルですので「手軽」かつ、新たなアプリを購入する必要がないということから「無料」ともいえます。

文字コード、改行コードについて

 テキストファイルには文字コードと、改行マークの種類があります。
文字コードは
Shift-JIS (ANSI)
UTF-8
UTF-16
などがあります。アプリが対応する文字コードでないと文字化けすることがあります。
改行コードは「 LF 」と「 CR 」のふたつの改行コードによって 行われ ています。
Mac、Windows、Linuxで異なります。
アプリが対応する改行コードでないと改行されないことがあります。
 心配はいりません。Windowsのメモ帳があればどの文字コード、どの改行コードにも対応しています。変換することができます。

メモ帳

タブ区切りは表計算アプリと相性抜群

 文字や数字の間にタブ記号を挿入して区切りを付け、それを表計算のシートに貼り付けると、綺麗にセルに収まります。
 また、webページの表をコピーすると、タブ区切りのテキストファイルとなります。それを表計算のシートに貼り付けると、綺麗にセルに収まります。

webページの表を表計算に貼り付け

全角チルダ「~」と波ダッシュ「〜」について

 よく使われる文字ですが、同じように見えて全く別の文字です。
 wDiaryでは別文字ですので検索できません。また、波ダッシュ「〜」はShift-JISでは保存できません。全角チルダ「~」に統一してください。
 iPhoneなどiosで「なみ」や「-」で変換されるのが波ダッシュ「〜」です。
 iPhone、ios、WindowsのIMEの場合は「から」で変換される全角チルダ「~」に統一してください。
 参考→ https://ameblo.jp/mgh03015/entry-12626849711.html
 この他、Shift-JISでは保存できない文字があります。

テキストファイルは月ごとに ~サイズについて~

 一日1ファイルという方法もありますが、ファイル数が多いと読み込みが遅くなります。
 全期間を1ファイルとしたり、一年を1ファイルとした場合、スクロールさせるのに時間がかかります。
 また、うっかり別のファイルに上書きをしてしまった場合や、文字の置き換えミスで収拾がつかなくなった場合は広い範囲に影響が及びます。
 使い勝手としては月毎のファイルとすることをお勧めします。

テキストファイルは永遠です

 テキストファイルは汎用性があり、他のアプリへのデータ移行がしやすい形式です。
 アプリの開発が終了してしまい、過去のデータが使えなくなったという経験はありませんか?
 アプリではありませんが、Yahoo!ブログが2019年12月15日にサービス終了となり、Amebaブログにデータ移行した時は、記事本文は移行できたのですが、コメントの移行はできませんでした。多くの方からのコメントは心の財産でしたので残念です。
 コメントは膨大な量でしたので手作業での保存をあきらめました。
 2019年4月2日にサービス終了したGoogle+ これにも記事を投稿していましたが、写真を中心の投稿でしたので、データ保存はしませんでした。
 この他、iPhoneやandroidの日記アプリを試しましたが、開発が終了してしまったものがあります。
 データのTXT書き出し機能があればまだ救われます。
 アプリを試すときはTXT書き出し機能のあるものを使うようにしています。
 文字コードや改行コードに注意する必要がありますが、文字コードの種類がこれ以上増えることはないでしょうし、近年、互換性問題解決のための試みが進められており、テキストファイルは永遠です

エディターでタグジャンプ

 テキストファイルを編集する専用アプリをエディターといいますが、エディターにはgrep検索やタグジャンプ機能があります。
 この機能を使うと、複数のテキストファイルから文字を検索して、該当する文字が含まれるファイル名と、その行番号を表示します。
 表示された行番号をクリックするとそこへジャンプしてくれます。
 テキストファイルに入力するだけでデータベースになります。

Mifes10 のグローバル検索(grep)の一例

次回予告

 Txt_html作成の道のり「文章型データベースを求めて」の第2回目は、「見出しごと・時系列」です。
 記事の見出しごとに時系列で並べれば情報を見つけやすいという話です。

この記事が気に入ったらサポートをしてみませんか?