見出し画像

青空文庫全作品一括ダウンロード(17003作品・著作権存続作品は除く)☆検索可能な分かりやすいファイル名と階層フォルダ☆正規表現を使ったgrep検索でAozorasearchで出来ないことが可能に!☆サンプルあり

普段とは全然違う記事をひとつ ^^
今さらって感じですが、青空文庫 好きですか?

現在、「青空文庫、充電中」だそうで、新しい作品のアップロードもかなりゆっくりなペースになり、少し寂しいです。
でも、膨大な数の文学作品を読めることには変わりありません。

私の読書は つまみ食いが多いので、一つずつファイルをダウンロードするのがちょっと面倒だったりします。いろいろなアプリがありますが、それでも少し不便です。また、青空文庫の豊富なテキストデータから、日本語の表現を調べたい時、正規表現を使って細かな検索をしたいこともあります(正規表現を使って多くのファイルを一度に検索できるgrep検索。下に例があります)。

あと、スマホの中に青空文庫を全部を持っていたい、というほとんど意味のない所有欲のようなのもあったりします。ポケットの中に一万数千冊の本を入れられる(ここでダウンロードできるファイルがあればインターネット接続がない時も使えます)ってすごくないですか?
いわば、+0gの図書館。

そんなわけで、以前から私のスマホやパソコンには青空文庫のテキストデータが入っているのですが、最近、全データをダウンロードし直して、独自ファイル名も改良して(ファイルの中身はもちろん触っていません)、検索しやすくしました。

言葉より実物の方が分かりやすいので、サンプルとして下のzipファイルをダウンロードして解凍してみてください。青空文庫に収蔵されている名前が「ま行」から始まる著者の作品がすべて入っています(2023年12月25日現在。著作権存続作品は除く。青空文庫には著作権切れでない作品もあるんでです! 著作権が存続している作家の「作家別作品リスト」と「図書カード」は、ピンク色になっています。著作権切れは青 )。

・このサンプルには2946作品 (2998個のテキストファイル )が入っています(作品数とファイル数が違う理由は、下の説明のように森鴎外と森林太郎のような重複があるため) 。

・上のzipファイルを解凍して現れるテキストファイルは、青空文庫形式のテキストファイルです。青空文庫形式のファイルをテキストエディタで開いても読書には使えません。対応するアプリなどで開いてください (検索すれば、たくさん見つかります)。
例:青空司書 (好みのフォント、文字間隔、行間隔、辞書連携 )
・長いファイル名全体を表示できるファイル管理アプリと一緒に使ってください。
例:X-plore File Manager     Total Commander - file manager

・grep検索に使う場合は、サクラエディタなどのテキストエディタで構いません。

・ま行の「め」から始まる著者は、著作権存続以外、該当がありません(2023年12月25日現在))。

・各ファイル名は次のようになっています。
例えば、森_鴎外の『高瀬舟』は

というフォルダの中にある
[もり]_森_鴎外
というフォルダの中にある
[森_鴎外][た・著]_高瀬舟(新字新仮名・45245)19KB.txt
というファイル。
[著者の_著者の][作品名の最初の1文字者か者か正者の区別]_作品名文字や仮名使いの区別・青空文庫作品IDファイルサイズ.txt

・森鴎外の作品の中には、一部、森林太郎という名でも青空文庫に入っているものがあります。例えば…
[森_鴎外][ふ・訳]_復讐(新字旧仮名・2060)48KB.txt
[森_林太郎][ふ・訳]_復讐(新字旧仮名・2060)48KB.txt
これらは、
[もり]_森_鴎外
[もり]_森_林太郎

という別々のフォルダに違うファイル名として入っていますが、作品IDが2060と同一なので、中身はまったく同じです。また、上の作品は森鴎外の翻訳ですが、著者はアンリ・ド・レニエなので
[れに]_レニエ_アンリ・ド
というフォルダに (「ら行」なので、このサンプルには入っていません)
[レニエ_アンリ・ド][ふ・著]_復讐(新字旧仮名・2060)48KB.txt
という名前のファイルとしても入っています(作品IDが2060)。

・ちなみに、上の森鴎外の作品を青空文庫からダウンロードするとファイル名は
2060_ruby_23189.zip 解凍すると fukushu.txt
となり、ファイル名では中身が分かりにくくなっています
(上のサンプルを含む一万数千個のファイルすべての名前を、上のような分かりやすいものにしてあります。Googleで「青空文庫一括ダウンロード」を検索すると方法が出ていますが、それでダウンロードしても、どのファイルがどの作品か非常に分かりにくいものになっています)。

・青空文庫の中にはテキストファイルがなくHTML版だけの作品もあります。そういうものは、(もともとテキストファイルが存在しないので)ここでダウンロードできるzipファイルに入っていません。例えば、上のサンプルには含まれませんが…
夏目漱石の『吾輩ハ猫デアル』の旧字旧仮名版 がそうです  (新字新仮名版の方のテキストファイルは、な行の「[なつ]_夏目_漱石」フォルダ入っています)。
テキストファイルが存在しない作品が、青空文庫にはあと7個あります(テキストファイルが存在する作品は全部で17003 (重複収蔵、著作権存続作品を除く、2023年12月25日現在)。

・上のサンプルのzipファイルの中には、例えば、紫式部の「源氏物語」(与謝野晶子 訳)全巻や宮沢賢治の作品なども入っています。

サンプルが実際に使えることを確認した上で、気に入っていただけた方は、あ行~わ行まで、有料になりますが、下からダウンロードできます(青空文庫のデータは著作権存続のもの以外は商用利用もできます)。

青空文庫の本を普通に読むだけなら、ほとんど必要ないかもしれませんが、特定の作家の全作品を正規表現を使ってgrep検索する場合や、インターネット接続がない環境や機器で青空文庫を読みたい場合などには役に立ちます。

grep検索とは… 例えば、青空文庫に入っている夏目漱石の作品は112ありますが(2023年12月25日現在。上で説明した『吾輩ハ猫デアル』の旧字旧仮名版は除きます)、その中で「雨」という字の後に「傘」が出て来る行(2つの文字の間に他の文字が入っている場合も含みます。行は改行が入力されている区切れ)は、何カ所あるか。そんなことが、一瞬で分かります。20カ所です。
もう一つ例を挙げると、青空文庫には、北大路魯山人の随筆が185入っていますが、そのうち「織部」と「陶器」が同じ行に出て来るのは9カ所、なんていうこともすぐに分かります。もちろん、どの作品のどの部分かも表示できます。
ここでダウンロードできるテキストファイルがあれば、正規表現を使ったgrep検索で青空文庫を自在に検索できるようになり、Aozorasearchではできなかったようなことも簡単に出来るようになります。
正規表現やgrep検索がよく分からない人は、このソフトがいいかもしれません。

青空文庫すべてのテキストファイルを一つのzipファイルにまとめたかったのですが、noteは50MB以下のファイルしかアップロードできないので、7個のzipファイルに分けています。

すべて解凍して、あ行~わ行 までのフォルダを、一つのフォルダに入れて使ってください。

全部で17003作品入っています (著作権存続の430作品は入っていません)
上の森鴎外と森林太郎 (同一人物の同一作品を別名義で収蔵) のような重複を別のファイルとして数えると、全部で18176個のテキストファイル
青空文庫の作家別作品一覧と照合して、上の数字で抜け落ちたものがないことを確認しています(2023年12月25日現在))
・zipファイルは全部で7個 (合計255MB)
・圧縮解凍後 565MB (中身はテキストファイルのみ)


このnoteの記事からダウンロードしたすべてのzipファイルおよび圧縮を解凍して得られるすべてのファイルについて、無断で再配布することを禁止します。

作品情報を明示した独自のファイル名や、著者別に容易に検索可能な階層フォルダへのファイルの分類について、著作権物としての扱いを求めますそれらを利用して、別のものを作ることを禁止します。

詳しくは、上のサンプル解凍時に現れる「はじめに読んでください.txt」をご覧ください。その内容に同意できる方のみ、この先の有料部分を購入してください。購入は、明確な同意を意味するものとします。


上のサンプルや、下の有料部分でダウンロードできるファイルには、
2023年12月25日以降に青空文庫で公開された作品は含まれていません。

それ以降の作品は、利用者が自分で追加していくことが出来ます
青空文庫から新規公開作品のテキストファイルをダウンロードして(必要があればファイル名を変更して)、著者別のフォルダに追加してください。
自分で育てていくって感じですね ^^

ここから先は

147字 / 7ファイル

¥ 500

・このnoteの価値を理解していただける方 ・このnoteの記事はすべて無料の方がいいと思う方 ・このnoteの筆者が執筆に集中出来るように支援したい方 ・このnoteの安定運営のために提案があるという方。 下のコメント欄か「クリエイターへのお問い合わせ」でお知らせください。