見出し画像

持続可能なミュージアムのDXとは(第8回):画像ファイルの名前

前回の記事を書いたあと、どちらに話を広げようかなと思案していたら、だいぶ間が空いてしまいました。今回はミュージアム資料のデジタル画像を作る際に出会う、一見些細な課題をとりあげてみます。

歴史の長いミュージアムであれば、過去に撮影、焼き付けしたフィルムや印画を大量にお持ちでしょう。ミュージアムにとっては貴重な情報資源です。しかし現在では、いわゆる「銀塩写真」の処理が可能な技術的環境はきわめて限られており、デジタル化しないままのフィルムや印画の利用はとても困難です。また、業務環境をデジタル化、ネットワーク化した場合、画像もまたデジタルデータとして投入、運用しないと非効率であることは明らかで、フィルムや印画のデジタル化の優先度は高いと言えます。したがって、できるだけ集中的にデジタル化の作業に取り組むことが望まれます。

フィルムや印画のデジタル化の技術については、さまざまな選択肢があり、各館の状況に応じた対応を選ぶことがある程度可能です。他館で有効だった方法が、自分の館ではうまくゆかない、ということもありますので、ここで、特定の技術を推奨するわけではありません。技術とは別の問題として、「画像ファイル名の付け方」という、一見単純なことについて注意を呼び起こしておきたいと思います。

文書のデジタルファイルでよく問題になるのが「バージョンの管理」です。たとえば、組織内で回付した文書に修正を加えてゆく場合に、どれが最新の状態かを確認する作業を楽にする、というのはビジネス用のツールの売りの一つで、「文書_20211125(最終)」「文書_20211125_課長室長確認済」「文書_20211125_急ぎ差し替え」「文書_20211125_【決定版】」…どれが最新なんだよっ!みたいなストレスを解消します、というような広告をみかけます。性質は少し異なりますが、「命名の規則」ということを考えずにミュージアムでデジタル画像をあつかうと、似たようなことがおこってきます。

「もの」をあつかっているミュージアムの職員は、ついデジタル画像にも「もの」に寄った名前をつけがちです。「山水図屏風_左隻.jpg」とか「源氏物語(桐壺巻)表紙.tif」とか、資料番号があると「A-1234.jpg」とか「B-234_01.tif」とかいったファイル名です。大昔と異なって、今は2バイト文字で長いファイル名をつけられますから、人間の目から見るとわかりやすく、便利に見えます。しかし、実際にデータを処理するのはコンピュータで、やっていることはつまるところ数値の計算である、という点に注意してください。

「法華経」があったとします。巻次をどう記述しましょうか。「巻第一」「巻一」「巻1(数字全角)」「巻1(数字半角)」と、いろいろ書き方がありますが、人間の目でみると理解できても、コンピュータは基本的には別物と判断してしまいます。組織内で記述する人が複数いる場合は、必ずこの種の記述の差は出てくるでしょう。

資料番号などを使った場合でも、こんなことがおこります。「源氏物語(桐壺巻)」の冊子を全頁撮影して、各頁の画像ファイルに通し番号をふるとしましょう。「B-123_1」「B-123_2」…とつけると、ファイル名でソートした際に「B-123_1」「B-123_11」「B-123_12」…と並んでしまいます。では、というので「B-123_01」「B-123_02」…にすると、もし100頁以上あった場合に対応できません。ある資料は枝番号2桁、他の資料は枝番号3桁というのもたいへん不細工ですし、情報処理上はむだな手順が必要になります。

実はこの問題は、資料台帳や資料目録のデータベースを作る際にも起こってくることで、特に図書館のように業界全体で共有される目録規則のないミュージアムの世界では、ある程度は情報学的に解決しなければならないことです。とするならば、同じ問題をわざわざ画像ファイル名に持ち込む必要はないわけで、資料台帳から必要な画像ファイルを紐づけるしくみができていれば、参照するべき画像ファイルの名前は、できるだけ単純なほうがよい、ということになります。組織内で共有する際にも、ファイル名が属人的にならないという点で有効です。

ということで、画像ファイル名は「画像であることがわかる何らかのアルファベット文字+一定の桁数の連続した数字」にするのが、最も合理的です。東京国立博物館の場合は、カラーフィルムからスキャンした画像は「C0000000.tif(jpg)」、モノクロフィルムからスキャンした画像は「N0000000」、デジタル撮影は「E0000000」というのが基本画像で、それとは別に、枚数が増える冊子体資料のデジタル画像は、別に「L0000000」という番号体系を設けています。まだMS-DOSが健在だった時代からの運用なので、1バイト文字8桁という制約を受けていますが、最初の1文字を除く7桁あれば9,999,999件はカバーできますから、実用上ほぼ問題はありません。100万枚もないよ、というのであれば、頭の文字を2文字使うというのもありでしょうし、現在はファイルの文字数の制約はないので、10桁とか12桁とかでもかまいません。どのように使われているかについては、東博研究情報アーカイブズ「画像検索」「デジタルライブラリー」でごらんください。

ヘッダ画像:川瀬巴水「東京十二題 夜の新川」(東京国立博物館) 出典:ColBase https://colbase.nich.go.jp/collection_items/tnm/A-9104

画像1

この 作品 は クリエイティブ・コモンズ 表示 4.0 国際 ライセンスの下に提供されています。




この記事が気に入ったらサポートをしてみませんか?