見出し画像

NDLサーチの考察(5) 取得したキーワードをどう使うか

国立国会図書館サーチで書籍情報を取得するカスタムアプリ制作の話、前回に取得したキーワードが実際どの程度使得るものなのか、という話です。この検証ついでにカスタムアプリを大幅にアップデートしまして、ダウンロードリンクを追加しています。それゆえに今回の記事は値段高めに設定しています。

似たテーマの書籍を可視化できるのではないか、

前回、NDLサーチに収録されている「主題」を取り込んでみました。わりと一般的な単語で収録されているので、ある程度の数が集まれば、似たテーマのタイトルの集合を作れるのではないかと思ったのです。今回、手元にある私の読書記録を取り込んでみました。

収録されて主題」たるものが何なのかを軽くおさらいしておきます。
国立国会図書館で書籍を検索すると、「タイトル」「著者名」などさまざまな情報が収録されています。そのたくさんの項目の一つに「主題」があります。
国会図書館の検索結果の画面では、一番下に掲載されています。一つ例を挙げます

https://ndlsearch.ndl.go.jp/books/R100000002-I000010875898

例えばこの場合、一番下までスクロールしていくと、「政治哲学」「正義」がテーマとして並んでいて、同じテーマの資料へのリンクが用意されています。同様のことを、手元のデータベース内で再現することができるのでは?ということでやってみました。

収録されていたのは78%、平均1.14個

手元にある読書記録は460タイトル、個人の所蔵なので趣味嗜好に偏っているものではあります。そのうち、主題が収録されていたのは358タイトルで、割合にすると77.8%でした。
358タイトルのうち、主題が2個収録されていたのは98タイトル、3個収録されていたのは27タイトル、4個収録されていたのは5タイトルで、460タイトルに対して525個、1タイトル平均1.14個の主題が収録されていることになります。

ポータルに表示する

ここからはFileMakerでの制作の話。
同じテーマの集合を可視化するために、自己リレーションを作ります。データベース管理→リレーションのウィンドウを開いて、キーワード同士を「=」で結んでリレーションを作成します。

作成されるテーブルの名前を「キーワードリンク」として、レイアウトに加えていきます。ポータルを配置し、設定した「キーワードリンク」テーブルに設定して、表示するフィールドを配置していきます。このとき、フィールドの取得元テーブルを現在のテーブル(ここでは「蔵書」)ではなく作成したテーブル(「キーワードリンク」)にしないと正しく表示されません。

同じタイトルが表示されないよう、ポータルはフィルタをかけています。

これで、表示させることができました。

作られる集合はそこまで多くない

こうしてキーワードに基づく集合を表示できるようになりましたが、それでは実際どのくらいの集合が作られるのでしょうか。
今回調べた459タイトルのうち、キーワードが収録されているのが358タイトルです。その358タイトルについて、表示された関連レコードの数は次の通りです。

最大で14個の関連レコードを取得できたタイトルもありましたが、キーワードがあっても他のタイトルとリンクしなかったものが174タイトルありました。実に60%です。
関連レコードを多く取得できたものも、そのキーワード自体は「デザイン」「人生訓」「紀行」など、ざっくりしたものです。1タイトルに複数のキーワードをつけているので、コミックエッセイと新書が同じテーマで括られるなど、他の方法では作られない集合があって面白いものにはなります。しかし、全体の4割にしかリンクが作れないということになると、この母数ではあまり機能しているとは言えません。母数が増えていけば、リンクの数は指数関数的に増えていくので、キーワードの付け方を工夫すれば使えるものにもなり得るような気もします。2000件くらいになったらどうなるかは気になりますが、個人蔵でそこに到達するまでには先は長そうです。
もっとも、先に書いた通り国立国会図書館サーチの結果では同じテーマの資料が提示されるので、これを検索キーとして外部データベースにアクセスするために使うのは有用かもしれません。

今回はここまで

というわけで次回はNDC・NDLC分類を使って関連レコードを表示させることについての記事の予定です。これらについては下記のリンク先データで実装済みです。

ここから先は

304字
この記事のみ ¥ 500

この記事が気に入ったらサポートをしてみませんか?