健康データベースを作りたい <設計編> どのようなデータを集めるか?


作りたい作りたいと言って、2024年になって初めて健康データベースの作成に取り掛かりました。まだまだどのような形になるかもわからないので、まずは手動で、感覚的に欲しいデータを取ろうとウェブの海に潜り込みました。
取ろうとしていたデータはこれらです。

  • 何を目的とした健康法なのか

  • 何を大事にした、健康法なのか

  • どのような説明原理を用いているのか

  • どのような人たちが集まり、実践しているのか

  • その健康法によって何を得ることができるのか

  • 禁忌、やってはいけないことは何か

これらを検索してすぐ引っかかるようなサイトで分析をしてみました。

3つ目で頓挫しました。

ええ、しっくりこなかったんです。何かがおかしい。情報がうまく取れない、エッセンスが溢れまくっている気がする。

どの情報量がこぼれ落ちたのか?

どうしてこの違和感が生まれたのか。それは私が収集していたのが「サイトに書いてあること」だったからです。
もちろんスクレイピングも視野に入れていましたので、当たり前のことかもしれません。しかしここにこぼれ落ちる情報量がとんでもなく多いんです。

例えば、「ヨガ」について検索し、上位に出てきたサイトや論文を分析してみると書き手の想いが全然違います。
源流である思想に寄り添ったヨガ、フィットネスとしてのヨガ、会社のアイデアを生み出す手段としてのヨガ、ヘルスケアリサーチとしてのヨガ。
実はこれらに書いてある情報は、上のような項目に綺麗に当てはまりません。特に論文は、「ヨガにヘルスケア効果があること」を証明するという論文の目的がありますが、健康法の目的は「ヘルスケア効果があること」が正しいです。
つまり、「サイトに書いてある目的」と「サイトを書いている人の目的」の二つを抽出しなければいけません。

全部抽出すればいいのか?

じゃあある項目全部書けばいいじゃんと思うかもしれませんが、なんかこれもおかしいんですよね。まずデータベースが煩雑になりすぎる。
書いてあること、書き手の考え、それぞれまとめるのがいいのでしょうが、それではデータベースとしてどうまとめればいいのか。確かに論文か否かの判断は必要でしょうが…

サイトに書いてあることを絞るか?

次の案として、まず最初に決めた項目たちがいらない可能性があります。
例えばやり方は、特に大きな括りでは似通っています。ヨガからパワーヨガなどに派生した場合は必要になる項目かもしれませんが、ここを一旦捨てるというのは選択肢としてはありでしょう。ちょっと勿体無いですが。

仮解答:オープンコーディング(帰納的方法)

さてどうしたものかということで、迷走していました。とりあえずいいものがないかなと思って『質的研究法マッピング』で研究法を眺めていたところ、これか?というものが一応ありました。それがオープンコーディングです。ビビッときたわけではないというものは感覚として伝えておきます。
というか、今までやってきたリストの中に当てはめるものも一応オープンコーディングというもので、その中の演繹的方法だそうです。で、今回やろうとしているのが帰納的方法。これは「具体的なテキストに基づいて類似していると考えられるものを集め、概念を作っていく方法」だそうです。

やり方:センテンスをまとめ、意味づけをする

やることは文章抽出と同じです。でもそのやり方は全くの逆です。演繹的方法が意味を固定し、センテンスを抽出していたのに対し、帰納的方法はセンテンスを抽出してから意味を見出します。

データベースのカラムの名前をつけたくなるのは理系出身だからなのでしょうが、ちょっと不思議な感覚です。そうやるのか…

とりあえずはやってみて、違かったらまた別の方法を試す。現代社会を人類学的手法で分析すること自体が決して多くない試みなので、トライアンドエラーです。

いただいたサポートは健康のさらなる研究に役立たせていただきます。