研究データを整理しよう・したい・せねば

2023年9月21日 12:05

私のようにフィールドワークや実験を行うタイプの研究をすると様々なデータが溜まります。昔はたいして考えず自分が分かるようにというぐらいで整理していましたが，最近は研究倫理の面でもデータをきちんと保存することが求められており，いつか整理しなおさなければと思っていました。ただ現状は調査票と録音に日付と調査地を入れたフォルダに分ける程度でしかできていません。

そんな「あー，やらなきゃなーやらなきゃなー」と思っていたところで九州大学からまさにそのテーマのスライドが公開されているのを知りました。

軽く読んだだけですが，研究者・院生にとってもそうですし，学部生でもPCで様々なものを整理するという点から役に立ちそうだと思いました。

概略版と呼べそうな動画もあるのでそちらを先に見るのもよさそうです。

全体の構成は次のとおりです。

第１章イントロダクション
第２章研究データ管理の方針決定
第３章研究データの整理法
第４章研究データの保存
第５章研究データの公開

「イントロダクション」より

いくつかとても参考になったことを記しておきます。

フォルダ構造やファイル命名法がある

このドキュメントは例えばフォルダ組織化やファイル命名法といった普段なかなか説明しないところまで目配りされている点が大きな特徴と言えるでしょう。例えばフォルダ組織化は次のようなスライドが用意されています。

どれも「当たり前」と思うかもしれませんが，徹底することはけっこう努力が必要ですね。

ファイルの命名法についても同じドキュメントにあるのですが，なかなか耳の痛い（目の痛い？）ことが記されていました。一部を抜粋します。

ピリオド、スペースの代わりにアンダーバーを用いる
ファイル名の適切な長さは約25文字程度で内容がわかるものにする
実験機器等が出力するファイル名をそのまま利用しない。
例：[作成者][作成方法][キーワード][YYYYMMDD][バージョン].拡張子

また，

保存場所に関係なくデータを識別できるよう内容情報をできるだけ
含める
フォルダ構造の組織化方法やファイルの命名法等のルールも文書として
記録に残し、後で参照できるようにしておくこと

これらができると大きいですね。私の場合，複数のプロジェクトの内容を1日の調査で扱うこともあるので，録音ファイルの管理では完全に出力されたファイル名にしていましたし（それで苦労している）。

データの適切な保存法

第4章でデータの保存について解説があります。データを保存する場所として，自分のPC，外部記憶デバイス（USBメモリとか），クラウドドライブ，ネットワークドライブ（NAS）の4つが紹介され，それぞれのメリット・デメリットが挙げられています。

私の場合やはり個人で自宅からもアクセスしたいのでクラウドドライブが現実的ですが，ファイル容量が大きくなりすぎると問題ですし大学のセキュリティポリシーに関わることなのでいつかNASの導入も考えています。

バックアップの必要性も書かれていますが，自動でやることはあまり考えていませんでした。でもMacを使っているのでTimeMachineのお世話になっているんですよね。

データ公開とメタデータの作成

第5章にデータ公開について解説されています。正直「管理」と「公開」は別物だと思っていました。

データ公開ではクリエイティブ・コモンズの理解が大事だと思うもののけっこう分からん！となってしまいます。たぶん大げさに考えているところがあるんですよね。

私の場合，実は連濁のオンライン調査をやったときの「調査票」や「調査結果」をresearchmap上で公開しています。

連濁の諸制約に対する自然性・容認性に関する調査データ

これはクリエイティブ・コモンズの記載はしていません。どうするのが適切なのかなあ。

最後にメタデータについて詳しく書かれています。「大切」とは言われるもののまったく手を付けていないところです。最近だと日本言語学会の大会で「最後のアナログ言語調査資料：危機に瀕した言語データの発掘と救出」というワークショップがありました。その中でもメタデータの重要性に言及がありましたね。

これまでデータの整理って個人レベルでしか考えてきませんでしたが，九大のドキュメントは組織レベルで取り組むことの大事さも学べる点で有益だったと思います。