データ整理とまとめ方

 2日目はまだやる気があるので、今日も書いていこうと思う。今回は研究の話題。とはいっても役に立つ問題というよりは最近の悩みについて書こう。

 端的に言って自分はかなり整理整頓ができない部類である。研究室のデスクも自宅の作業部屋、普段使いのバッグの中までカオスを極めている。普段の生活に関するそういった怠惰さは、ある程度自分で状況を把握していることとそこまで実害がないので放っているが、こと実験データ等になるとそうはいかない。特に論文を書く段階になると数年前のデータを見直して再度考察が必要になるのはざらで、普段からの「整理整頓」が非常に重要だ。現在進行形の話で言うと、自分がM1で取得していたデータを再度まとめて論文のレスポンスなどに対応しているが、当時の自分のノートへのまとめ方が雑なことが相まってミスを連発している。さすがにここ数か月に取ったデータはかなり見やすくまとめられるようになってきたが、M1の自分は甘すぎるといわざるを得ない。ここ数日は助教やボスに二度ほど謝罪メールを打っており、自己嫌悪がすごいが、ここでは少し原因について書いておこうと思う。自戒も込めて。

ファイル名を明確にする

ファイル名を一目見ただけでどんな実験を行ったかを確実に把握できるようになっておかなくてはいけない。当たり前のように思われるだろうが、実験している段階ではどうしても「わかってるわかってる」と思ってしまう。あるいは、この条件は実験の目的に関係ないなということで詳細に書いていないということが多々あるが、後々「あの実験のこのデータはこっちのほうで必要なデータだった」ということは経験上非常に多い。実験データを見せて、と言われたときに実験をした本人がそのデータを把握できていないというのが最も恥ずかしいことだ。

実験ノートを詳細に

これも全く当たり前のことだが実験ノートにこれ以上いらないだろう、というくらい詳細にその時やった事実を書くべきである。これが個人的に本当になかなかできない点だ。幸い私はそこまで致命的になったことはないが、「ここ書いておいてくれればなあ」ということは何度もあった。こんなことを書かなくてはならないのも全く恥ずかしいことである。

データ処理用コードの可読性を高めておく

私はデータ処理やグラフ作成に関してはもっぱらpythonで行っている。igorやoriginを使っている人が多いが、何よりタダなことと、自由度が高いのでpythonを用いている。B4の後輩がCとgnuplotを駆使していたが、さすがにCで非線形フィットかなにかを行うのはハードルが高そうだ。(できるできないというより、それ以外の実験などにリソースを割くべきかと思う。)ともかくpythonを使っているのだが、これの可読性が悪いと個人的に感じる。変数名やリストの構造が大変込み入っており、一読してよくわからないというファイルが多々ある。私は情報系ではないので、ここら辺の解説はしないほうがいいと思うが、学部生でアプリケーション開発のベンチャーでバイトをしていた時におすすめされた本は非常に参考になった。

おそらく分野の方からすると当たり前だと思うのだが、変数の記法を統一することや、してはいけない変数の命名法(temp, buf)などいまでも役立っていることは多い。「読んだならちゃんと読みやすいコードを書けよ!」と言われそうだが、まったくその通りで、修正していかなくてはいけないと思っているところだから許してほしい。

3点書いたが、どれも大変当たり前のことなので、よくよく心に刻まなくてはいけない。コロナ明けではこんなことのないようにしましょう。

この記事が気に入ったらサポートをしてみませんか?