統計ソフトウェアを使おう
初めてだったら、HADの一択
小杉考司先生が、心理統計の講義をほとんどそのままの形で、本を2冊出版されています。Kindle Unlimitedになっていたので、嬉しくなって2冊ともダウンロードして読み始めました。うん、面白いぞ、小杉節。心理統計学習ののサブテキストとして、激推ししておきます。
しかし、激推ししますと言っておきながら、はじめて統計に取り組み皆さんにはお勧めいたしません。だってものすごく読みにくいんだもの。なぜか行番号が文章の途中に挿入されたままになっているし、注があるのに、どこに注の本文があるのかわからないし、突然文章が赤い字になるし、なんだか知らないけど段落ごと順番が入れ替わっていて、あれ?ってなるし(こういうとき、行番号で追いかけられるように番号が残してあるのか。ふむふむ。って、そうじゃないでしょ!)
まあ、お好きな方はどうぞ。大変勉強になります。
何を書こうとしていたかというと、この本の中にとても素敵な文章があったからです。
はい、よーく心に留めておきましょう。データ分析を始めると、ときどき、「データ分析すればなんでもわかってしまいそう!」と勘違いして、無双状態になる人がいます(私です)。そんなことはありません。ゆめゆめ、賢い皆さんにおかれましては、勘違いなさいませぬよう。
しかしながら、データ分析の準備は、ちゃんとした方法を知ることも必要です。そこで。
演習課題
E1:HADをダウンロードして、ご自分のPCで使えるようにしてください。その際、マクロを有効にするための手順が必要ですので、必要に応じてインターネットを検索し、解決してください。
E2:HADのダウンロードサイトから、サンプルデータやマニュアルをダウンロードし、マニュアルを参照しながら、データ分析を試してみてください。
E3:次のような調査票を集めたと仮定します。適切にコーディングして、HADで分析できるようにデータを入力してみてください。
以下、解答例とヒントを書きます。
解答例とヒント
E1:「HAD」は次のサイトからダウンロードできます。
ただし、毎年4月には、ダウンロードする人が大勢いて、困った事態が発生することもあるようですので、そのような場合は、時間をずらしてやりなおすなど工夫してください。また、放送大学の学生向けに、心理学統計法の受講者用に、ダウンロードページが開設されたこともありました。放送大学、あるいは主任講師からの情報に注意してください。
また、マクロを有効にする手順については、手順を説明している解説書やWebページがいくつも見つかるはずですし、CharGPT(GPT 3.5)でもそれなりに詳しく教えてくれます。ただし、GPT 3.5では、最新の情報になっていないことがありますので、少々注意が必要です。
E2:サンプルデータに「iris」というデータがあります。下の記事を参考に、分析してみましょう。
(このデータは、データ分析界隈では超有名なデータです。一度は触っておくと、知ったかぶりができるかもしれません。)
E3:例をご覧ください。
(1)ダメな例
教科書の説明をよく読みましょう。「変数を列に、データの単位(実験参加者など)を行にしたデータセット」を作るのです。①の回答者のデータを、2行目に(1行目は変数名だからね)、横に並べて入力していくのです。
(2)ましになった例
そうです。この方向です。「お酒は好きですか」の質問で、回答用紙には「大好き」と「大嫌い」しか書かれていないので、その間の回答を言葉に直してあります。妥当な処理です。
しかーーーーーし!!
教科書をよく読んでください。「統計学が想定するデータは、主にカテゴリや数値によってコーディングされた情報のこと」でした。コーディングとは、具体的な情報と、それを表すことにした符号との対応関係を作り、具体的な情報を、それに対応した符号で置き換えることです。言葉で書くと難しい。
上のような表を作り、「休日に遊びに~」の質問への回答で、「千葉県」は「1」、「大阪府」は「2」と入力することに決めてしまうのです。もちろん、1と2である必要はなく、0と1でも、19834と28364でもいいのです。でも、覚えやすく入力しやすい方が身の為なので、3つ目の方法は採用しません。「1と2」にするか「0と1」にするかは、まあ、趣味の問題のように思います。
(3)コーディングした例
これで完成。ついでに、欠測値(無回答の部分)も、HADの流儀にしたがって「.」(半角のピリオド)に直してあります。
ちなみに、上に示した対応表は、HADの〔Data〕シートに入力しておくと、忘れずに済みます。ただし、入力したデータとの間を1列以上開けてください。上の例ではF列まではデータが入っていますので、必ずG列は空けて、H列以降に入力するようにします。G列を空けずに入力してしまうと、HADは「まだデータの続きがある」と判断して、読み込み続けようとしてしまいますからね。