見出し画像

連続データの特徴をつかむには?

分析屋の藤島です。
私は今社内のSAS研修を終えて、臨床解析に取り組んでいます。

今回はいちばんやさしい医療統計 | 吉田 寛輝 |本 | 通販 | Amazonをもとに、連続データの特徴をつかむには?についてまとめてみました。

ぜひ最後までお読みください!
※今回使用したデータはExcelで乱数を発生させたものです。


1.連続データとは

連続データとは、精度の高い測定法によっていくらでも正確な値、「連続量」が得られるデータのことです。
精度の高い測定法によって得られるデータには、例えば体重や身長、座高があります。
連続データの特徴としては、データ上のどこであってもその間隔が同じ意味をもつことです。
例えば体重であれば、50kgと60kgの間の10kgと80kgと90kgの間の10kgは同じ意味を持ちます。
また値と値の間に無限の中間値があるのも特徴といえます。

2.データの特徴をつかむには

いきなりですが、20代男性の体重のデータについて見ていきましょう。

「このデータからどういうことがわかりますか?」と聞かれても、すぐに答えるのは難しいと思います。ただし、なんとなく「このデータはばらついている」、「ある数値の周辺にばらついていそう」という特徴がわかるかなと思います。
なんとなく特徴をもっていそうだなとつかめたら、統計を使って特徴を調べていきます。

統計を使って特徴を調べるというのは、データとして並んでいるたくさんの数字を、なんらかの基準で整理整頓して、意味のある情報を取り出すことです。
これを実現するには下記2つの方法があります。

  • データをグラフにしてみる

  • データを要約してみる

データの中身をいきなり統計を使って特徴を調べても問題ないと感じる人がいるかもしれません。データの特徴をなんとなく掴んでから、統計を使って特徴を調べたり、分析をしないと意味のない情報を取り出してしまう可能性があります。

3.データをグラフにしてみる

グラフの種類は多くありますが、その中でもヒストグラムが連続データの特徴を捉えるのに最適なグラフです。

このヒストグラムから2つのことがわかります。

  • 体重は70~80kgの間にデータが集中している

  • 左右対称になっている

今までの話をまとめると以下のようになります。

  • データはばらついている

  • 体重は70~80kgの間にデータが集中している

  • 左右対称になっている

これらのことを踏まえて、データがどのあたりに集中しているのかを調べるために、データを要約していきます。

4.データを要約してみる

連続データを要約する場合、平均値・中央値がよく使われます。
平均値と中央値について知っている方も多いと思いますが、簡単に説明します。

  • 平均値:すべてのデータを足してデータの数で割ったもの

  • 中央値:データを小さい順に並べたときの真ん中の値

今回の場合、データ数は50個なので平均値は75.42、中央値は75.5となります。

ここで下記のようなヒストグラムの場合の平均値と中央値を見てみましょう

この場合の平均値は346.6万円、中央値は325万円となります。中央値よりも平均値の方が大きくなっています。この理由は平均値は他の値と比べてかなり大きい値もしくはかなり低い値があることによって、影響を受けてしまうからです。

データの分布によって、平均値は中央値とかなり差が出ることもあります。そのため、平均値と中央値は必ずセットで算出しましょう。

5.最後に

今回は連続データの特徴をつかむには?についてまとめました。データのばらつき具合をみる指標として分散や標準偏差、第1四分位数などありますが、ヒストグラムで直感的にばらつき具合を見ることができるため、必要に応じて出せば良いのかなと思います。

ちなみに臨床解析では基本的に分散や標準偏差を算出しますが、BIを活用した可視化や分析では分散や標準偏差を算出することは少ないのかなと思います。
(※少なくとも私は使ったことないです。)

こちらの記事では統計の役割についてまとめているので、ぜひこちらもお読みいただければと思います。



ここまでお読みいただき、ありがとうございました!
この記事が少しでも参考になりましたら「スキ」を押していただけると幸いです!

株式会社分析屋について

ホームページはこちら。

noteでの会社紹介記事はこちら。

専用の採用ページはこちら。

【データ分析で日本を豊かに】
分析屋はシステム分野・ライフサイエンス分野・マーケティング分野の知見を生かし、多種多様な分野の企業様のデータ分析のご支援をさせていただいております。 「あなたの問題解決をする」をモットーに、お客様の抱える課題にあわせた解析・分析手法を用いて、問題解決へのお手伝いをいたします!
【マーケティング】
マーケティング戦略上の目的に向けて、各種のデータ統合及び加工ならびにPDCAサイクル運用全般を支援や高度なデータ分析技術により複雑な課題解決に向けての分析サービスを提供いたします。
【システム】
アプリケーション開発やデータベース構築、WEBサイト構築、運用保守業務などお客様の問題やご要望に沿ってご支援いたします。
【ライフサイエンス】
機械学習や各種アルゴリズムなどの解析アルゴリズム開発サービスを提供いたします。過去には医療系のバイタルデータを扱った解析が主でしたが、今後はそれらで培った経験・技術を工業など他の分野の企業様の問題解決にも役立てていく方針です。
【SES】
SESサービスも行っております。