第141回: 「統計の実務」2 RとRコマンダー
◀前の記事へ 次の記事へ▶
≡ はじめに
前回は、変数の話を少ししました。要点は「数と文字は区別しよう」というだけです。
原点に立ち返ります。統計を用いて行いたいことを一言で言えば、
現状を知り、未来を予測したい
です。
未来を予測するために過去の特徴(データの推移を含む)をデータ化して、そのデータを用いて数値計算をするイメージです。
過去のデータは、表にまとめます。
数値データはこんな感じです。
↑ 何かの検査数です。
次に、文字データはこんな感じです。
↑ 何かの新規陽性者一覧です。
元データは、「東京都のサイト」からリンクを掘ればすぐに入手できます。(ひとつ目の表は、練習用に、今回のnoteの後半でアップしています)
表は、見やすくて良いのですが、特に下の新規陽性者一覧の表は、37万行もありますので表を眺めることだけで、現状を把握して、未来を予測することは超困難(不可能)です。
そこで、データから特徴を抽出する統計の出番となります。統計の計算には専用のツールを使うことをお勧めします。Excelよりもずっと簡単で、楽だからです。
≡ RとRコマンダーとは
このnoteの連載では、統計解析ツールにRとRコマンダーを使います。なぜなら、無償で手に入りますし、とてもパワフルで多くの研究者や技術者が使っている統計解析ツールだからです。
他にどのような統計解析ツールがあるかといいますと、オススメなものとして、EZRとSPSSとJMPがあります。他にも、エクセルが好きならStatMateがありますし、StataやSASというツールもあります。
以下に、オススメと書いた3つについて紹介します。
実は、本連載で使うツールをEZRにしようか、Rコマンダーにしようかで、かなり悩みました。どちらも無償ですし、GPL(GNU General Public License)のV2、V3 (2007年)に従っているのも同じです。EZRはRコマンダーの進化版ですので、今ならEZRだろうとも思いました。インストールも簡単ですし。
EZRは、簡単に言えば、「 Rコマンダーに医療統計解析機能を組み込んだもの」です。Rコマンダーのメンテナンスが止まっている?ことを考えると、EZRの方が良いと思います。ただ、私の経験が少ないことと、医療統計までいらない(その分、メニューの数が少ない方が初心者にはうれしい)ことから、今回はRコマンダーを選びました。EZRでもRコマンダーの機能は使えるはずですのでEZRユーザーのかたもこの連載を読み進められると思います。
■ SPSS
最強の統計解析ツールです。だけど、50万円くらいするのでちょっと使ってみたいレベルの人にはお勧めしません。逆に、研究所やマーケティング部門などでガッツリと統計解析ツールを使いこなすぞーって人はSPSS一択だと思います。
■ JMP
有償のツールですが、サブスクで1カ月14,740円/人とリーズナブルです(個人で年間17万円はきついと思いますが、企業なら経費でサクッと払ってもらえそうです🤗)。有償ですので、サポートや保証の面でも安心です。
ツールの特徴としては、試行錯誤しながら統計解析(分析と書いた方が良いかも)をしたい人向けの印象です。
この連載で使用する、RとRコマンダーについて、紹介します。
■ RとRコマンダー
R言語は、オープンソース・フリーソフトウェアの統計解析向けのプログラミング言語、および、その開発実行環境のこと(Wikipediaより)です。
Rは、コンソールウィンドウからコマンドを叩くCUIで動きます。初心者にはコマンドを覚える必要があるなど敷居が高かったので、RをGUIで操作できるパッケージが作られました。
そのひとつがRコマンダーです(他に有名なものでは、RStudioがあります)。Rコマンダーを使うことでRの「文法」や「コマンド」覚えることなく、マウスクリックのみで、基本的な統計解析ができます。
基本といっても通常使う分には十分な機能があります。とても多くの統計学者も使っていますので、いい加減なバグだらけのソフトウェアではありません。Rの計算結果について、信用して大丈夫です。
さてここで、上に書いたRの歴史は忘れても良いので、覚えてほしいことが2つあります。ひとつは以下のRのロゴで、もうひとつはRコマンダーのパッケージ名が「Rcmdr」ということです。
≡ RとRコマンダーのインストール
ツールですからインストールしなければ始まりません。RとRコマンダーのインストールは「アプリケーションソフトであるRをインストールして、Rを起動後に、パッケージソフトであるRcmdrを追加」する2ステップとなっています。2ステップ必要な点が面倒ですが、10分もあれば終わります。
手順は次の通りです。Windowsでのインストール方法です。Mac版もありますが、ちょっとインストール後の文字化け対応が面倒です。(Linux版もあります)
1. Rのインストール
1.1 https://cran.r-project.org/ へアクセスする
1.2 「Download R for Windows」をクリックする
1.3 「base」をクリックする
1.4 「Download R 4.1.1 for Windows」をクリックする。
1.5 ダウンロードしたインストーラ(R-4.1.1-win.exe: 87MB)を実行する
インストールに際して、特に迷うところはないと思いますが、インストール中に、こんな画面が出てきます。
32-bit, 64-bitを両方インストールして問題ありません。使う方だけでも構いません。(ディスクが50MBも節約できますし、Windowsのメニューにも片方しか現れないので選択しやすいというメリットがあります)
(追記) 2022年4月のバージョンから32ビット版の提供はなくなりました。
2. Rコマンダーのインストール
2.1 Rを起動する
2.2 Rのメニューの[パッケージ]>[パッケージのインストール]で、JapanサイトからRcmdrをインストールする
2.3 Rアプリの「R Console」にキーボードから「library(Rcmdr)」と入力してEnterキーで起動する
5秒くらいしてこちらの画面が開けばインストール成功です。
こちらも、「Rを起動してからRcmdrパッケージを入れる」点だけおさえておけば問題ないと思いますが、途中でパッケージを選ぶときにパッケージが多すぎて面食らうかもしれません。全部を選んでインストールする猛者もいますが、何十GBにもなるそうなので、ディスクとネットと時間に余裕のある人でなければ素直に「Rcmdr」だけを選択して[OK]ボタンを押しましょう。
なお、Rコマンダーを起動時に初回のみ、R Consoleにたくさんのワーニングがでますが、全部無視して構いません。
3 起動の手間を減らす
次回使うときにも、Rを起動して、R Consoleから「library(Rcmdr)」と入力してRコマンダーを起動しても良いのですが、Rアイコンのプロパティのリンクに入力されている文字列に続けて、スペースをあけて「R_DEFAULT_PACKAGES=Rcmdr」を追記してプロパティを閉じてください。
(インストール先がデフォルトのままなら、"C:\Program Files\R\R-4.1.1\bin\x64\Rgui.exe" --cd-to-userdocs R_DEFAULT_PACKAGES=Rcmdrとなります。うまくいかないときは、ダブルクォーテーション関係が多いです。そんなとき、『毎回、「library(Rcmdr)」を入力したらいいんでしょう』とあきらめがちですが、毎回の手間はストレスになるので、がんばりましょう。)
以上によって、Rのアイコンをダブルクリックで起動するだけでRコマンダーまで立ち上がるようになるので便利です。
≡ Rコマンダーを使ってみる
インストールができたら、とりあえず、使ってみましょう。
まずは、上の検査数.csvをダウンロードしてください。
次に、CSVファイルをRコマンダーに読み込んでください。手順は次の通りです。
Rコマンダー上でメニューの[データ]>[データのインポート]>[テキストファイルまたはクリップボード、、、]を選択します。
次のダイアログが出たら、「フィールドの区切り記号」に「カンマ」を選んで、[OK]を押します。他はデフォルトのままでOKです。
CSVファイルの読み込みに成功したら、Rコマンダーのメニューから
[統計量]>[要約]>[アクティブデータセット]
を選んでみましょう。
> summary(Dataset)
判明_年月日 総検査実施件数 医療機関等実施数 健康安全センター実施数
2020/1/24: 1 Min. : 0 Min. : 0 Min. : 0.0
2020/1/25: 1 1st Qu.: 1620 1st Qu.: 1397 1st Qu.: 114.5
2020/1/26: 1 Median : 5481 Median : 5088 Median : 271.0
2020/1/27: 1 Mean : 6157 Mean : 5845 Mean : 311.9
2020/1/28: 1 3rd Qu.: 9617 3rd Qu.: 9126 3rd Qu.: 430.5
2020/1/29: 1 Max. :26089 Max. :25678 Max. :1474.0
(Other) :597
といった出力がRコマンダーの出力ビューに現れます。細かい見方は今回説明しませんが、Meanが平均値のことです(最大はMaxの26089件です)。東京都では、平均して1日に6157件のPCR検査をしているということがわかります。
メニューの[グラフ]から希望するグラフを選択すれば、いろいろなグラフが描かれます。グラフは、Rコマンダーにではなく、R(本体)のウィンドウの方に描かれますので注意してください。例えば、「総検査実施件数」のヒストグラムはこんな感じです。数値だけではわからないデータ分布の様子が良く分かります。
グラフの見方については次回から一つずつ説明します。
≡ おわりに
今回は、RとRコマンダーのインストールの話をしました。インストールさえできれば、簡単な操作で一気に統計解析ができるので大変便利です。
ただし、何万件もあるデータの解析には時間がかかるので、まずは数百件のデータで慣れるのが良いと思います。
次回は、Rコマンダーを使って描いたグラフの解説を始めます。全てのグラフを一回では終わらないと思いますので、毎回一つずつかなあ。
◀前の記事へ 次の記事へ▶
この記事が気に入ったらサポートをしてみませんか?