見出し画像

第141回: 「統計の実務」2 RとRコマンダー


◀前の記事へ   次の記事へ▶

≡ はじめに

前回は、変数の話を少ししました。要点は「数と文字は区別しよう」というだけです。

良くあることなのですが、月という変数列を作って値に1, 2, 3, ...といれていたら、Rでは数値(正確には量的変数といいます)として取り扱われますので、月度別集計(「月」による層別)ができません。値として「1月、2月、、、」のように文字(正確には質的変数)にしておけばOKです。

また、逆に数値のはずなのに、数値にならないときには、位取りのカンマ「,」や先頭に「¥」マークなどがついていないか、要は数字以外が紛れ込んでいないことをチェックしましょう。

原点に立ち返ります。統計を用いて行いたいことを一言で言えば、

現状を知り、未来を予測したい

です。

未来を予測するために過去の特徴(データの推移を含む)をデータ化して、そのデータを用いて数値計算をするイメージです。

過去のデータは、表にまとめます。

数値データはこんな感じです。

検査数

↑ 何かの検査数です。

次に、文字データはこんな感じです。

陽性者数

↑ 何かの新規陽性者一覧です。

元データは、「東京都のサイト」からリンクを掘ればすぐに入手できます。(ひとつ目の表は、練習用に、今回のnoteの後半でアップしています)

表は、見やすくて良いのですが、特に下の新規陽性者一覧の表は、37万行もありますので表を眺めることだけで、現状を把握して、未来を予測することは超困難(不可能)です。

そこで、データから特徴を抽出する統計の出番となります。統計の計算には専用のツールを使うことをお勧めします。Excelよりもずっと簡単で、楽だからです。

最初は、新しいツールの使い方が分からないのでエクセルに戻りたくなるものです。でも、統計解析だけはデータ数が多くなるとエクセルではやってられません。

※ 統計のツールを使っても37万行ともなると計算には時間がかかります。もちろんエクセルでやっても時間がかかります。


≡ RとRコマンダーとは

このnoteの連載では、統計解析ツールにRとRコマンダーを使います。なぜなら、無償で手に入りますし、とてもパワフルで多くの研究者や技術者が使っている統計解析ツールだからです。

他にどのような統計解析ツールがあるかといいますと、オススメなものとして、EZRとSPSSとJMPがあります。他にも、エクセルが好きならStatMateがありますし、StataステータやSASというツールもあります。
以下に、オススメと書いた3つについて紹介します。

■ EZR(Easy R)

実は、本連載で使うツールをEZRにしようか、Rコマンダーにしようかで、かなり悩みました。どちらも無償ですし、GPL(GNU General Public License)のV2、V3 (2007年)に従っているのも同じです。EZRはRコマンダーの進化版ですので、今ならEZRだろうとも思いました。インストールも簡単ですし。

EZRは、簡単に言えば、「 Rコマンダーに医療統計解析機能を組み込んだもの」です。Rコマンダーのメンテナンスが止まっている?ことを考えると、EZRの方が良いと思います。ただ、私の経験が少ないことと、医療統計までいらない(その分、メニューの数が少ない方が初心者にはうれしい)ことから、今回はRコマンダーを選びました。EZRでもRコマンダーの機能は使えるはずですのでEZRユーザーのかたもこの連載を読み進められると思います。


■ SPSS

最強の統計解析ツールです。だけど、50万円くらいするのでちょっと使ってみたいレベルの人にはお勧めしません。逆に、研究所やマーケティング部門などでガッツリと統計解析ツールを使いこなすぞーって人はSPSS一択だと思います。

そのような統計の人も、RとRコマンダーで、不満が出てからでいいと思います。不満が出たら、SPSSのお試し版を1ヶ月使って、“行けるぞ”ってなったら移行する形をお勧めします。


■ JMP

有償のツールですが、サブスクで1カ月14,740円/人とリーズナブルです(個人で年間17万円はきついと思いますが、企業なら経費でサクッと払ってもらえそうです🤗)。有償ですので、サポートや保証の面でも安心です。

ツールの特徴としては、試行錯誤しながら統計解析(分析と書いた方が良いかも)をしたい人向けの印象です。


この連載で使用する、RとRコマンダーについて、紹介します。

■ RとRコマンダー

R言語あーるげんごは、オープンソース・フリーソフトウェアの統計解析向けのプログラミング言語、および、その開発実行環境のこと(Wikipediaより)です。

R言語は、統計解析部分は、ベル研究所が開発したS言語(S言語の商用版は、S-PLUS)という統計処理用のプログラム言語を参考に作られ、データ処理部分はSchemeの影響を受けています。

Rは、コンソールウィンドウからコマンドを叩くCUIで動きます。初心者にはコマンドを覚える必要があるなど敷居が高かったので、RをGUIで操作できるパッケージが作られました。
そのひとつがRコマンダーです(他に有名なものでは、RStudioがあります)。Rコマンダーを使うことでRの「文法」や「コマンド」覚えることなく、マウスクリックのみで、基本的な統計解析ができます。
基本といっても通常使う分には十分な機能があります。とても多くの統計学者も使っていますので、いい加減なバグだらけのソフトウェアではありません。Rの計算結果について、信用して大丈夫です。

さてここで、上に書いたRの歴史は忘れても良いので、覚えてほしいことが2つあります。ひとつは以下のRのロゴで、もうひとつはRコマンダーのパッケージ名が「Rcmdr」ということです。

画像3


≡ RとRコマンダーのインストール

ツールですからインストールしなければ始まりません。RとRコマンダーのインストールは「アプリケーションソフトであるRをインストールして、Rを起動後に、パッケージソフトであるRcmdrを追加」する2ステップとなっています。2ステップ必要な点が面倒ですが、10分もあれば終わります。

手順は次の通りです。Windowsでのインストール方法です。Mac版もありますが、ちょっとインストール後の文字化け対応が面倒です。(Linux版もあります)

1. Rのインストール

 1.1 https://cran.r-project.org/ へアクセスする
 1.2 「Download R for Windows」をクリックする
 1.3 「base」をクリックする
 1.4 「Download R 4.1.1 for Windows」をクリックする。

バージョンが上がっていたら、そちらをダウンロードしてください。なお、旧バージョンへのリンクもありますから、旧バージョンが必要な場合もこちらからダウンロードできます。

// 使いたいパッケージが新バージョンに対応していない場合に旧バージョンを使いたくなることがあります。 //

 1.5 ダウンロードしたインストーラ(R-4.1.1-win.exe: 87MB)を実行する

インストールに際して、特に迷うところはないと思いますが、インストール中に、こんな画面が出てきます。

キャプチャ


32-bit, 64-bitを両方インストールして問題ありません。使う方だけでも構いません。(ディスクが50MBも節約できますし、Windowsのメニューにも片方しか現れないので選択しやすいというメリットがあります)

(追記) 2022年4月のバージョンから32ビット版の提供はなくなりました。

WindowsのOSが、64bit版ならどちらでも使えます。

※ 64bit版では、メモリが4GB制限を超えることができるメリットがあります。PCが多くのメモリを積んでいて、Rで大量のデータを解析することができます。
逆に言うと、そのくらいしかメリットがないのでWindowsのOSが、64bit版のときにも32bit版のRを使う意味はあると思います。


2. Rコマンダーのインストール

 2.1 Rを起動する
 2.2 Rのメニューの[パッケージ]>[パッケージのインストール]で、JapanサイトからRcmdrをインストールする

Japanサイトでうまくいかないときには、ほかのサイトで試してください。

 2.3 Rアプリの「R Console」にキーボードから「library(Rcmdr)」と入力してEnterキーで起動する

5秒くらいしてこちらの画面が開けばインストール成功です。

キャプチャ2

こちらも、「Rを起動してからRcmdrパッケージを入れる」点だけおさえておけば問題ないと思いますが、途中でパッケージを選ぶときにパッケージが多すぎて面食らうかもしれません。全部を選んでインストールする猛者もいますが、何十GBにもなるそうなので、ディスクとネットと時間に余裕のある人でなければ素直に「Rcmdr」だけを選択して[OK]ボタンを押しましょう。

なお、Rコマンダーを起動時に初回のみ、R Consoleにたくさんのワーニングがでますが、全部無視して構いません。

キャプチャ


3 起動の手間を減らす

次回使うときにも、Rを起動して、R Consoleから「library(Rcmdr)」と入力してRコマンダーを起動しても良いのですが、Rアイコンのプロパティのリンクに入力されている文字列に続けて、スペースをあけて「R_DEFAULT_PACKAGES=Rcmdr」を追記してプロパティを閉じてください。
(インストール先がデフォルトのままなら、"C:\Program Files\R\R-4.1.1\bin\x64\Rgui.exe" --cd-to-userdocs R_DEFAULT_PACKAGES=Rcmdrとなります。うまくいかないときは、ダブルクォーテーション関係が多いです。そんなとき、『毎回、「library(Rcmdr)」を入力したらいいんでしょう』とあきらめがちですが、毎回の手間はストレスになるので、がんばりましょう。)

以上によって、Rのアイコンをダブルクリックで起動するだけでRコマンダーまで立ち上がるようになるので便利です。

こちらがうまくいかないときは、「R_DEFAULT_PACKAGES=Rcmdr」をコピペするときに前後の文字が欠けたり、余計な文字までペーストしていないか、「"」は正しい位置にあるか、諦めずにチェックしてください。(毎回の手入力は地味にストレスになるので)


≡ Rコマンダーを使ってみる

インストールができたら、とりあえず、使ってみましょう。

まずは、上の検査数.csvをダウンロードしてください。

【追加説明:2022/8/17】
2022/4/22リリースのRバージョン4.2.0からWindows版Rのデフォルトの文字コードがUTF-8になりました。
ご使用のWindows版Rのバージョンが4.2.0以降の場合は、Windowsメモ帳などでCSVファイルを開き、「名前を付けて保存」のダイアログの文字コードにUTF-8を指定するなどして文字コードをUTF-8にしてください。

次に、CSVファイルをRコマンダーに読み込んでください。手順は次の通りです。

このnoteでは、WindowsでRとRコマンダーを使われることを想定しています。MacやLinuxでRをご使用の方は、CSVファイルの文字コードをシフトJIS(Shift_JIS)からユニコード(UTF-8)に変換してから読み込んでください。

Rコマンダー上でメニューの[データ]>[データのインポート]>[テキストファイルまたはクリップボード、、、]を選択します。

図1

次のダイアログが出たら、「フィールドの区切り記号」に「カンマ」を選んで、[OK]を押します。他はデフォルトのままでOKです。

CSVファイルなので「カンマ」を選びました。自分でデータを作るときには、TSV(タブ区切り)にした方がデータ中の「カンマ」の処理が要らないのでトラブルが起こりにくいです。
あと、Rは日本語に対応していますが、データ読み込み時にUTF-8などのシフトJIS以外のファイルを読み込むと文字化けします。
(追記) 2022年のバージョンから、UTF-8でないと文字化けするようになりました。デフォルトの文字コードが変わったということです。

また、列名の一文字目が数字だとその前にXがつきます。(例: 9月→X9月) 一文字目が数字の場合は全角の数字にしておくとよいでしょう。

図2

CSVファイルの読み込みに成功したら、Rコマンダーのメニューから
   [統計量]>[要約]>[アクティブデータセット]
を選んでみましょう。

> summary(Dataset)
   判明_年月日  総検査実施件数  医療機関等実施数 健康安全センター実施数
2020/1/24:  1   Min.   :    0   Min.   :    0    Min.   :   0.0        
2020/1/25:  1   1st Qu.: 1620   1st Qu.: 1397    1st Qu.: 114.5        
2020/1/26:  1   Median : 5481   Median : 5088    Median : 271.0        
2020/1/27:  1   Mean   : 6157   Mean   : 5845    Mean   : 311.9        
2020/1/28:  1   3rd Qu.: 9617   3rd Qu.: 9126    3rd Qu.: 430.5        
2020/1/29:  1   Max.   :26089   Max.   :25678    Max.   :1474.0        
(Other)  :597                                                          

といった出力がRコマンダーの出力ビューに現れます。細かい見方は今回説明しませんが、Meanが平均値のことです(最大はMaxの26089件です)。東京都では、平均して1日に6157件のPCR検査をしているということがわかります。

メニューの[グラフ]から希望するグラフを選択すれば、いろいろなグラフが描かれます。グラフは、Rコマンダーにではなく、R(本体)のウィンドウの方に描かれますので注意してください。例えば、「総検査実施件数」のヒストグラムはこんな感じです。数値だけではわからないデータ分布の様子が良く分かります。

総検査

グラフの見方については次回から一つずつ説明します。


≡ おわりに

今回は、RとRコマンダーのインストールの話をしました。インストールさえできれば、簡単な操作で一気に統計解析ができるので大変便利です。

ただし、何万件もあるデータの解析には時間がかかるので、まずは数百件のデータで慣れるのが良いと思います。

次回は、Rコマンダーを使って描いたグラフの解説を始めます。全てのグラフを一回では終わらないと思いますので、毎回一つずつかなあ。

◀前の記事へ   次の記事へ▶

この記事が気に入ったらサポートをしてみませんか?