見出し画像

「PSPP」+「LibreOffice」という提案

 私は仕事で少しばかり統計分析を行うことがあります。そこでは主に「R」を使っています。
正確には、「R」+「R Studio」+「秀丸エディタ」です。データファイルはCSVで扱うことが多いのですが、「秀丸エディタ」は巨大なファイルも素早く扱えるし、CSVモードという表示モードがあって、データも見やすくなっています。

これで特に不便はないのですが、一部の部署ではIBMの「SPSS」を使っていますが、数は揃っていません。
時々、アドバイスも求められます。使い方は分かりますし、出力の解釈もできますが、やはり、こちらにないソフトのことを説明するのはなかなか難しいものがあります。

そこで、実際には「R」とともに「PSPP」も併用しているというのが実態です。

世界でー番使われている統計ソフトと言われるほどメジャーになってきた「R」にくらべると、「PSPP」は知名度で劣るかも知れません。
「PSPP」は、「SPSS」と同等の機能を実装した、フリーなオープンソースの互換ソフトウェアを目指して開発されている統計ソフトです。「SPSS」のGUI、言語体系、ファイル形式に準拠しており、まだ実装されていない機能もありますが、主要な分析については「SPSS」とほぼ同様の手順で行え、同一といってよい結果を出します。

さて、最近は統計学が様々な所で注目を集めています。
では、勉強を始めようとしたとき、統計ソフトには何を使えばいいのでしょう。

私も使っている「R」のほか、汎用プログラム言語である「python」も統計に使われるようになってきました。さらに高速な「julia」なども登場しています。

確かにこれらの「統計言語」は非常に強力です。「SPSS」でも対応していない最新の分析を行うことも可能です。実際、「SPSS」には、「R」を呼び出して分析を行う機能が実装されてもいます。

つまり、統計を行う上で、最も強力な環境は、現状では「R」か「python」(中には「python」から「R」を呼び出すのが最強という意見もあります)と言えます。

しかし、これらのソフトは、マウス操作だけで終了というわけにはいきません。言語をきちんと習得し、スクリプトを書けるようにならなければ、本領発揮とはいきません。

 統計を本格的に仕事にするならば、それも必要でしょう。

 しかし、そんな人はまだまだ少数ではないでしょうか。ほとんどの人は統計が仕事なのではなく、仕事に統計が必要なはずです。

では、「SPSS」はと言えば、入門時に購入を勧められるかというと、ちょっと難しい。
 「SPSS」は、SAS Instituteの「SAS」と並んで、ほぼデファクト・スタンダードと言ってもいい優秀なソフトウェアです。しかし、非常に高価で、維持にも費用がかかります。個人で簡単に手が出せる価格設定ではありません。

エクセルがー番手軽という意見もあるでしょう。gaccoの統計学の講座もエクセルの使用を前提にしたものがあります。

実際、「Excel」は研究分野でも使用されており、『21世紀の資本』のトマ・ピケティも、統計分析は「Excel」で行ったそうです。

しかし、統計を専門に扱う研究者からは、信頼性の面から「まじめな統計分析にExcelを使うものなどいない」と言われているようです。それが一体どの程度の問題なのか、詳しいところは分かりませんが、それ以前に、分析ツールとしてみた場合、「Excel」には大きな問題点があると思います。

それは再現性です。

使いなれている人が、「これをこうやってこうするとこうなる」とやってしまった作業を、あまりなれていない人が再現するのは至難の業ですし、本人が再現するのも実はかなり面倒くさかったりします。

入門時は手順を確認し、何度も繰り返すことで身につけていくことが重要です。その意味で、どうやったのかの記録が残らないというのは非常に大きな欠点と言えるでしょう。

その点、「R」や「python」はそもそもスクリプトですから、作業過程はすべて文字で残ります。それを保存しておけば、まったく同じ作業を繰り返すことができます。

GUIが基本の「PSPP」ですが、裏ではスクリプト(シンタックス)が走っていて、結果出力と一緒に、実行されたシンタックスも吐き出されます。つまり、何をやってその結果が出たのかがすべて残るということです。

しかも、実行シンタックスを含めた、その出力をそのまま保存することができるので、作業の過程を完全にたどることができます。
当然ですが、出力からシンタックスを取り出し、シンタックス・エディタに貼り付けて実行すれば、作業を完全に再現することができます。

これが統計専用のソフトや「R」や「pyton」などの言語を使う大きな理由だと思います。

しかも、「PSPP」は基本的にGUIで実行できるので、操作感覚は「Excel」などに比較的近く、「R」や「python」よりは随分とっつきやすいです。

以上のような理由から、仕事で統計が使いたいができるだけ費用をかけたくない人、あるいは統計を学び始めようという人にとっては、「PSPP」という選択肢が有力になると思います。

「PSPP」の利点をまとめておきます。

・フリーでオープンソースである。
・「SPSS」に準拠したGUIと言語体系。
・「SPSS」とほぼ同一の分析結果。
・「SPSS」ファイル(.sav)をそのまま扱える。
・LINUX、UNIX、Windows、MacOSに対応。
・分析過程がすべて記録でき、再現性が高い。

どうでしょう。統計の入り口としては最適ではないでしょうか。
そういうこともあり、私は会社では「SPSS」がある部署の人には「PSPP」を進めています。試行錯誤の分析は「PSPP」で行い、資料を作成する本分析だけ「SPSS」を使うようにすれば、いろんな意味で「リソース」を有効利用できます。

しかし、「PSPP」には、「SPSS」に比べてグラフ機能が貧弱という欠点があります。

・描画できる種類が少ない。
・一部を除いてはシンタックスを操作しなくてはいけない。
・描画後のグラフを編集できない

特に最後は、仕事でプレゼンテーション資料に利用するような場合は、致命的と言ってもいいでしょう。

だったら、その部分だけ表計算ソフトで補ってやればいい。

勿論、表計算のデファクト・スタンダードはエクセルですが、ここは同じくオープンソースの「LibreOffice」を推します。Linuxで使えるというのも大きな理由です。

つまり、「PSPP」+「LibreOffice」なら、全く環境を選ばない。

「OpenOffice」も同等の機能を持っていますが、開発が滞っているため、避けておくことにします。

「LibreOffice」も統計機能を強化してきていますが、そこにはやはり「Excel」同様に再現性の問題がありますので、できるだけ描画にしぼった方がいいでしょう。

「PSPP」+「LibreOffice」というフリーでオープンソースなGUI統計分析環境、入門時にはかなり入力な選択肢だと思うのですが、どうでしょうか。

この記事が気に入ったらサポートをしてみませんか?