プログラミング未経験の臨床心理士がデータ分析を2年やってみた〜3言語の使用感の比較(Python, R, SAS)〜

使用率

まず、使用率については昨年までと変わらず、下記のような内訳となっています。
●仕事:SAS>R>Python
●私事:Python>R>SAS

仕事は領域の都合上SASを使うことが多い一方で、私事としてはアプリケーションを作っているのでPythonが多いです。
(最近はGodotも触っているんですが、脱線するので割愛)

3つの言語の使用感に関する比較

データ分析や統計解析に関して、新人エンジニアが感じた長所短所を比較をしたいのですが、今回は前回よりもまとめるために表にしてみました。

こんな感じですかね。それぞれ追記しておきたいことは以下に書いていきます。

SAS

生物統計や金融領域における一定の需要があるようなのですが、使用者が少ないため組織によっては使えるだけで重宝されます。
ただ、1年ごとのライセンス料があまりに高いこともあり使用する組織が限定的なので、SASだけでは転職の幅が狭まるかもしれません。
余談ですが、SASはオプション指定が不可欠なので、生物統計の勉強も否応なく捗りました。

R

tidyverseとRstudioが優秀で、データフレームの処理や確認がとても楽です。
私は前処理をRでやりたいがために、前処理をRでやって統計解析をSASでやるというように言語を組み合わせて使用しているくらいです。
ただ、パッケージの管理がやや面倒で、私は何度かインストールフォルダの指定を失敗しました。
最近はDockerを使い始めたのでその問題はなくなりましたが、Dockerも組織の大きさによってはたしか有料になっちゃいましたからねえ…

Python

データフレームの処理についてPandasが主流だった頃は、Rの方が楽だなあと思っていました。
しかし、polarsが注目されるようになってからは、Rのtidyverseとの使用感の差はあまりなくなりましたし、Rのtidyverse以上に動作が軽いです。
ただ、環境構築はやや面倒ですね。google colaboratoryを使わず、ローカル環境でやる場合、VS Code+venvかanacondaのどちらかでjupyter notebookを使っています。
データ分析だけをするなら仮想環境の構築とかを覚える必要がない人もいると思うので、この辺は面倒かもしれません。

これからデータ分析を始める人へのお勧め

データ分析を始める際にどれも使ったことない人とか、仕事の幅を広げたい人はPython。
医療や心理の領域、かつデータ分析と他の専門業務との両立が必要な人はR。
生物統計に没頭したい、かつ所属組織や所属予定組織でSASを使用予定という人はSAS。
というのが良いんじゃないかなあと思います。

とはいえ、まだまだ新人エンジニアの所感なので、周りにベテランエンジニアさんがいるならその方に聞いてみてくださいね!

この記事が気に入ったらサポートをしてみませんか?