Google ColaboratoryでPythonを始める-9　統計関数とexcelデータの利用

2023年10月28日 13:03

Pandasの統計関数

今回使用するDataFrameはスライドのようになります。
最初にインポートメソッドでpandasモジュールを取り込み、dfにDataFrameとしてc1からc3列まで辞書形式でデータを設定しています。
DataFrameは右の図のようにインデックス0行から 2行までのデータとなります。

Pandasで統計関数を使用する場合、左のような関数が用意されています。
平均値はmean、標準偏差はstd、最大値はmax、最小値はmin、分散はvar、中央値はmedianとなります。
列ごとにこれらの統計量を求める場合は括弧の中は省略してかまいません。
正式に列指定をする場合は axis=indexのように指定します。

行ごとにこれらの統計量を求める場合には、カッコの中は「axis=‘columns’」と文字列により指定します。

まとめて統計量を求めたい場合にはデータフレーム名.describe() と書きます。

「パーセンタイル値」とは、全体を100%として小さい方から数えて何番目になるのかを示す数値です。
65パーセンタイルであれば、最小値から数えて65%に位置する値を指します。
また第一四分位数は25パーセンタイル、中央値は50パーセンタイル、第三四分位数は75%パーセンタイルです。

ExcelデータをColaboratoryにアップロードする方法

Google Colaboにアップロードされたエクセルデータを読み込むにはpandasの関数を使用します。
pt.read_excelとしてカッコの中にアップロードされたエクセルファイルのアドレスを文字列として書きます。
そして変数df用意しその中に取り込んでいきます。
この時アドレスを正確に読み込むにはアップロードされた excelファイルを右クリックし「パスをコピー」でアドレスを取得し
　read_excelの括弧の中に貼り付けます。このとき「’」を付けることに注意してください。

データフレームの表示方法と統計量の計算

DataFrameの表示行数を設定する方法について示します。
pd.set_optionの中に’display.max_rows’ カンマの後に表示行数を設定します。
この例では8を設定していますのではじめの四行と終わりの四行が表示されています。
ここで十以上の数を設定しても合計十行以上に表示することはできません。