記事一覧
7/7 勉強の記録 1*25
1
数字と文字は結合できないからstr()や""で囲っておなじにしよう
2
りぷれいすとはfindとかデータをまとめて編集や検索できるから
知っているだけで楽になるな
3
"{} + {} = {}".format( x , y , x + y)
数字を指定したら代入する順番を変えられる
format側は右からだよ
4
try:
print("実行開始")
print(a / b
7/5 勉強の記録 1*25
1
B これを決めるための下準備
rangeは繰り返し
2
繰り返し
3
While
7/3,4 勉強の記録 1*25
7/3
1
集合は積集合と和集合がある
intersectionhは一つの集合を選んでそれと同じ部分を引き出す感じか
&(アンパサンド)は集合1 & 集合2みたいにそれぞれを与えるみたい
7/4
1
演算子 and or よく使うと思う
is と==はオブジェクトIDを見て一致しているかどうか違い
2
is はオブジェクトIDが同じならTrue
==は中身が同じならオブジェクトIDが違くても
7/2 勉強の記録 1*25
1
リストの最大最小を調べたり昇順降順に並び替えるができる
2
リストが終わりタプルへ
主な違いはリスト内は追加編集できるが
タプルはそれができないみたい
3
タプルとリストの最大最小値の書き方は同じだったが
sortとsortedと若干違う部分もある
辞書型は2つとも違い、一意な鍵と値で構成されている
4
辞書型で鍵と値を消したいときは鍵を削除すると紐付く値も消えるよ
setという集合で
7/1 勉強の記録 1*25
1
Pythonの環境構築を行なった
大きく分けて2つ
アナコンダインストール>ターミナルからジュピターラボ起動
VSCodeインストール>Ptyhonの拡張機能をインストール
ポケモンの世界観で言うとポケモン図鑑を手に入れた
図鑑はポケモンのタイプや生態を知ることができるもの
2
Dockerはまだ早いみたい
でも向き合うことも忘れずに
3
変数の基礎 予約語は変数名に使えないよ
も
6/3 Python
df[df['都道府県名'].str.endswith('山')]
str.endswithとは特定の文字列で終わるデータを抽出するもの
例 富山
df[df['西暦(年)'] == df['西暦(年)'].max()]
maxは指定した列の最大値に当てはまるデータを抽出する
この場合'西暦(年)'の最大値に等しい行がデータフレームとして抽出する
6/1 Python
df[df['都道府県名'].str.contains('川')]
str.containsとは特定の文字列を含む要素を持つ行のデータを抽出するもの
例 神奈川 石川 香川
df[df['都道府県名'].str.startswith('山')]
str.startswithとは特定の文字列から始まるデータを抽出するもの
例 山形 山梨 山口
5/31 Python
df = df.rename(columns={'西暦(年)': 'year'})
df.query('year == 2015 and 都道府県名 == "東京都"')
データフレームのカラム名を
西暦(年)→ year
queryを使って
year == 2015 → yearが2015 かつ and
都道府県名 == "東京都"→ 都道府県名が東京のデータ
これらを指す
5/30 python
ライブラリとは便利な機能
pandasは
Pythonでデータ解析やデータ操作、型変換などを行うためのライブラリ
様々な形式のデータを操作するための機能が提供されており、データの読み込みや異なるデータ形式への変換などができる
matplotlibは
Pythonのグラフ描画ライブラリ
棒グラフや折れ線グラフ、散布図など様々な種類のグラフを描画する機能が提供されている
折れ線グラフを描くには
5/29 データ分析の流れ
1課題 ゴール 仮説の設定
2データ収集
3データの確認と理解
4データクリーニングと前処理
5データの分析
1達成すべきゴール
データありきではなく目的があってから必要なデータが集められる
明確なゴールが必要
2課題に必要なデータを集める
3よく確認しデータに馴染むことで分析できるようになる
4不正確や欠損などそれらをきれいにクリーニングする
5
1から4を通して分析手法に適合するよう
5/28 Excel読み込み
import pandas as pd
df = pd.read_csv('パス',encoding = 'shift-jis')
df[df['西暦(年)'] == 2015]
→データフレーム内の西暦の中の2015に一致するデータ
df[df['西暦(年)'] % 10 == 0 ]
→西暦を10で割り切れるもの 2000 2010 2020 …etc
df[~(df['西暦(年)']