zawatien

DataScientist 技術メモを中心に展開 まれにポエム

zawatien

DataScientist 技術メモを中心に展開 まれにポエム

マガジン

  • エンジニアリング

    環境構築等やデータ分析系以外の技術について。

  • データサイエンス

    データ前処理、機械学習、分析に関するTips こうするとラクのような抜け穴や、日本語の解説記事がなくて困ったといったあたりが多くなると思います。

  • 統計

記事一覧

README用のディレクトリ構成をラクに書くTips

以下をコマンドラインで実行したらクリップボードに保存される。 tree | clip.exe

zawatien
2年前
1

【2022年春】気になる本(AI、データサイエンス系中心)

本屋で立ち読みしてみていいなと思った本。 特に新しめのものを中心に。 データ利活用の教科書 めちゃいいと思う。 作業者にも発注者にもすべての人に自費でプレゼントし…

zawatien
2年前
1

VSCodeでフロー図作成&画像加工

ちょっとした資料作成で図解したいときに、別途ソフトを開いたり、あまり使い勝手の良くないPowerPointやExcelの中で作業するのは非効率。 そこそこ使い勝手がよいツールが…

zawatien
2年前

plotly-expressのplotを画像で保存する+kaleidoのエラー解消策

適当に検索して出た方法でplotly expressのプロットを保存しようと思ったらkaleidoやorcaのengineでやたらエラーが出てかなり困った。 バージョンとか色々原因はあるかと思…

zawatien
2年前

scoop+VSCode+Pythonの環境作成・切替

なにからなにまでローカルのものをscoopで管理してしまおうという思想。 開発環境そろえるみたいな時もvenvより直感的に使えておすすめ。 この手の情報は断片的にはありつ…

zawatien
2年前
1

ubuntuの仮想環境構築 Python3.x.y+venv

開発等で特定の環境が必要になった時、指定のバージョンのPythonのインストールと、仮想環境の作成まで一気通貫したものがなかったので作成。 準備以下をコマンドラインに…

zawatien
2年前

bq loadで解決。GoogleCloudStorage→BigQueryへのデータ取り込み

GCSにcsvがあるとして、BigQueryのテーブルにする。 そういう処理について。 bq loadで解決 解決策の1つはbqコマンド。 中でもbq load csvのデータから、1行目の読み飛ば…

zawatien
2年前
1

BigQueryでラクする日付処理

"2021-12-24"+1 →"2021-12-25"になったら直感的で嬉しい。 BigQueryならそれに近いことができる。 日常的にSQLを書いてBigQueryからデータを取っているとき、日付型のデー…

zawatien
2年前

Pandas groupby 列ごとに集計関数を変える

pd.groupby().sum()とかはよく使うものの、 列ごとにここは合計、ここは平均といった 使い分けをする方法はSQLだと容易にできるがPandasではdplyr的な記法のagg()を使うこ…

zawatien
2年前
3

README用のディレクトリ構成をラクに書くTips

以下をコマンドラインで実行したらクリップボードに保存される。 tree | clip.exe

【2022年春】気になる本(AI、データサイエンス系中心)

本屋で立ち読みしてみていいなと思った本。 特に新しめのものを中心に。 データ利活用の教科書 めちゃいいと思う。 作業者にも発注者にもすべての人に自費でプレゼントしたいくらい。 データサイエンス、AI、DX色んな言葉が手を替え品を替えつつ5年ほど前からバズワードになってきた。 で、核になる分析の実装や手法に関する情報は書籍、ネット記事等でたくさん得られるようになってきた。 集計なりなんなりは適当に検索して出てきた方法をそのままやれば、それなりのアウトプットが出せるよう

VSCodeでフロー図作成&画像加工

ちょっとした資料作成で図解したいときに、別途ソフトを開いたり、あまり使い勝手の良くないPowerPointやExcelの中で作業するのは非効率。 そこそこ使い勝手がよいツールがVSCodeのExtentionに存在している。 Luna Paint VSCodeでPhotoShop!?レイヤーを使い分けつつ、画像ファイルに文字を追加したり色を変えたりといったことが可能。回転、複数枚の画像の合成等も可能。 レイヤー情報ごと保存する.psのようなことはできないが、ちょっとした加工

plotly-expressのplotを画像で保存する+kaleidoのエラー解消策

適当に検索して出た方法でplotly expressのプロットを保存しようと思ったらkaleidoやorcaのengineでやたらエラーが出てかなり困った。 バージョンとか色々原因はあるかと思うが、以下で解消していける(はず) ゴール↓が動くなら問題ないので、ブラウザバックしてそのまま驀進 ※必要に応じてpip install等おこなう # jpg形式の保存の場合import pandas as pdimport plotly.express as pxdf = px.d

scoop+VSCode+Pythonの環境作成・切替

なにからなにまでローカルのものをscoopで管理してしまおうという思想。 開発環境そろえるみたいな時もvenvより直感的に使えておすすめ。 この手の情報は断片的にはありつつも一気通貫したものがなかったので記載。 scoopのインストール+αSet-ExecutionPolicy RemoteSigned -scope CurrentUserinvoke-Expression (New-Object System.Net.WebClient).DownloadString('

ubuntuの仮想環境構築 Python3.x.y+venv

開発等で特定の環境が必要になった時、指定のバージョンのPythonのインストールと、仮想環境の作成まで一気通貫したものがなかったので作成。 準備以下をコマンドラインに流してインストール sudo apt-get install -y build-essentialsudo apt-get install -y checkinstallsudo apt-get install -y libreadline-gplv2-devsudo apt-get install -y l

bq loadで解決。GoogleCloudStorage→BigQueryへのデータ取り込み

GCSにcsvがあるとして、BigQueryのテーブルにする。 そういう処理について。 bq loadで解決 解決策の1つはbqコマンド。 中でもbq load csvのデータから、1行目の読み飛ばし、型の自動検出といったあたりを引数にして取り込む例は以下。 bq load --source_format=CSV --skip_leading_rows 1 --autodetect {プロジェクト名}:{データセット名}.{テーブル名} {GCSのURI} テーブルに

BigQueryでラクする日付処理

"2021-12-24"+1 →"2021-12-25"になったら直感的で嬉しい。 BigQueryならそれに近いことができる。 日常的にSQLを書いてBigQueryからデータを取っているとき、日付型のデータを取り扱うのが少し面倒くさくなってくる。 「2022-01-01」のような日付型のdateというcolumnがあるとき、 BigQueryは忖度して以下のように対応してくれるので非常に便利。 -- 略WHERE date > "2021-12-15" -- 日付が20

Pandas groupby 列ごとに集計関数を変える

pd.groupby().sum()とかはよく使うものの、 列ごとにここは合計、ここは平均といった 使い分けをする方法はSQLだと容易にできるがPandasではdplyr的な記法のagg()を使うことになる。 意外と浸透していないようなので記載。 import pandas as pddf = pd.DataFrame([{'col_0': "A", 'col_1': 1, 'col_2': 2}, {'col_0': "A", 'co