Azure Machine Learning 100 Tips

Visual Studio Code で Azure Machine Learning コンピューティング インスタンスに接続する

こちら

Azure Machine LearningのComputeを自動でシャットダウンするAzure 

Functions を使用してコンピューティング インスタンスを自動停止する方法について

Azure Machine LearningのコンピュートからVisual Studio Codeを起動直接起動する

AzureML VS Code Integration Private Preview Signup Form から依頼することで、Previewとして利用可能。

Dataset(データセット)への登録の制約

Azure Machine Learningのデータセットは、登録時に内部で変換する際のサイズに制限があります。内部でPandasを利用している関係上、目安として1G未満にしておいたほうが良く、私の事例では数百Mで変換エラーが発生しました。CSVからの登録とParquetからの登録でも、内部処理の関係でサイズの上限がことなります。

[検証中]Azure Machine LearningのDatasetから少しずつデータを取り出す方法

Datasetクラスのskip()メソッドを使って、データを読み飛ばし、そこからtake()メソッドで必要な分だけ取り出すことができる。
dataset = Dataset.get_by_name(workspace=workspace, name='dataset')
dataset.skip(5).take(5).to_pandas_dataframe()

[検証中]AutoMLをローカル実行後の、テンポラリデータの削除について

[背景]
 AutoMLのローカル実行では、テンポラリのデータなどが/tmp以下に格納されます。これは再起動のタイミングで初期化されているようですが、大量のデータをダウンロードする場合、都度/tmpが消費されローカルリソースがなくなる可能性があります。
[解決策]
 AutoMLの実行後、/tmpで利用している実行結果を削除することで、ローカルディスクの使用を削減することが可能です。
例:
#Runオブジェクトのget_detail ()で/tmpのどんな名称でフォルダを作っているか、確認
runId = run.get_details()["runId"]
#フォルダの削除
tmp_dir = Path('/tmp', 'azureml_runs', run.get_details()["runId"])
if tmp_dir.exists() and tmp_dir .is_dir(): shutil.rmtree(tmp_dir)

この記事が気に入ったらサポートをしてみませんか?