見出し画像

Unity ML-Agents Release 19 の変更点

Unity ML-Agents Release 19」がリリースされました。M1 Macのネイティブ対応したみたいなので後で試す。

前回

1. パッケージのバージョン

「Unity ML-Agents Release 19」のパッケージのバージョンは、次のとおり。

・com.unity.ml-agents (C#) v2.2.1-exp.1
・com.unity.ml-agents.extensions (C#) v0.6.1-preview
・ml-agents (Python) v0.28.0
・ml-agents-envs (Python) v0.28.0
・gym-unity (Python) v0.28.0
・Communicator (C#/Python) v1.5.0

2. メジャーな変更点

◎ com.unity.ml-agents / com.unity.ml-agents.extensions (C#)
・サポートするUnityの最小バージョンが2020.3に更新。
・実行時に学習領域を動的に複製する機能が追加。
・Barracudaを2.3.1-previewに更新。
・InputSystemを1.3.0に更新。

3. マイナーな変更点

◎ com.unity.ml-agents / com.unity.ml-agents.extensions (C#)
・最新のチェックポイントだけでなく、任意のチェックポイントから動作を初期化する機能を追加。
・スタックされた観察の読み取り専用ビューを取得する機能が追加。

◎ ml-agents / ml-agents-envs / gym-unity (Python)
・gym-unityにgym versionを追加。

・ベータ、イプシロン、学習率を別々のスケジュールで使用するためのサポートが追加。(PPOとPOCAのみ)

・クラッシュしたUnity環境を終了するのではなく再起動するようにデフォルト動作を変更。これに関するレートとライフタイムの制限は、3つの新しいyamlオプションで設定。

・ env_params.max_lifetime_restarts (--max-lifetime-restarts) [default=10]
・ env_params.restarts_rate_limit_n (--restarts-rate-limit-n) [default=1]
・ env_params.restarts_rate_limit_period_s (--restarts-rate-limit-period-s) [default=60]

・決定論的アクションの選択が学習および推論中にサポート。

・ ポリシーで最も可能性の高いアクションを決定論的に選択するための新しい--deterministiccliフラグが追加。deterministicを追加することで実現できる : 実行オプション構成のnetwork_settingsでtrue。
・ onnxでの決定論的アクション選択をサポートするために、追加のテンソルがシリアル化されるようになった。
・ エディタでの決定論的アクション選択による推論のサポート。

・LL-APIに最小限の分析コレクションを追加。
・Python APIの使用とONNXへのエクスポート方法を示すDQNを使用してGridWorldの例のColabノートブックを更新。

4. 不具合修正

◎ com.unity.ml-agents / com.unity.ml-agents.extensions (C#)
・arm64およびx86_64のgRPCネイティブライブラリをユニバーサルに更新。 この変更により、Mac M1でのml-agentsの使用が有効になる。
・分析をサポートしていないプラットフォーム(PS4 / 5、XBoxOne)でml-agentsコードがコンパイルされないバグを修正。

◎ ml-agents / ml-agents-envs / gym-unity (Python)
・Criticsが学習中に正規化されていなかった不具合を修正。
・run_optionsの解析が正しくないために、カリキュラム学習がクラッシュする不具合を修正。
・エージェントが終了したチームメイトのすべての状態を受け取れない可能性があるマルチエージェント協調学習の不具合の修正。
・torch deviceオプションのargparserの間違った属性名を修正。
・resume&initialize_fromに関するCLIとyamlオプションの競合を修正。
・gym0.20.0リリースによるgym-unityの失敗したテストを修正。
・変分ボトルネックがグラデーションを適切に通過していなかったVAILのバグを修正。
・ユーザーのPII保護ロジックを強化し、TrainingAnalyticsを拡張して、詳細な構成パラメータを公開。

次回



この記事が気に入ったらサポートをしてみませんか?