upload via upload_folder 2025-08-04T13:40:58.066788+00:00

Files changed (7) hide show

README.md CHANGED Viewed

@@ -20,7 +20,7 @@ model-index:
       type: LunarLander-v3
     metrics:
     - type: mean_reward
-      value: 161.65 +/- 119.40
       name: mean_reward
       verified: false
 ---
@@ -47,4 +47,4 @@ state, _ = env.reset()
 action = model.action(state)
 ...
 ```
-There is also a state dict version of the model, you can check the corresponding chapter in the repo.

       type: LunarLander-v3
     metrics:
     - type: mean_reward
+      value: 250.02 +/- 55.89
       name: mean_reward
       verified: false
 ---
 action = model.action(state)
 ...
 ```
+There is also a state dict version of the model, you can check the corresponding definition in the repo.

eval_result.json CHANGED Viewed

	@@ -1 +1,6 @@
1	- {~~"mean_reward": 161.64931046922678, "std_reward": 119.3965123295903, "datetime": "2025-07-21 23:51:46", "train_duration_min": "3.43"}~~

+{
+    "mean_reward": 250.0192132640677,
+    "std_reward": 55.891006920169296,
+    "datetime": "2025-08-04T12:51:26.075627+00:00",
+    "train_duration_min": "1.65"
+}

full_model.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a94ff57dfb427ea7b36ac176aa3c1cbdba470d62f6d40ca70ba55dfacfb7cbc2
-size 4279477

 version https://git-lfs.github.com/spec/v1
+oid sha256:f6dec154d435a9f76d7a2b1e5640a41dbfb7eedcc51e054352fd4624b064bac2
+size 285941

params.json CHANGED Viewed

@@ -3,6 +3,7 @@
         "env_id": "LunarLander-v3",
         "env_kwargs": {},
         "max_steps": null,
         "use_image": false,
         "vector_env_num": 6,
         "use_multi_processing": true,
@@ -11,34 +12,37 @@
         "frame_skip": 1,
         "training_render_mode": null
     },
-    "device": "mps",
-    "learning_rate": 0.0001,
     "gamma": 0.99,
     "checkpoint_pathname": "",
     "eval_episodes": 50,
     "eval_random_seed": 42,
     "eval_video_num": 10,
-    "total_steps": 200000,
-    "rollout_len": 32,
     "gae_lambda_or_n_step": 0.97,
     "entropy_coef": {
         "_type": "LinearSchedule",
         "_module": "practice.utils_for_coding.scheduler_utils",
-        "start_e": 0.2,
-        "end_e": 0.1,
-        "duration": 200
     },
-    "value_loss_coef": 0.02,
-    "grad_acc": 1,
-    "max_grad_norm": 0.5,
-    "critic_lr": 5e-05,
-    "env_wrappers": [
-        "LunarLander",
-        "PassiveEnvChecker",
-        "OrderEnforcing",
-        "TimeLimit",
-        "CastObsFloat32Wrapper",
-        "RecordEpisodeStatistics",
-        "Autoreset"
-    ]
 }

         "env_id": "LunarLander-v3",
         "env_kwargs": {},
         "max_steps": null,
+        "normalize_obs": false,
         "use_image": false,
         "vector_env_num": 6,
         "use_multi_processing": true,
         "frame_skip": 1,
         "training_render_mode": null
     },
+    "device": "cpu",
+    "learning_rate": 0.0003,
     "gamma": 0.99,
     "checkpoint_pathname": "",
+    "max_grad_norm": 0.5,
+    "log_interval": 10,
     "eval_episodes": 50,
     "eval_random_seed": 42,
     "eval_video_num": 10,
+    "total_steps": 900000,
+    "rollout_len": 128,
     "gae_lambda_or_n_step": 0.97,
     "entropy_coef": {
         "_type": "LinearSchedule",
         "_module": "practice.utils_for_coding.scheduler_utils",
+        "_start_e": 0.2,
+        "_end_e": 0.1,
+        "_duration": 600,
+        "_start_t": 0
     },
+    "value_loss_coef": 0.5,
+    "critic_lr": 0.0003,
+    "critic_lr_gamma": 0.995,
+    "normalize_returns": false,
+    "hidden_sizes": [
+        256,
+        256
+    ],
+    "reward_clip": [
+        -1,
+        1
+    ],
+    "value_clip_range": 1.0
 }

replay.mp4 CHANGED Viewed

Binary files a/replay.mp4 and b/replay.mp4 differ

state_dict.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:45fb1e48ca22c63111df14efb6ef7b1f0ff3a0b3c433e44ab040f0d91ea0e67a
-size 4277109

 version https://git-lfs.github.com/spec/v1
+oid sha256:0dfd5f204e4d8fb31457ab5ccedaee58dc7bda7148099d3c1c26d1e2a3ae9f7e
+size 283957

tensorboard/events.out.tfevents.1754311775.winkindeMacBook-Air.local.97570.0 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:101429b97396a01230cc115fa6571805d63f8a8fd1c1ae4df1ad62eb6da800fc
+size 83191