zoeythanayot commited on
Commit
d5d15d7
·
verified ·
1 Parent(s): 3d66ad7

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +3 -4
README.md CHANGED
@@ -82,10 +82,9 @@ Below are the reward values observed during training:
82
  | 200 | 0.0040 |
83
  | 280 | 0.0042 |
84
 
85
- - Reward มีแนวโน้ม ค่อย ๆ เพิ่มขึ้นต่อเนื่อง ในช่วงต้นการเทรน (Step 100 → 200 → 280)
86
- - ค่า Reward อยูราว 0.0030 → 0.0040 → 0.0042 แสดงถึงการปรับตัวของโมเดลตาม reward function
87
- - แนวโน้มชี้ว่าโมเดลกำลัง เข้าใกล้ภาวะเสถียร (convergence) แต่ยังไม่ถึงจุด plateau มือนกรณีที่ stabilize แถว ~0.0048–0.0050 หากเทรนต่อไปอีก มีโอกสที่ค่า Reward จะคงที่ในระดับสูงขึ้น (plateau)
88
-
89
  ---
90
 
91
  ## How to Use
 
82
  | 200 | 0.0040 |
83
  | 280 | 0.0042 |
84
 
85
+ - ค่า Reward มีแนวโน้มเพิ่มขึ้นอย่างต่อเนื่องในช่วงแรของการเทรน (Step 100 → 200 → 280)
86
+ - ค่าทีได้ (≈0.0030 → 0.0040 → 0.0042) แสดงถึงการปรับตัวของโมเดลให้สอดคล้องกับ reward function
87
+ - แนวโน้มบ่งชี้ว่าโมเดลกำลังเข้าใกล้ ภาวะเสถียร (convergence) แต่ยังไม่ถึง plateau; หากเทรนต่อไป ดวค่า Reward จะคงที่ในระดับสูงขึ้น (≈0.0048–0.0050)
 
88
  ---
89
 
90
  ## How to Use