zoeythanayot commited on
Commit
35c2ef4
·
verified ·
1 Parent(s): b7378bf

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +11 -17
README.md CHANGED
@@ -78,22 +78,13 @@ Below are the reward values observed during training:
78
 
79
  | Step | Reward |
80
  |------|--------|
81
- | 10 | 0.0005 |
82
- | 20 | 0.0016 |
83
- | 30 | 0.0028 |
84
- | 40 | 0.0043 |
85
- | 50 | 0.0048 |
86
- | 60 | 0.0046 |
87
- | 70 | 0.0046 |
88
- | 80 | 0.0048 |
89
- | 90 | 0.0048 |
90
- | 100 | 0.0048 |
91
- | 110 | 0.0049 |
92
- | 120 | 0.0050 |
93
-
94
- - Reward ค่อย ๆ เพิ่มขึ้นช่วงแรก (10 → 50)
95
- - Stabilize ที่ ~0.0048–0.0050 หลัง step 60
96
- - แสดงถึง convergence ของโมเดลต่อ reward function
97
 
98
  ---
99
 
@@ -132,7 +123,10 @@ with torch.inference_mode():
132
  top_p=0.9
133
  )
134
 
135
- print(tok.decode(output_ids[0], skip_special_tokens=True))
 
 
 
136
  ```
137
  ---
138
 
 
78
 
79
  | Step | Reward |
80
  |------|--------|
81
+ | 100 | 0.0030 |
82
+ | 200 | 0.0040 |
83
+ | 280 | 0.0042 |
84
+
85
+ - Reward มีแนวโน้ม ค่อย ๆ เพิ่มขึ้นต่อเนื่อง ในช่วงต้นการเทรน (Step 100 → 200 → 280)
86
+ - ค่า Reward อยู่ราว ๆ 0.0030 → 0.0040 → 0.0042 แสดงถึงการปรับตัวของโมเดลตาม reward function
87
+ - แนวโน้มชี้ว่าโมเดลกำลัง เข้าใกล้ภาวะเสถียร (convergence) แต่ยังไม่ถึงจุด plateau เหมือนกรณีที่ stabilize แถว ~0.0048–0.0050 หากเทรนต่อไปอีก มีโอกาสที่ค่า Reward จะคงที่ในระดับสูงขึ้น (plateau)
 
 
 
 
 
 
 
 
 
88
 
89
  ---
90
 
 
123
  top_p=0.9
124
  )
125
 
126
+ input_length = inputs.shape[1]
127
+ new_tokens = output_ids[0, input_length:]
128
+ resp = tok.decode(new_tokens, skip_special_tokens=True)
129
+ print(resp.strip())
130
  ```
131
  ---
132