---
license: apache-2.0
base_model: unsloth/gpt-oss-20b
tags:
  - reinforcement-learning
  - grpo
  - 2048-game
  - unsloth
  - lora
language:
  - en
pipeline_tag: text-generation
---

# GPT-OSS 2048 Reinforcement Learning Model

このモデルは、OpenAIのgpt-oss-20bを2048ゲームの戦略生成タスクで強化学習（GRPO）によりファインチューニングしたものです。

## 📋 学習パラメータ

| パラメータ | 値 |
|-----------|-----|
| ベースモデル | `unsloth/gpt-oss-20b` |
| max_seq_length | 2048 |
| lora_rank | 32 |
| lora_alpha | 64 |
| batch_size | 1 |
| gradient_accumulation | 1 |
| 実効バッチサイズ | 1 |
| num_generations | 2 |
| max_steps | 2 |
| learning_rate | 5e-05 |
| warmup_ratio | 0.1 |
| 量子化 | 4bit |

## 🎯 タスク

2048ゲームのボード状態を入力として、最適な次の一手（W/A/S/D）を出力するPython関数を生成します。

## 💾 保存形式

- **形式**: lora
- **生成日時**: 2025-12-26 07:13:06

## 🚀 使用方法

```python
from unsloth import FastLanguageModel

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="MakiAi/gpt-oss-2048-rl-s2-r32-b1-lora",
    max_seq_length=2048,
    load_in_4bit=True,
)
```

## 📎 関連リンク

- [Unsloth公式ドキュメント](https://docs.unsloth.ai/)
- [gpt-oss-20b](https://huggingface.co/unsloth/gpt-oss-20b)

## ⚠️ ライセンス

Apache 2.0