--- license: apache-2.0 base_model: unsloth/gpt-oss-20b tags: - reinforcement-learning - grpo - 2048-game - unsloth - lora language: - en pipeline_tag: text-generation --- # GPT-OSS 2048 Reinforcement Learning Model このモデルは、OpenAIのgpt-oss-20bを2048ゲームの戦略生成タスクで強化学習(GRPO)によりファインチューニングしたものです。 ## 📋 学習パラメータ | パラメータ | 値 | |-----------|-----| | ベースモデル | `unsloth/gpt-oss-20b` | | max_seq_length | 2048 | | lora_rank | 32 | | lora_alpha | 64 | | batch_size | 1 | | gradient_accumulation | 1 | | 実効バッチサイズ | 1 | | num_generations | 2 | | max_steps | 2 | | learning_rate | 5e-05 | | warmup_ratio | 0.1 | | 量子化 | 4bit | ## 🎯 タスク 2048ゲームのボード状態を入力として、最適な次の一手(W/A/S/D)を出力するPython関数を生成します。 ## 💾 保存形式 - **形式**: lora - **生成日時**: 2025-12-26 07:13:06 ## 🚀 使用方法 ```python from unsloth import FastLanguageModel model, tokenizer = FastLanguageModel.from_pretrained( model_name="MakiAi/gpt-oss-2048-rl-s2-r32-b1-lora", max_seq_length=2048, load_in_4bit=True, ) ``` ## 📎 関連リンク - [Unsloth公式ドキュメント](https://docs.unsloth.ai/) - [gpt-oss-20b](https://huggingface.co/unsloth/gpt-oss-20b) ## ⚠️ ライセンス Apache 2.0