acomagu
/

matsuollm2025-advancedcompe-1

Text Generation

Model card Files Files and versions

＜【課題】ここは自分で記入して下さい＞

This repository provides a LoRA adapter fine-tuned from Qwen/Qwen2.5-3B-Instruct.

Training Data

HF dataset id: (not set)
Local dataset path: out_dagger_alfworld_replay/iter_001/aggregate_messages_all.jsonl

Training Configuration

Max sequence length: 1024
Epochs: 1
Learning rate: 2e-04
LoRA: r=16, alpha=32

Notes

Upload source adapter is expected to be the model trained after ALFWorld DAgger replay.

Downloads last month: 13

Safetensors

Model size

3B params

Tensor type

BF16

·

Model tree for acomagu/matsuollm2025-advancedcompe-1

Base model

Qwen/Qwen2.5-3B

Finetuned

Qwen/Qwen2.5-3B-Instruct

Adapter

(1339)

this model