Joysw909/AVQA
Viewer โข Updated โข 32k โข 1.63k โข 1
How to use Hellohihihih/qwen35-audio-graft-avqa with Transformers:
# Load model directly
from transformers import AutoModel
model = AutoModel.from_pretrained("Hellohihihih/qwen35-audio-graft-avqa", dtype="auto")์ด ๋ฆฌํฌ์งํ ๋ฆฌ๋ Qwen/Qwen3.5-9B backbone์ openai/whisper-medium hidden state๋ฅผ soft-token์ผ๋ก graftํ๊ธฐ ์ํ ์คํ์ฉ adapter checkpoint์ ๋๋ค. ์ ์ฒด Qwen backbone weight๋ฅผ ํฌํจํ์ง ์์ต๋๋ค. ์ฆ, standalone ๋ชจ๋ธ์ด ์๋๋ผ base model + audio encoder + audio graft adapter ์กฐํฉ์ผ๋ก ๋ก๋ํด์ผ ํฉ๋๋ค.
Qwen/Qwen3.5-9Bopenai/whisper-mediumJoysw909/AVQAaudio_graft.pt: audio projector, audio start/end soft token, ์ค์ ๊ฐtokenizer/: tokenizer filestraining_config.json: ํ์ต ์ค์ qwen_lora/: Qwen LoRA๊ฐ ์ผ์ง ๊ฒฝ์ฐ์๋ง ์กด์ฌ์ VRAM Kaggle ํ๊ฒฝ์ ๊ณ ๋ คํด ๊ธฐ๋ณธ๊ฐ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
์ด checkpoint๋ ์ฐ๊ตฌ์ฉ prototype์ ๋๋ค.
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, WhisperFeatureExtractor, WhisperModel
ckpt = torch.load("audio_graft.pt", map_location="cpu")
base_model_id = ckpt["qwen_model_id"]
audio_encoder_id = ckpt["audio_encoder_id"]
# ์ด ๋
ธํธ๋ถ์ QwenAudioGraft ํด๋์ค ์ ์๋ฅผ ํจ๊ป ์ฌ์ฉํ์ธ์.
์ด ๋ชจ๋ธ์ Kaggle notebook qwen35_audio_graft_avqa_kaggle ๊ณ์ด์์ ์์ฑ๋์์ต๋๋ค.
์ฃผ์ ์ค์ ์ training_config.json์ ๊ธฐ๋ก๋์ด ์์ต๋๋ค.