docs: README에 GitHub 코드 리포지토리 링크 추가

b7b3d19 25 days ago

8.38 kB

license: cc-by-nc-4.0
tags:
  - translation
  - korean
  - english
  - ko-en
  - en-ko
  - kanana
  - kanana-1.5
  - lora
  - peft
  - unsloth
language:
  - ko
  - en
library_name: peft
pipeline_tag: translation
base_model: kakaocorp/kanana-1.5-2.1b-base
datasets:
  - AI-Hub-126-korean-english-parallel
model-index:
  - name: kanana-1.5-2.1b-aihub-ko-en-lora
    results:
      - task:
          type: translation
        dataset:
          name: AI Hub
          type: AI-Hub-126
        metrics:
          - type: bleu
            value: 32.04
            name: BLEU
          - type: chrf
            value: 57.26
            name: chrF++

kanana-1.5-2.1b-aihub-ko-en-lora

Kanana 1.5 2.1B base (카카오)를 AI Hub 한-영 병렬 말뭉치 (#126) 로 QLoRA 파인튜닝한 한↔영 번역 어댑터입니다.

코드·문서 전체 리포지토리: github.com/DeepMav/on-device-translation 자매 모델: harveykim/gemma-3-1b-aihub-ko-en-lora — 동일 데이터·동일 평가 프로토콜로 학습된 Gemma 3 1B 버전.

모델 정보

항목	값
베이스 모델	`kakaocorp/kanana-1.5-2.1b-base` (Apache-2.0)
어댑터	LoRA (PEFT 0.19.1), r = 32, α = 64, dropout = 0
타겟 모듈	언어 레이어 전체 선형 계층 (attn q/k/v/o + mlp gate/up/down)
어댑터 크기	약 184 MB (`safetensors`) — 토크나이저 포함 총 약 201 MB
시퀀스 길이	1,024
학습 데이터	AI Hub #126 — 한국어-영어 병렬 말뭉치
학습 쌍 수	988,003 (양방향, 균형 샘플링)
지원 언어	한국어 ↔ 영어
라이선스 (어댑터)	CC BY-NC 4.0 — 비영리 용도 한정
라이선스 (베이스 모델)	Apache 2.0

베이스 모델 자체는 Apache 2.0이라 상용 가능하지만, 본 어댑터는 학습 데이터(AI Hub #126)의 비영리·연구 목적 정신에 맞춰 CC BY-NC 4.0으로 배포합니다. 상용 사용을 원한다면 자체 데이터로 재학습하세요.

성능 (균형 검증셋 200쌍, AI Hub #126 12개 카테고리 × 양방향)

모델	BLEU	chrF++
Kanana 1.5 2.1B base (베이스)	13.78	38.11
+ LoRA (988K, 1 epoch)	32.04	57.26
Δ	+18.26	+19.15

자매 Gemma 모델과의 비교 (동일 데이터·동일 평가)

모델	베이스 BLEU	베이스 chrF++	Post-SFT BLEU	Post-SFT chrF++
Gemma 3 1B-IT + LoRA	1.88	23.07	25.13	49.64
Kanana 1.5 2.1B base + LoRA	13.78	38.11	32.04	57.26
차이	+11.90	+15.04	+6.91	+7.62

Kanana base의 출발선(13.78 BLEU)이 Gemma-IT 베이스(1.88)보다 월등히 높음 — 카카오의 한국어 사전학습 우위
Post-SFT 절대 점수도 Kanana 우위 (+6.91 BLEU, +7.62 chrF++)
SFT 게인(Δ)은 출발선이 낮았던 Gemma가 더 큼 — 베이스 자체의 한국어 능력 차이가 반영됨

파일 목록

파일	크기	형식
`adapter_model.safetensors`	184 MB	PEFT LoRA 가중치
`adapter_config.json`	1.4 KB	PEFT 설정 (r=32, α=64, target_modules)
`tokenizer.json`	17 MB	Kanana 토크나이저 (LFS)
`tokenizer_config.json` / `special_tokens_map.json` / `chat_template.jinja`	~70 KB	토크나이저 메타데이터
`eval_result.json`	< 1 KB	200쌍 BLEU/chrF 결과

사용법

입력 포맷 (중요)

본 어댑터는 base 모델 위에 학습되었으므로 chat template을 사용하지 않고 raw Instruction/Response 포맷을 따릅니다:

### Instruction:
{지시문}

### Input:
{입력 문장 — 옵션}

### Response:
{출력}

PyTorch + PEFT

from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import PeftModel
import torch

base = AutoModelForCausalLM.from_pretrained(
    "kakaocorp/kanana-1.5-2.1b-base",
    torch_dtype=torch.bfloat16,
    device_map="auto",
)
model = PeftModel.from_pretrained(base, "harveykim/kanana-1.5-2.1b-aihub-ko-en-lora")
tok = AutoTokenizer.from_pretrained("harveykim/kanana-1.5-2.1b-aihub-ko-en-lora")

prompt = (
    "### Instruction:\n다음 한국어 문장을 영어로 번역하세요.\n\n"
    "### Input:\n오늘 점심은 김치찌개 어때요?\n\n"
    "### Response:\n"
)
inputs = tok(prompt, return_tensors="pt").to(model.device)
out = model.generate(**inputs, max_new_tokens=128, do_sample=False)
print(tok.decode(out[0][inputs.input_ids.shape[1]:], skip_special_tokens=True))
# → "How about kimchi stew for lunch today?"

Unsloth (학습·평가에 권장, 더 빠름)

from unsloth import FastModel
model, tok = FastModel.from_pretrained(
    model_name="harveykim/kanana-1.5-2.1b-aihub-ko-en-lora",
    max_seq_length=1024,
    load_in_4bit=True,
)

학습 정보

항목	값
프레임워크	Unsloth + PEFT 0.19.1 + TRL 0.19.1
정밀도	bfloat16 (Unsloth 4-bit 베이스)
배치	device당 16 × grad-accum 2 (effective 32)
시퀀스 길이	1,024
옵티마이저	AdamW 8-bit
학습률 / 스케줄	7e-5, cosine, 2% warmup
Weight decay	0.01
스텝 수	30,876 (988K / 32, 1 epoch)
총 학습 시간	5.88 시간 (RTX 3090)
Train loss (최종)	1.377
Eval loss	1.413 → 1.299 (15회 평가, 단조 감소, 과적합 없음)
Seed	42

전체 학습 스크립트: training/train_kanana.py 4단계 자동화 파이프라인: training/run_pipeline_kanana.sh Gemma와의 상세 비교 리포트: docs/COMPARISON_REPORT.md

Gemma 모델 대비 LR을 7e-5로 보수적으로 설정한 이유: Kanana 2.1B base는 instruct-tuned가 아닌 raw base 모델이라, 강한 LR이 사전학습된 한국어 표현 능력을 손상시킬 위험이 더 큽니다.

한계점

도메인 분포 편향 — AI Hub #126 분포 (대화체·구어체 중심)에 맞춰져 있어 시·문학·전문 분야는 보장 없음
1 epoch 단방향 학습 — Eval loss가 단조 감소 중이며 plateau 미도달. 추가 학습 여지 있음
Base 모델 출력 형식 의존 — Instruction/Response 포맷을 정확히 따르지 않으면 품질 저하

라이선스

어댑터 가중치 (이 레포) — CC BY-NC 4.0 (비영리·연구 목적). 출처 표기 시 자유롭게 사용 가능
베이스 모델 — Apache 2.0 (kakaocorp/kanana-1.5-2.1b-base)
데이터셋 — AI Hub #126은 NIA(한국지능정보사회진흥원)가 연구 목적으로 제공하며 재배포 금지. 원본 데이터는 본 레포에 포함되지 않음

상용 사용을 원한다면

베이스 모델 자체는 Apache 2.0이므로, 본인 데이터로 별도 LoRA를 재학습하면 상용 가능합니다. AI Hub #126 학습 결과물인 이 어댑터는 비영리 용도로만 사용 가능합니다.

인용

@misc{kanana_aihub_ko_en_lora_2026,
  title  = {kanana-1.5-2.1b-aihub-ko-en-lora: Korean-English Translation LoRA for Kanana 1.5},
  author = {Kim, Harvey},
  year   = {2026},
  url    = {https://huggingface.co/harveykim/kanana-1.5-2.1b-aihub-ko-en-lora}
}

감사의 글

베이스 모델: Kanana 1.5 2.1B base — 카카오 (Apache 2.0)
학습 프레임워크: Unsloth
데이터셋: AI Hub #126 한국어-영어 번역(병렬) 말뭉치 — 연구 목적 한정, 원본 데이터는 본 레포에 미포함

본 모델은 과학기술정보통신부의 재원으로 한국지능정보사회진흥원의 지원을 받아 구축된 "한국어-영어 번역(병렬) 말뭉치"(AI Hub, 데이터셋 번호 126)를 활용하여 학습되었습니다.