--- license: cc-by-4.0 base_model: unsloth/gpt-oss-20b tags: - unsloth - lora - korean - data-analysis - mlops - gpt-oss - 한국어 - 데이터분석 - 파인튜닝 language: - ko datasets: - KOREAson/YiSang-HighQuality library_name: peft pipeline_tag: text-generation --- # ZTO_v1 - 데이터 분석 특화 한국어 모델 ## 📊 모델 소개 **ZTO_v1**은 **unsloth/gpt-oss-20b**를 기반으로 데이터 분석 및 MLOps 태스크에 특화되도록 파인튜닝된 한국어 모델입니다. LoRA(Low-Rank Adaptation) 기술을 사용하여 효율적으로 학습되었으며, 시니어 데이터 분석가 및 MLOps 컨설턴트 역할을 수행할 수 있습니다. ## 🎯 주요 특징 - **모델명**: ZTO_v1 - **베이스 모델**: unsloth/gpt-oss-20b (20B 파라미터) - **훈련 방법**: LoRA (Low-Rank Adaptation) - **특화 분야**: 데이터 분석, MLOps 컨설팅 - **학습 데이터**: - [KOREAson/YiSang-HighQuality](https://huggingface.co/datasets/KOREAson/YiSang-HighQuality) - 자체 생성 데이터 (Custom Generated Dataset) - **언어**: 한국어 (Korean) - **라이선스**: CC-BY-4.0 ## 🚀 사용 방법 ### 모델 로드 ```python from transformers import AutoModelForCausalLM, AutoTokenizer from peft import PeftModel import torch # 베이스 모델 로드 base_model = AutoModelForCausalLM.from_pretrained( "unsloth/gpt-oss-20b", torch_dtype=torch.float16, device_map="auto", trust_remote_code=True ) # LoRA 어댑터 로드 model = PeftModel.from_pretrained(base_model, "lee-monster/ZT0_v1") # 토크나이저 로드 tokenizer = AutoTokenizer.from_pretrained("lee-monster/ZT0_v1") ``` ### 사용 예시 ```python messages = [ {"role": "system", "content": "당신은 시니어 데이터 분석가이자 MLOps 컨설턴트입니다."}, {"role": "user", "content": "리뷰데이터를 활용한 텍스트 분석을 통한 경쟁사 대비 차별성을 도출하려면 어떻게 분석해야해?"} ] inputs = tokenizer.apply_chat_template( messages, add_generation_prompt=True, return_tensors="pt", return_dict=True ).to(model.device) with torch.no_grad(): outputs = model.generate( **inputs, max_new_tokens=512, do_sample=True, temperature=0.7, top_p=0.9, pad_token_id=tokenizer.eos_token_id ) response = tokenizer.decode(outputs[0], skip_special_tokens=True) print(response) ``` ## 📊 훈련 정보 - **베이스 모델**: unsloth/gpt-oss-20b-unsloth-bnb-4bit - **훈련 스텝**: 30 steps - **LoRA Rank**: 8 - **LoRA Alpha**: 16 - **타겟 모듈**: q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj - **학습 데이터**: - KOREAson/YiSang-HighQuality (283k samples) - 자체 생성 데이터 (Custom Generated Dataset) ## 🎓 활용 분야 이 모델은 다음 분야에서 우수한 성능을 보입니다: ### 📊 데이터 분석 (Data Analysis) - 통계적 분석 및 해석 - 데이터 시각화 전략 수립 - A/B 테스트 설계 및 분석 - 예측 모델링 및 머신러닝 파이프라인 구축 ### 🔧 MLOps 컨설팅 - ML 파이프라인 설계 및 최적화 - 모델 배포 전략 수립 - 모니터링 및 성능 관리 - CI/CD 파이프라인 구축 ### 🧮 수학적 문제 해결 - 복잡한 수학 문제 분석 - 알고리즘적 사고 지원 - 논리적 추론 및 증명 ### 💼 비즈니스 인사이트 - 데이터 기반 의사결정 지원 - KPI 분석 및 해석 - 비즈니스 메트릭 최적화 ## 💻 시스템 요구사항 - **GPU 메모리**: 최소 16GB (권장 24GB+) - **시스템 RAM**: 최소 16GB - **Python**: 3.8+ - **주요 라이브러리**: transformers, peft, torch ## ⚠️ 주의사항 1. **데이터 분석 특화**: 이 모델은 데이터 분석 및 MLOps 태스크에 최적화되어 있습니다. 2. **한국어 중심**: 한국어 외의 언어에서는 성능이 제한적일 수 있습니다. 3. **검증 필요**: 생성된 분석 결과는 항상 검토하고 검증이 필요합니다. 4. **윤리적 사용**: 데이터 프라이버시와 윤리를 준수하여 사용해주세요. ## 🔗 관련 링크 - **베이스 모델**: [unsloth/gpt-oss-20b](https://huggingface.co/unsloth/gpt-oss-20b) - **학습 데이터**: [KOREAson/YiSang-HighQuality](https://huggingface.co/datasets/KOREAson/YiSang-HighQuality) ## 📜 라이선스 이 모델은 **CC-BY-4.0** 라이선스로 배포됩니다. ## 📝 데이터셋 정보 - **주요 데이터셋**: KOREAson/YiSang-HighQuality (283k samples) - **추가 데이터**: 자체 생성한 데이터 분석 및 MLOps 관련 데이터 - **데이터 형식**: Instruction-Response 쌍 ## 🙏 Acknowledgements - OpenAI gpt-oss 팀 - Unsloth 팀 - KOREAson/YiSang-HighQuality 데이터셋 제작자