와..모델 너무 좋습니다.

#27
by qgame - opened

opencode로 처음에 쓰다가 너무 만족하던중
헤르메스에이전트까지 적용해보고 사용중인데
충격적인 성능에 입을 다물지 못하고 있습니다 ㅇㅅㅇb

3090 24gb에서 완전 강추 모델입니다.
추론속도도 너무 좋고, 성능도 이상적이고, 신선한 충격에 글을 작성하게 되었네요!

진심으로 감사드려요!! 꾸벅!!

q6_k모델 기준 아래와 같은 설정으로 사용중입니다.

===== 모델 경로 =====

MODEL_NAME="Ornith-1.0-35B-GGUF"
MODEL="$HOME/llama.cpp/models/$MODEL_NAME/ai_q6_k.gguf"
===== 전역변수 =====
LLAMA_SERVER="$HOME/llama.cpp/build/bin/llama-server"

THREADS=5
CTX=262144
NGL=auto
TEMP=0.6
TOP_P=0.95
TOP_K=20
MIN_P=0.0
PRESENCE_PENALTY=0.0
REPEAT_PENALTY=1.0
SEED=-1

${LLAMA_SERVER}
-m "${MODEL}"
${NGL:+-ngl ${NGL}}
-c ${CTX}
-t ${THREADS}
--jinja
--reasoning-format deepseek
--reasoning-budget -1
-fa on
--temp ${TEMP}
--top-p ${TOP_P}
--top-k ${TOP_K}
--min-p ${MIN_P}
--batch-size 2048
--ubatch-size 512
--repeat-penalty ${REPEAT_PENALTY}
--cont-batching
--presence-penalty ${PRESENCE_PENALTY}
--seed ${SEED}
--cache-type-k q8_0
--cache-type-v q8_0
--host 0.0.0.0
--port 9090

Sign up or log in to comment