미래고래의 톡

미래고래

2026.02.11

비용과 로컬 모델 팁

아는 사람이 M4 24G에 gpt-oss 20b q5를 돌리고있습니다. 옆에서 보니까 충분히 똑똑하다고하네요. 이게 신박한게, 자기가 하기에 벅찬 일이 떨어지면 codex cli를 이용한다고합니다. codex는 추가로 토큰 소모를 안하니까 엄청 경제적이죠.

아무리 저렴이 2.5 flash를 써도 하루 10달러는 우습게 나갑니다. 한달이면 30만원, 두달이면 60만원. 그래서 저도 맥미니 24g로 구매했네요.

오픈클로가 한번 실행할때 컨텍스트 크기가 10k가 넘는다고합니다 - 토큰 소모의 주범이지만, 동시에 그래서 우와 하는 체감을 주는지도 모르겠습니다. 오픈모델을 사용할때는 꼭 컨텍스트 제한을 늘려줘야 한답니다.

댓글 7개

미래고래

작성자

2026.02.11

+ 오픈AI 엔지니어에게 오픈모델 사용 팁을 물어볼 기회가 있었는데, 핵심은 리즈닝과 프롬프트랍니다. 물론 상용이 오픈모델보다 똑똑한건 맞지만, 큰 차이가 있다고 생각하지는 않는다고 하네요.

몽상과 사색

2026.02.11

저는 아직 범용 목적은 아니고 특수한 목적용으로 사용하다보니 5일에 2만원 정도 나갔습니다. 아마, 셋업 다 되면 더 적게 나갈 것 같긴 합니다. 그래서 이정도면 괜찮다고 느끼다가도... 점점 하고싶은게 많아져서 걱정이네요 ㅠㅠ

별셋

2026.02.11

혹시 맥미니 스펙 어떻게 맞추셨는지, 왜 그렇게 맞추셨는지 가볍게 여쭤봐도 될까요

미래고래

작성자

2026.02.11

전 사실 지인 구성을 무지성으로 따라했습니다 ㅋㅋ(m4/24g/512g)

gpt oss 20b 양자화 모델이 최적화가 잘됐고, 이걸 돌리기 위해서 최소한 필요한 메모리가 24였다고합니다. 물론 32면 더 큰 모델도 돌릴 수 있겠지만 오픈클로가 쓰는 컨텍스트가 크니 kv캐시를 고려하면 어렵다고... (전 안해봤어요 들은 이야깁니다)

별셋

2026.02.16

향후 미래에는 토큰 비용을 아끼기 위해서 각자 Local LLM을 사용하는 시기가 올까요...?

미래고래

작성자

2026.02.16

벤치마크만 보면, 오픈모델이 순조롭게 따라오고있습니다. 같은 하드웨어에서 돌릴수있는 모델의 성능이 좋아지고, 하드웨어 가격이 싸지면 그렇게 되겠지요. 지금도 제 지인은 기본값은 로컬로 돌리고있는거고요

(개인적으로 중국 오픈모델들이 벤치마크에만 최적화하고있다고 의심했으나... 오픈AI 엔지니어에게 물어봤는데 그렇지는 않다고하네요)

별셋

2026.03.15

혹시 Local LLM 쓰시는 최근 근황 후기가 궁금한데 여쭤봐도 될까요