2026.03.23 - 같은 도구를 쓰는데, 왜 결과가 다를까

2026.03.23 - 같은 도구를 쓰는데, 왜 결과가 다를까

avatar
덜아픈손가락
2026.03.23조회수 204회

코딩 도구들이 비슷해지고 있습니다. 벤치마크가 수렴하고, 오픈소스 대안이 쏟아지고, 심지어 모델의 내부 표현까지 같은 공간으로 모이고 있다는 연구가 나왔어요.

그러면 같은 도구를 쓰면 같은 결과가 나올까요. 이번 포커스에서 이야기하고자 합니다.




포커스

도구는 수렴하고 있고, 모델의 뇌 구조마저 닮아가고 있습니다. 차이는 도구 자체가 아니라 도구를 쓰는 방식에서 나옵니다.


코딩 도구, 다 비슷해지고 있다

코딩 도구 시장에서 흥미로운 일이 벌어지고 있습니다.

Cursor가 Composer 2를 출시했는데, Claude Opus 4.6의 코딩 벤치마크를 넘어섰습니다. 내부를 까보니 Kimi K2.5에 강화학습을 적용한 모델이었구요. "더 큰 모델이 항상 이기는 게 아니라, 집중된 모델이 이긴다"는 이야기가 설득력을 얻고 있습니다.


같은 시기에 OpenCode라는 오픈소스 AI 코딩 에이전트가 개발자 커뮤니티에서 빠르게 주목받았습니다. Claude, GPT, Gemini를 전부 지원하는 범용 터미널 에이전트인데, Claude Code의 대안으로 떠오르고 있어요.


Claude Code 쪽에서도 변화가 큽니다. /init 명령이 전면 개편되고 있는데, 기존처럼 정적으로 초기화하는 게 아니라 에이전트가 사용자를 인터뷰하면서 스킬과 훅 설정을 함께 잡아주는 방식입니다. 에이전트 온보딩 자체를 바꾸려는 시도예요.


이 세 가지를 놓고 보면, 코딩 도구 간의 격차가 줄어들고 있다는 게 보입니다. 특화 모델이 범용 모델을 이기고, 오픈소스가 상용 도구를 따라잡고, 기존 도구도 빠르게 개편되고 있으니까요.

도구 자체로 차별화하기 어려운 시대가 오고 있는 거죠.


AI의 뇌를 열어봤더니, 다 같은 생각을 하고 있었다

도구만 수렴하는 게 아닙니다. 도구 안에 있는 모델의 뇌 구조까지 닮아가고 있어요.


Columbia University에서 HELIX라는 논문을 발표했습니다. GPT, Gemini, Qwen, Mistral, Cohere를 분석했는데, 서로 다른 데이터로, 다른 구조로, 다른 목적으로 훈련된 모델들의 내부 표현이 사실상 같은 공간으로 수렴한다는 결과가 나왔습니다. CKA(중심 커널 정렬)라는 유사도 지표로 측정했을 때 0.595에서 0.881 사이. "비슷하다"가 아니라 "거의 같다"에 가까운 수준이에요.


비유하자면, 서로 다른 학교를 졸업한 학생들한테 같은 시험을 봤더니 답안지가 거의 같았다는 거죠. 가르친 선생님도 다르고, 교과서도 다르고, 학교 문화도 다른데 말이에요.


이게 단순히 흥미로운 발견에 그치지 않습니다. 실용적인 돌파구가 열려요.

기존에 민감한 데이터를 AI에 보내려면 무거운 암호화가 필요했습니다. 쿼리당 280GB 통신, 60초 레이턴시. 사실상 쓸 수 없는 수준이었죠. HELIX는 모델 간 내부 표현이 같다는 점을 이용해서, 내 데이터를 한 모델로 인코딩하고 다른 모델로 디코딩하는 방식을 만들었습니다. 결과는 쿼리당 1MB 미만, 서브초 레이턴시로 동등한 보안을 달성. 헬스케어, 금융, 법률처럼 데이터를 밖에 못 보내서 AI 도입이 막혀있던 분야에 큰 영향을 줄 수 있는 연구입니다.


도구도 비슷해지고, 그 도구 안의 모델도 같은 방식으로 생각하고 있다면. 그러면 대체 차이는 어디서 나오는 걸까요.


그러면 차이는 어디서 나오나

Andrej Karpathy가 최근 팟캐스트에서 한 말이 여기에 힌트를 줍니다.


"2024년 12월을 기점으로 내 직접 코딩 비중이 80%에서 거의 0%로 급감했다."


0%라는 숫자가...

회원가입만 해도
이 글을 무료로 읽을 수 있어요.

이미 계정이 있으신가요?로그인하기
댓글 6
avatar
덜아픈손가락
구독자 92명구독중 36명
역사와 문학과 사회과학을 좋아하는 안드로이드 개발자입니다. 요즘은 AI와 함께 작업하고 개선하는 일에 빠져 있습니다.