2026.03.23 - 같은 도구를 쓰는데, 왜 결과가 다를까 | Valley AI

코딩 도구들이 비슷해지고 있습니다. 벤치마크가 수렴하고, 오픈소스 대안이 쏟아지고, 심지어 모델의 내부 표현까지 같은 공간으로 모이고 있다는 연구가 나왔어요.

그러면 같은 도구를 쓰면 같은 결과가 나올까요. 이번 포커스에서 이야기하고자 합니다.

포커스

도구는 수렴하고 있고, 모델의 뇌 구조마저 닮아가고 있습니다. 차이는 도구 자체가 아니라 도구를 쓰는 방식에서 나옵니다.

코딩 도구, 다 비슷해지고 있다

코딩 도구 시장에서 흥미로운 일이 벌어지고 있습니다.

Cursor가 Composer 2를 출시했는데, Claude Opus 4.6의 코딩 벤치마크를 넘어섰습니다. 내부를 까보니 Kimi K2.5에 강화학습을 적용한 모델이었구요. "더 큰 모델이 항상 이기는 게 아니라, 집중된 모델이 이긴다"는 이야기가 설득력을 얻고 있습니다.

같은 시기에 OpenCode라는 오픈소스 AI 코딩 에이전트가 개발자 커뮤니티에서 빠르게 주목받았습니다. Claude, GPT, Gemini를 전부 지원하는 범용 터미널 에이전트인데, Claude Code의 대안으로 떠오르고 있어요.

Claude Code 쪽에서도 변화가 큽니다. /init 명령이 전면 개편되고 있는데, 기존처럼 정적으로 초기화하는 게 아니라 에이전트가 사용자를 인터뷰하면서 스킬과 훅 설정을 함께 잡아주는 방식입니다. 에이전트 온보딩 자체를 바꾸려는 시도예요.

이 세 가지를 놓고 보면, 코딩 도구 간의 격차가 줄어들고 있다는 게 보입니다. 특화 모델이 범용 모델을 이기고, 오픈소스가 상용 도구를 따라잡고, 기존 도구도 빠르게 개편되고 있으니까요.

도구 자체로 차별화하기 어려운 시대가 오고 있는 거죠.

AI의 뇌를 열어봤더니, 다 같은 생각을 하고 있었다

도구만 수렴하는 게 아닙니다. 도구 안에 있는 모델의 뇌 구조까지 닮아가고 있어요.

Columbia University에서 HELIX라는 논문을 발표했습니다. GPT, Gemini, Qwen, Mistral, Cohere를 분석했는데, 서로 다른 데이터로, 다른 구조로, 다른 목적으로 훈련된 모델들의 내부 표현이 사실상 같은 공간으로 수렴한다는 결과가 나왔습니다. CKA(중심 커널 정렬)라는 유사도 지표로 측정했을 때 0.595에서 0.881 사이. "비슷하다"가 아니라 "거의 같다"에 가까운 수준이에요.

비유하자면, 서로 다른 학교를 졸업한 학생들한테 같은 시험을 봤더니 답안지가 거의 같았다는 거죠. 가르친 선생님도 다르고, 교과서도 다르고, 학교 문화도 다른데 말이에요.

이게 단순히 흥미로운 발견에 그치지 않습니다. 실용적인 돌파구가 열려요.

기존에 민감한 데이터를 AI에 보내려면 무거운 암호화가 필요했습니다. 쿼리당 280GB 통신, 60초 레이턴시. 사실상 쓸 수 없는 수준이었죠. HELIX는 모델 간 내부 표현이 같다는 점을 이용해서, 내 데이터를 한 모델로 인코딩하고 다른 모델로 디코딩하는 방식을 만들었습니다. 결과는 쿼리당 1MB 미만, 서브초 레이턴시로 동등한 보안을 달성. 헬스케어, 금융, 법률처럼 데이터를 밖에 못 보내서 AI 도입이 막혀있던 분야에 큰 영향을 줄 수 있는 연구입니다.

도구도 비슷해지고, 그 도구 안의 모델도 같은 방식으로 생각하고 있다면. 그러면 대체 차이는 어디서 나오는 걸까요.

그러면 차이는 어디서 나오나

Andrej Karpathy가 최근 팟캐스트에서 한 말이 여기에 힌트를 줍니다.

"2024년 12월을 기점으로 내 직접 코딩 비중이 80%에서 거의 0%로 급감했다."

0%라는 숫자가...

회원가입만 해도
이 글을 무료로 읽을 수 있어요.

Basic 7일 무료 체험 시작하기

이미 계정이 있으신가요?로그인하기

댓글 6개

몽상과 사색

2026.03.23

커뮤니티에서도 이 방향의 실전 사례가 쏟아지고 있습니다.

한 시니어 엔지니어가 자신의 멀티에이전트 워크플로우를 공개했는데, 구조가 인상적이에요. Opus 4.6으로 설계하고, 코드 리뷰어는 GPT 5.4, 퀄리티 리뷰어는 Opus 4.6, UX 리뷰어는 Gemini 3.1 Pro로 배치해서 세 개의 서브스레드를 병렬로 돌린 뒤 피드백을 통합하는 방식입니다. 핵심 원칙은 "어떤 에이전트도 자기 작업을 스스로 검토하지 않는다"는 것.

-> 이거 제가 쓰던 방식이랑 거의 비슷한데... 당황스럽네요

(수정됨)

몽상과 사색

2026.03.23

Claude Code와 Codex가 서로 대화하면서 코드를 리뷰하는 오픈소스 프레임워크도 등장했습니다. 별도 터미널 세션에서 두 에이전트를 스폰해서, 한쪽이 발견한 취약점을 다른 쪽이 확인하고 보완하는 구조예요.

-> 이것도 굳이 오픈소스 안쓰고 codex를 클로드가 소환하게 하면 가능해서 잘 쓰고 있던 것인데.. gemini도 마찬가지고요

덜아픈손가락

작성자

2026.03.23

제 주변을 살펴봐도 이젠 다들 비슷비슷하게 사용하는것 같습니다.

최근에는 저도 wow 할만한 인사이트가 담긴 레포를 발견하진 못했어요. 엔지니어링 인플루언서들도 요즘은 다들 거기서 거기인 이야기들을 하는것 같네요.

의존도가 점점 커지는 느낌이라 내심 달갑지는 않습니다만, 차라리 Anthropic이나 Open AI의 다음 모델이 나오는걸 기다리는게 나을지도 모르겠네요 ㅎㅎㅎ

몽상과 사색

2026.03.23

답글 달아주셔서 감사합니다! 그래도 항상 최신 뉴스 동향 알려주셔서 감사해요!!

초가을우엉차

2026.03.25

운영의 디테일 부분에서

"세션 분석 후 파일을 중복해서 읽고 있었다"

는 내용도 실제로 그런지 회사 프로젝트를 한번 뜯어서 확인해보고 싶네요,,!

항상 좋은 글 재밌게 잘 읽고 있습니다 ㅎㅎ

감사합니다!

덜아픈손가락

작성자

2026.03.25

잘 봐주셔서 감사합니다!

몽상과 사색

2026.03.23

커뮤니티에서도 이 방향의 실전 사례가 쏟아지고 있습니다.

-> 이거 제가 쓰던 방식이랑 거의 비슷한데... 당황스럽네요

(수정됨)

몽상과 사색

2026.03.23

-> 이것도 굳이 오픈소스 안쓰고 codex를 클로드가 소환하게 하면 가능해서 잘 쓰고 있던 것인데.. gemini도 마찬가지고요

덜아픈손가락

작성자

2026.03.23

제 주변을 살펴봐도 이젠 다들 비슷비슷하게 사용하는것 같습니다.

몽상과 사색

2026.03.23

답글 달아주셔서 감사합니다! 그래도 항상 최신 뉴스 동향 알려주셔서 감사해요!!

초가을우엉차

2026.03.25

운영의 디테일 부분에서

"세션 분석 후 파일을 중복해서 읽고 있었다"

는 내용도 실제로 그런지 회사 프로젝트를 한번 뜯어서 확인해보고 싶네요,,!

항상 좋은 글 재밌게 잘 읽고 있습니다 ㅎㅎ

감사합니다!

덜아픈손가락

작성자

2026.03.25

잘 봐주셔서 감사합니다!

2026.03.23 - 같은 도구를 쓰는데, 왜 결과가 다를까

2026.03.23 - 같은 도구를 쓰는데, 왜 결과가 다를까

2026.03.19 - 속도를 올렸는데 왜 안 빨라질까

2026.03.17 - 에이전트가 확신할수록 의심해야 하는 이유

2026.03.15 - 코드 대신 맥락을 설계해야

2026.03.14 - 에이전트는 많을수록 좋은 걸까

2026.03.13 - AI가 사람을 대체하지 않는다고요?

포커스

코딩 도구, 다 비슷해지고 있다

AI의 뇌를 열어봤더니, 다 같은 생각을 하고 있었다

그러면 차이는 어디서 나오나

회원가입만 해도
이 글을 무료로 읽을 수 있어요.

2026.03.19 - 속도를 올렸는데 왜 안 빨라질까

2026.03.17 - 에이전트가 확신할수록 의심해야 하는 이유

2026.03.15 - 코드 대신 맥락을 설계해야

2026.03.14 - 에이전트는 많을수록 좋은 걸까

2026.03.13 - AI가 사람을 대체하지 않는다고요?

2026.03.23 - 같은 도구를 쓰는데, 왜 결과가 다를까

2026.03.23 - 같은 도구를 쓰는데, 왜 결과가 다를까

2026.03.19 - 속도를 올렸는데 왜 안 빨라질까

2026.03.17 - 에이전트가 확신할수록 의심해야 하는 이유

2026.03.15 - 코드 대신 맥락을 설계해야

2026.03.14 - 에이전트는 많을수록 좋은 걸까

2026.03.13 - AI가 사람을 대체하지 않는다고요?

포커스

코딩 도구, 다 비슷해지고 있다

AI의 뇌를 열어봤더니, 다 같은 생각을 하고 있었다

그러면 차이는 어디서 나오나

회원가입만 해도이 글을 무료로 읽을 수 있어요.

2026.03.19 - 속도를 올렸는데 왜 안 빨라질까

2026.03.17 - 에이전트가 확신할수록 의심해야 하는 이유

2026.03.15 - 코드 대신 맥락을 설계해야

2026.03.14 - 에이전트는 많을수록 좋은 걸까

2026.03.13 - AI가 사람을 대체하지 않는다고요?

회원가입만 해도
이 글을 무료로 읽을 수 있어요.