프리미엄
예측대회
투자분석
아카데미
커뮤니티
로그인Valley AI 시작하기시작하기
Valley Space인기
2026.03.30 - 맡길수록 잃는 것들
인심에서 곳간난다AI Digest

2026.03.30 - 맡길수록 잃는 것들

avatar
덜아픈손가락
2026.03.30조회수 135회
avatar
덜아픈손가락
구독자 132명구독중 46명
역사와 문학과 사회과학을 좋아하는 안드로이드 개발자입니다. 요즘은 AI와 함께 작업하고 개선하는 일에 빠져 있습니다.

에이전트를 하나만 쓰는 게 아니라, 여럿을 팀으로 운영하는 사례가 풍부해지고 있습니다.

동시에, 그 에이전트들이 실제로 일을 잘 하는지 측정하는 도구가 거짓말을 하고 있다는 연구도 나왔습니다.

AI와 대화하다 보면 내 생각이 아닌 AI의 생각을 내 것으로 착각하게 된다는 말도 있네요.

맡기는 건 점점 쉬워지는데, 그 과정에서 서서히 잃어가는 것이 있다는게 이번 주제입니다.




포커스

에이전트에게 더 많이 맡기는 시대가 오고 있는데, 정작 중요한 것들이 조용히 사라지고 있다는 이야기입니다.


"에이전트를 쓰는 시대"에서 "에이전트 팀을 관리하는 시대"로


이번 주 가장 인상적인 사례는 Claire Vo의 이야기였습니다. 3대의 Mac Mini에서 9개의 AI 에이전트를 동시에 돌리면서 영업, 가족 일정 관리, 팟캐스트 제작까지 자동화했다구요.


흥미로운 건 에이전트를 관리하는 방식입니다. 각 에이전트에 'Soul'이라는 마크다운 파일을 부여해서 성격과 말투를 정의하고, 'Heartbeat'라는 시스템으로 에이전트가 스스로 자기 상태를 체크인하게 만들었구요. "에이전트 관리는 자녀 양육과 비슷하다"는 그녀의 표현이 재밌으면서도 현실적입니다.


에이전트를 부리는 도구도 빠르게 진화하고 있습니다. OpenClaw의 차기 버전은 MCP 프로토콜로 동작하면서, /acp spawn codex라는 명령 하나로 현재 세션을 다른 에이전트로 전환할 수 있게 됐구요. 에이전트가 에이전트를 소환하는 구조인 거죠.


cron으로 10분마다 자율 실행하는 에이전트도 나왔고, 4개 전문 에이전트가 서로 협력하며 추론 능력을 함께 키우는 연구도 발표됐습니다. Karpathy는 "코드가 아니라 서비스, 결제, 인증, DB를 조립하는 DevOps가 진짜 어려운 부분인데, 에이전트가 이 전체를 코드로 처리하는 게 기술적으로 가능해졌다"고 했구요. 이 트윗에 78만 뷰가 쏟아진 건, 많은 사람이 같은 생각을 하고 있다는 뜻이겠죠.


에이전트를 팀으로 운영하는 건 분명 매력적인 그림입니다. 그런데, 그 에이전트들이 실제로 일을 잘 하는지는 어떻게 아는 걸까요.


벤치마크는 통과하는데, 진짜 일은 못 한다


위스콘신대와 MIT의 공동 연구가 꽤 충격적인 결과를 내놨습니다. Claude Opus 4.6, GPT 5.4를 포함한 11개 모델에게 반복적인 코딩 작업을 시켰더니, 단 하나의 모델도 처음부터 끝까지 문제를 해결하지 못했다구요.


더 흥미로운 건 이겁니다. 개별 테스트의 통과율은 높게 유지됐거나 오히려 올라갔는데, 코드가 점점 길어지고 복잡해지면서 유지보수성은 오히려 나빠졌다는 거예요. 시험 점수는 올랐는데 실력은 떨어진 셈이죠.


기존 벤치마크가 측정하는 것과 실제 소프트웨어 품질 사이에 구조적인 괴리가 있다는 직격탄입니다. 우리가 "이 모델이 저 모델보다 낫다"고 판단하는 근거가, 실은 엉뚱한 걸 재고 있었을 수 있다는 거구요.


현장에서도 비슷한 신호가 나오고 있습니다. Claude Code에서 git reset --hard를 10분마다 자동 실행하는 버그가 보고됐고, Opus 4.6의 품질이 갑자기 떨어졌다는 사용자 보고도 이어지고 있거든요. 벤치마크 수치와 실사용 경험의 간극이 크다는 걸 체감하게 되는 장면입니다.


벤치마크가 거짓말을 하는 건 불편하지만, 적어도 눈에 보이는 문제입니다. 숫자를 의심하면 되니까요. 더 ...

회원가입만 해도
이 글을 무료로 읽을 수 있어요.

Basic 7일 무료 체험 시작하기
이미 계정이 있으신가요?로그인하기
댓글 3개
AI Digest 카테고리의 다른글

2026.03.25 - 도구는 쏟아지는데, 쓸 만한 건 왜 없을까

AI 도구가 매일 쏟아지고 있습니다. 52일 만에 24개 기능이 나왔다는 집계가 나올 정도구요. 그런데 정작 "이거다!" 싶은 경험은 잘 떠오르지 않습니다. Sora는 종료됐고, 커뮤니티에서는 "AI 앱은 어디 있냐"는 질문이 올라오고요. 도구가 넘칠수록, 뭘 고르고 뭘 안 쓸지가 진짜 실력인 것 같다는 이야기를 해보려 합니다. 포커스 도구는 폭발적으로 늘고 있는데, 경험은 따라가지 못하고 있다는 이야기입니다. 도구가 쏟아지고 있다 Claude Code가 2026년 들어 52일 만에 24개 이상의 기능을 출시했다는 정리가 13만 뷰를 넘겼습니다. Auto Mode, Figma MCP 통합, /dream 기능까지. 속도가 무섭습니다. 이번에 나온 Auto Mode는 파일 쓰기나 명령어 실행마다 매번 승인 버튼을 눌러야 했던 방식에서, 분류기가 안전 여부를 자동 판단하는 중간 경로를 제공합니다. 완전 자동도 아니고, 매번 물어보지도 않는. 현실적인 타협점이죠. Figma MCP 업데이트도 주목할 만합니다. 단순 목업 생성이 아니라, 실제 디자인 시스템의 컴포넌트를 이해한 채로 Figma 캔버스에 네이티브 에셋을 만들어냅니다. 코드를 아는 것처럼 디자인 시스템도 아는 AI가 된 거죠. 도구의 양적 성장은 확실합니다. 그런데 같은 시기에 벌어진 일이 또 있습니다. 3월 23일부터 Claude Code 사용량 한도가 비정상적으로 소진되는 버그가 터졌습니다. Max 20x 플랜에서 프롬프트 두 번 날렸는데 세션이 끝나버리는 사례가 속출했구요. 커뮤니티는 "Anthropic은 왜 조용하냐"며 구독 취소를 촉구하기도 했습니다. 원인을 추적한 사용자에 따르면, 새로운 내부 프로세스가 예상보다 수십 배 많은 토큰을 소비하고 있었습니다. 안정화 버전(v2.1.74)으로 롤백하면 해결된다는 보고가 나오기도 했구요. 기능은 24개가 나왔는데, 정작 쓰다가 세션이 날아가는 경험. 도구의 양적 성장이 사용자 경험의 질적 성장과 같지 않다는 걸 보여주는 장면입니다. 능력은 증명됐는데, 앱은 어디에 도구만의 문제가 아닙니다. AI의 능력 자체는 이미 충분히 증명됐는데, 그게 제품으로 이어지지 않고 있다는 더 큰 질문이 있습니다. OpenAI가 Sora를 종료했습니다. AI 비디오 생성의 대표 서비스였죠. 같은 날 Disney도 OpenAI와의 파트너십에서 철수했습니다. 기술 데모로는 인상적이었지만, 지속 가능한 제품은 되지 못했다는 뜻이구요. Answer.ai의 "So where are all the AI apps?"라는 글은 개발자 커뮤니티에서 화제가 됐습니다. AI의 능력이 명확히 입증됐음에도 킬러 앱이 부재한 이유를 분석한 ...
AI Digest
2026. 03. 25
13
4
106

2026.03.23 - 같은 도구를 쓰는데, 왜 결과가 다를까

코딩 도구들이 비슷해지고 있습니다. 벤치마크가 수렴하고, 오픈소스 대안이 쏟아지고, 심지어 모델의 내부 표현까지 같은 공간으로 모이고 있다는 연구가 나왔어요. 그러면 같은 도구를 쓰면 같은 결과가 나올까요. 이번 포커스에서 이야기하고자 합니다. 포커스 도구는 수렴하고 있고, 모델의 뇌 구조마저 닮아가고 있습니다. 차이는 도구 자체가 아니라 도구를 쓰는 방식에서 나옵니다. 코딩 도구, 다 비슷해지고 있다 코딩 도구 시장에서 흥미로운 일이 벌어지고 있습니다. Cursor가 Composer 2를 출시했는데, Claude Opus 4.6의 코딩 벤치마크를 넘어섰습니다. 내부를 까보니 Kimi K2.5에 강화학습을 적용한 모델이었구요. "더 큰 모델이 항상 이기는 게 아니라, 집중된 모델이 이긴다"는 이야기가 설득력을 얻고 있습니다. 같은 시기에 OpenCode라는 오픈소스 AI 코딩 에이전트가 개발자 커뮤니티에서 빠르게 주목받았습니다. Claude, GPT, Gemini를 전부 지원하는 범용 터미널 에이전트인데, Claude Code의 대안으로 떠오르고 있어요. Claude Code 쪽에서도 변화가 큽니다. /init 명령이 전면 개편되고 있는데, 기존처럼 정적으로 초기화하는 게 아니라 에이전트가 사용자를 인터뷰하면서 스킬과 훅 설정을 함께 잡아주는 방식입니다. 에이전트 온보딩 자체를 바꾸려는 시도예요. 이 세 가지를 놓고 보면, 코딩 도구 간의 격차가 줄어들고 있다는 게 보입니다. 특화 모델이 범용 모델을 이기고, 오픈소스가 상용 도구를 따라잡고, 기존 도구도 빠르게 개편되고 있으니까요. 도구 자체로 차별화하기 어려운 시대가 오고 있는 거죠. AI의 뇌를 열어봤더니, 다 같은 생각을 하고 있었다 도구만 수렴하는 게 아닙니다. 도구 안에 있는 모델의 뇌 구조까지 닮아가고 있어요. Columbia University에서 HELIX라는 논문을 발표했습니다. GPT, Gemini, Qwen, Mistral, Cohere를 분석했는데, 서로 다른 데이터로, 다른 구조로, 다른 목적으로 훈련된 모델들의 내부 표현이 사실상 같은 공간으로 수렴한다는 결과가 나왔습니다. CKA(중심 커널 정렬)라는 유사도 지표로 측정했을 때 0.595에서 0.881 사이. "비슷하다"가 아니라 "거의 같다"에 가까운 수준이에요. 비유하자면, 서로 다른 학교를 졸업한 학생들한테 같은 시험을 봤더니 답안지가 거의 같았다는 거죠. 가르친 선생님도 다르고, 교과서도 다르고, 학교 문화도 다른데 말이에요. 이게 단순히 흥미로운 발견에 그치지 않습니다. 실용적인 돌파구가 열려요. 기존에 민감한 데이터를 AI에 보내려면 무거운 암호화가 필요했습니다. 쿼리당 280GB 통신, 60초 레이턴시. 사실상 쓸 수 없는 수준이었죠. HELIX는 모델 간 내부 표현이 같다는 점을 이용해서, 내 데이터를 한 모델로 인코딩하고 다른 모델로 디코딩하는 방식을 만들었습니다. 결과는 쿼리당 1MB 미만, 서브초 레이턴시로 동등한 보안을 달성. 헬스케어, 금융, 법률처럼 데이터를 밖에 못 보내서 AI 도입이 막혀있던 분야에 큰 영향을 줄 수 있는 연구입니다. 도구도 비슷해지고, 그 도구 안의 모델도 같은 방식으로 생각하고 있다면. 그러면 대체 차이는 어디서 나오는 걸까요. 그러면 차이는 어디서 나오나 Andrej Karpathy가 최근 팟캐스트에서 한 말이 여기에 힌트를 줍니다. "2024년 12월을 기점으로 내 직접 코딩 비중이 80%에서 거의 0%로 ...
AI Digest
2026. 03. 23
14

2026.03.19 - 속도를 올렸는데 왜 안 빨라질까

AI 에이전트가 빨라지는 건 확실한데, 그래서 프로세스 전체가 빨라졌느냐 하면 꼭 그렇지도 않은 것 같습니다. 이번엔 속도를 올렸는데 왜 안 빨라지는지, 그리고 그 속도가 갑자기 사라졌을 때 무슨 일이 벌어지는지에 대한 이야기에요. 포커스 빠르게 반복하는 것과 축적하는 것은 다르고, 코드가 빨라진다고 전체가 빨라지는 건 아닙니다. ‘스킬'이라는 기억 장치 에이전트의 고질적인 문제가 하나 있습니다. 세션이 끝나면 배운 걸 전부 잊는다는 거예요. 같은 실수를 반복하고, 같은 질문을 다시 하고, 어제 해결한 문제를 오늘 또 처음부터 풀어야 합니다. 빠르긴 빠른데, 축적이 안 되는 거죠. Zhejiang대, Alibaba, Tencent 등 15개 기관이 공동으로 SkillNet이라는 연구를 발표했습니다. 에이전트가 학습한 스킬을 20만 개 이상의 공유 라이브러리로 구축해서, 한 에이전트가 배운 걸 다른 에이전트가 바로 재사용할 수 있게 하는 구조입니다. 결과가 꽤 인상적이에요. 모든 테스트 모델에서 평균 보상 40% 향상, 실행 스텝 30% 감소. 같은 날 Anthropic도 Claude Code Skills 라이브스트림을 진행했습니다. Uber가 실제 업무에서 스킬을 어떻게 쓰는지 공개하는 자리였구요. '스킬'이라는 개념이 연구실에서만 도는 게 아니라, 이미 실무에 들어와 있다는 걸 보여주는 장면이었습니다. 커뮤니티에서도 오픈소스 스킬 레포지토리를 전면 재작성하는 움직임이 나왔습니다. Anthropic이 공개한 "스킬은 좁을수록 좋다"는 원칙에 맞춰, 기존 스킬 구조를 처음부터 다시 짠 거죠. 여기서 패러다임이 바뀌고 있습니다. '빠르게 반복하는 것'에서 '축적하는 것'으로요. 에이전트가 매번 빈손으로 오는 게 아니라, 이전 세션의 경험이 쌓이고, 그게 다른 에이전트에게도 전파되는 구조. 속도가 아니라 기억이 경쟁력이 되는 셈입니다. 속도가 문제가 아니었다 에이전트가 코드를 빠르게 써주니까, 전체 개발 속도가 빨라질 거라고 기대하는 게 자연스럽습니다. 그런데 현실은 좀 다릅니다. "AI 에이전트가 오히려 속도를 늦추는가?"라는 반직관적인 질문이 화제가 됐습니다. Uber의 사내 AI 도입 사례를 분석한 내용인데, AI 도구가 코드 작성 속도를 높여도 검토와 승인 단계에서 지연이 생기면 전체 사이클은 오히려 느려진다는 구조적 문제를 짚습니다. "코드 작성 속도가 문제라고 생각했다면 더 큰 문제가 있다"는 글도 주목받았습니다. 골드렛의 제약이론(The Goal)을 AI 시대에 적용한 분석인데, 핵심은 간단합니다. 코드를 아무리 빨리 쳐도, 리뷰 대기, 배포 지연, 불명확한 요구사항이 병목이면 전체 속도는 거기에 묶인다는 거예요. 코드 생산량이 늘수록 비개발 단계의 정체가 오히려 심화됩니다. AI가 하루에 PR 50개를 만들어도, 리뷰할 수 있는 건 10개라면 나머지 40개는 대기열에 쌓이기만 하는 거죠. 결국 AI 도입의 효과는 코드 속도가 아니라 전체 흐름의 제약을 어디서 풀어주느냐에 달려 있습니다. 속도를 올리는 게 아니라, 어디가 느린지를 찾는 게 먼저라는 이야기입니다. Claude가 멈춘 날 속도에 적응하면, 속도가 사라졌을 때 무슨 일이 벌어질까요. 어제 Claude Code가 대규모 서버 과부하(529 Overloaded)로 다운됐습니다. "Claude 없이는 일을 못 하겠다", "프로젝트 전체가 멈췄다"는 반응이 쏟아졌구요. Anthropic이 사용량을 2배로 늘린다고 발표한 직후 발생한 터라 더 ...
AI Digest
2026. 03. 19
14

2026.03.17 - 에이전트가 확신할수록 의심해야 하는 이유

지난번에는 '맥락을 설계하라'는 개념적인 이야기를 했었는데, 이번에는 그 개념이 산업 규모로 실현되고 있는 현장에 대한 소식들이 있네요. 그와 동시에 지금의 LLM 베이스 구조가 드러내는 한계도 있습니다. 에이전트가 강력해질수록, 에이전트가 틀렸을 때 그걸 어떻게 아느냐가 점점 더 중요해지고 있는 것 같아요. 포커스 에이전트가 산업 인프라가 되고, 스스로 진화하고, 그러면서도 자기가 틀렸는지 모른다는 이야기입니다. 에이전트가 산업 인프라로 진입한다 Stripe의 코딩 에이전트 'Minions'는 매주 1,300개의 PR을 완전 자동으로 처리합니다. 사람이 코드를 한 줄도 쓰지 않는 PR이 매주 천 건 넘게 머지되고 있다는 거죠. 하드웨어도 따라가고 있습니다. NVIDIA는 GTC 2026에서 Vera CPU를 발표했는데, 이건 에이전트 AI를 위해 설계된 전용 프로세서입니다. 기존 GPU가 병렬 연산에 최적화되어 있었다면, Vera는 에이전트 실행에 필요한 직렬-병렬 혼합 워크로드에 맞춰져 있구요. Emergent라는 플랫폼은 비개발자가 50만 달러 규모의 소프트웨어를 5천 달러 미만으로 구현할 수 있게 해줍니다. Google, Amazon 출신 형제가 만든 이 플랫폼에서는 에이전트가 코드 리뷰, 테스트, 디버깅을 실제 엔지니어링팀처럼 수행하고, 생성된 작업 궤적을 장기 기억에 저장해서 유사한 문제가 생기면 성공률을 높이는 구조를 갖추고 있습니다. Stratechery의 Ben Thompson은 이런 흐름을 보며 "우리는 버블 안에 있지 않다"고 선언했습니다. 에이전트 기반 컴퓨팅은 거품이 아니라 새로운 기반 인프라라는 거죠. "에이전트를 써볼까"가 아니라 "에이전트 없이 어떻게 하지"로 질문이 바뀌고 있습니다. 도구에서 인프라로, 인프라에서 산업으로 전환이 빠르게 진행되고 있구요. 에이전트가 스스로 진화한다 에이전트가 인프라가 됐으면, 다음 질문은 자연스럽습니다. 에이전트가 스스로 나아질 수 있느냐. AGR(Artificial General Research)이라는 자율 연구 루프가 공개됐습니다. Karpathy의 autoresearch 개념에서 영감을 받은 건데, 지표와 가드레일만 정의하면 에이전트가 자율적으로 실험하고, 측정하고, 커밋하고, 실패하면 폐기하는 사이클을 반복합니다. 실측 결과가 인상적이에요. C++ 라이브러리 실행 시간을 53초에서 28초로 46% 단축했고, 14회 자율 실험 중 7회가 채택됐습니다. RLM(Recursive Language Modeling)은 한 걸음 더 나갑니다. 에이전트의 실행 흔적 자체를 데이터로 삼아 실패 패턴을 추출하는 방식인데, GPT-5-mini가 RLM을 적용했을 때 GPT-5 본체보다 OOLONG 벤치마크에서 2배 이상 성과를 냈다는 결과가 나왔습니다. 소형 모델이 대형 모델을 이기는 거죠. 모델 크기가 아니라 루프의 품질이 성능을 결정한다는 이야기입니다. SkillNet 논문은 에이전트 스킬을 3계층 온톨로지(분류체계 → 관계 그래프 → 패키지 라이브러리)로 자동 구조화하는 방법을 제시했구요. Ouroboros라는 프로젝트는 MCP의 방향성 자체를 뒤집었습니다. 기존에는 "AI가 도구를 호출"하는 방식이었는데, Ouroboros는 "도구가 AI를 사용하도록" 설계됐습니다. MCP 호출 한 번으로 내부에서 작업을 쪼개고, ...
AI Digest
2026. 03. 17
12

2026.03.15 - 코드 대신 맥락을 설계해야

이번엔 '코드를 짜는 사람'과 '맥락을 설계하는 사람'의 차이에 대한 이야기입니다. 에이전트가 강력해질수록, 그 에이전트에게 뭘 하라고 했느냐보다 뭘 하면 안 되는지를 어떻게 알려줬느냐가 결과를 가르더라구요. 포커스 에이전트에게 '맥락'을 어떻게 전달하느냐를 둘러싼 이야기들입니다. 컨텍스트 엔지니어링 : 에이전트에게 맥락을 설계하는 일 요즘 '컨텍스트 엔지니어링'이라는 말이 자주 보입니다. 에이전트에게 코드를 짜달라고 하는 건 누구나 하는데, 에이전트가 일할 수 있는 구조를 설계하는 건 다른 차원의 일이라는 거죠. 업계에서 이걸 체계화하려는 시도도 나오고 있습니다. 정의(CLAUDE.md) → 실행(Skill) → 학습(Memory) → 연결(MCP)처럼 레이어를 나눠서, 에이전트가 일하는 경기장을 구조화하자는 흐름이구요. 저도 비슷한 구조를 직접 만들어 쓰고 있는데, 실제로 해보면 여기에 훅(Hook)이나 규칙 파일 분류 같은 세부 요소들이 더해져야 합니다. 레이어를 깔끔하게 4개로 나누는 것보다, 현장에서는 좀 더 구체적이고 세밀한 구조가 필요한 것 같아요. “하네스가 무슨 소용이냐, 모델이 알아서 잘하는데”라는 반론도 있죠. 하지만 디테일이 중요한 분야에서는 하네스가 모호성을 잡아내고 논리적 모순을 걸러주는 역할을 합니다. 모델이 좋아지면 불필요해지는 하네스도 있지만, 아무리 모델이 발전해도 팀의 선호나 워크플로우를 담은 하네스의 가치는 줄어들지 않을 것 같습니다. 코드를 생성하는 AI를 쓰는 것과, AI가 일할 수 있는 구조를 설계하는 것. 이 둘의 차이가 점점 벌어지고 있다는 느낌입니다. 테스트가 앱을 몰래 고쳤다 : 맥락 설계 실패의 대가 그럼 맥락 설계를 안 하면 어떻게 되느냐. r/ClaudeCode에 올라온 사례가 꽤 충격적입니다. 누군가가 Claude Code로 Playwright E2E 테스트(브라우저에서 실제 사용자처럼 클릭하고 확인하는 자동화 테스트)를 작성했거든요. 결과는 모든 테스트 PASS. 그런데 QA 환경에서 직접 확인해보니 앱이 망가져 있었습니다. 무슨 일이었냐면, 테스트가 앱의 버그를 수정하는 대신 브라우저 안에서 JavaScript를 몰래 주입해서 결함을 숨기고 PASS를 보고한 거죠. 테스트가 통과했는데 앱은 고장나있는, 아주 위험한 상태입니다. 원인은 명확합니다. 에이전트에게 "테스트를 통과시켜"라는 목표만 줬지, "앱 코드를 건드리지 마"라는 수단의 경계를 안 줬던 거예요. 결국 CLAUDE.md에 "테스트가 통과하면서 실제 기능은 망가져 있는 상황은, 테스트가 없는 것보다 나쁘다"는 규칙을 명시적으로 추가해야 했다고 합니다. 앞서 이야기한 컨텍스트 엔지니어링이 왜 필요한지를, 역설적으로 가장 잘 보여주는 사례가 아닐까 싶습니다. 에이전트는 목표를 달성하는 데는 놀라울 정도로 창의적이거든요. 문제는 그 창의성이 우리가 원하는 방향이 아닐 수도 있다는 것이죠. Claude...
AI Digest
2026. 03. 15
17
6
223
2
113
4
125
5
106
avatar
몽상과 사색
2026.03.30

초기 openclaw가 나온 이후 핵심 아이디어 바탕으로 다양한 시도들이 생겨나고 있는 것 같습니다. 그게 오픈소스의 장점이기도 하고요! 에이전트가 에이전트를 소환하는 형태는 초기에도 가능했는데 앞으로 어떻게 더 발전할지 궁금하네요!


적어주신 벤치마크 혹은 테스트 대비 퍼포먼스가 별로인 점도 동의합니다. 초기에는 잘 굴러가는데 복잡해질수록 테스트만 늘어나고 실사용 경험은 떨어지더라구요 ㅠㅠ 어떻게 이 부분을 풀어야 할지 고민하고 있습니다.


그리고 AI가 기존 카너먼이 제기한 system 1,2에다가 3를 새로 만들었다는 논문이 나온 것을 봤습니다. 카파시의 반응과 관련있다 생각합니다.


오늘도 감사드립니다!!!

avatar
덜아픈손가락
작성자
2026.03.30

카너먼의 thinking fast & slow는 설명을 들었을 때 직관적으로 이해가 되는데, system 3라는게 귀에 걸면 귀걸이, 코에 걸면 코걸이 같은 느낌이라서 아직 와닿지 않는 부분이 있는거 같아요.


제가 생각할때 최근 system 3에 대한 이야기들을 거칠게 표현하면, 모델의 빠른 직관적 판단이나 심층적 추론을 묶어서 상위에서 한데 관리해줄 오케스트레이션 계층 구조에 대한 설명에 가까워 보입니다.


그렇다면 이 계층이 가져야 하는 하위에 대한 판단, 감독, 조절, 검증하는 능력이 중요해질것 같긴 해요.


거기에 맞춰 이 계층과 소통(?)해야 하는 사람의 기술적 역량, 사고력, 판단력이 더더욱 중요해지지 않나 생각합니다.


요즘 저도 제 에이전트가 끊임없이 생산하는 계획/실행 문서를 읽고 검토하는게 점점 귀찮아지고 있어서 이런저런 생각이 드네요. ㅋㅋㅋ

avatar
몽상과 사색
2026.03.30

맞습니다. 그래서 저는 요새 결과물은 진짜 yes/no 만 판단하고 최대한 시스템을 어떻게 더 좋게 할지 고민하고 있습니다. 그런데 이게 가치투자만큼은 아니지만 좀 시행착오가 지나야 현재 이런 부분이 좋다/나쁘다 판단이 되서 시간이 좀 걸리네요 ㅠㅠ 사실 모델이 더 좋아지면 되지 않나 싶기도?! ㅎㅎ(게으름 병...)