[시리즈 연재] 포커와 투자 1화: 불확실성을 숫자로 제어하는 힘: 기댓값(EV)과 균형(GTO)

[시리즈 연재] 포커와 투자 1화: 불확실성을 숫자로 제어하는 힘: 기댓값(EV)과 균형(GTO)

avatar
적랑
2025.12.31조회수 586회

포커로 보는 확률적 사고: EV와 Variance

  1. 확률론적 사고 (금융과 도박과의 관계 : Texas hold'em으로 설명)

  2. 불확실성을 숫자로 제어하는 힘: 기댓값(EV)과 균형(GTO)


GTO poker – How profitable is it at micro and small stakes?
image.png

0) 들어가며: 텍사스 홀덤, 불확실성을 다루는 가장 정교한 게임


텍사스 홀덤(Texas Hold'em)은 단순한 도박이 아닙니다. 체스나 바둑이 모든 정보가 공개된 ‘완전 정보 게임(Perfect Information Game)’이라면, 홀덤은 내 패는 알고 상대의 패와 남은 카드는 모르는 ‘불완전 정보 게임(Imperfect Information Game)’입니다.


이 불확실성 속에서 플레이어는 제한된 정보를 바탕으로 최적의 의사결정을 내려야 합니다. 이것이 바로 월스트리트의 투자자들이 종종 포커를 투자와 연관지어 말하는 이유입니다.


포커와 투자는 본질적으로 같은 언어를 씁니다.

  • 자원 배분: 한정된 칩(자본)을 언제, 어디에 베팅(투자)할 것인가?

  • 리스크 관리: 패가 안 좋을 때(하락장) 손실을 어떻게 최소화할 것인가?

  • 의사결정: 결과(수익률)가 아닌 과정(원칙)에 집중하고 있는가?

이제, 이 불확실성을 숫자로 제어하는 핵심 도구인 EV(기댓값)게임이론(GTO)이 어떻게 포커와 투자를 관통하는지 살펴보겠습니다.



1) 포커에서 EV란 ‘결과’가 아니라 ‘전략의 평균 수익’


포커에서 말하는 EV(Expected Value, 기댓값)는 “이번 판을 이기느냐 지느냐”를 의미하지 않습니다. 동일한 상황이 무한히 반복될 때, 내가 선택한 액션(폴드/콜/베팅)이 평균적으로 남기는 수익이 바로 EV입니다.

  • 결과(Result): 단기 승패. 운(Luck)과 분산(Variance)이 지배합니다.

  • EV: 장기 평균 수익. 의사결정의 질(Quality)을 측정합니다.

투자와도 동일합니다. 단기 수익률은 시장 노이즈에 크게 좌우되지만, 장기적으로 살아남는 투자자는 “내 원칙(진입/청산/리스크 관리)이 반복 수행되었을 때 평균적으로 플러스인가?”를 봅니다.
포커는 그 원칙을 숫자로 검증하는 훈련입니다.



2) EV는 ‘상대의 대응’에 의해 결정됩니다 (전략적 상호작용)


포커가 단순 확률 게임과 다른 점은, 나의 EV가 상대의 대응(폴드/콜/레이즈)에 따라 달라진다는 것입니다. 내 기대수익은 결국 “상대가 어떻게 반응하느냐”라는 변수에 종속됩니다.

여기서 우리는 두 가지 질문을 던지게 됩니다.

  • 상대가 실수하면? → 상대가 잃은 EV를 제가 가져올 수 있습니다.

  • 상대가 최적으로 대응하면? → 그래도 EV가 무너지지 않는 방어선이 필요합니다.

두 번째 질문에 대한 답을 찾기 위해 게임이론(GTO)내쉬 균형(Nash Equilibrium)으로 넘어갑니다.



3) GTO(내쉬 균형): 무한한 '수 싸움(Exploit)' 끝에 도달하는 평화


일단 GTO에 대해 설명하겠습다. 포커에서의 GTO란 두 명의 합리적인 플레이어가 서로를 이겨먹기 위해(Exploit) 끝없이 전략을 수정하는 과정에서 탄생한 '최후의 타협점'입니다.


이 과정을 직관적으로 이해하기 위해 '가위바위보'를 예로 들어보겠습니다.

  1. 전략 A (초기): 제가 주먹만 계속 냅니다.

  2. Exploit (착취): 상대는 이를 눈치채고 보자기만 냅니다. (제 전략은 파훼되었습니다.)

  3. Counter-Exploit (대응): 저는 다시 이기기 위해 가위만 냅니다.

  4. Repeat (반복): 상대는 다시 주먹으로 대응합니다.

이 과정이 무한히 반복되면 어떻게 될까요? 서로가 서로의 패턴을 읽히지 않기 위해, 결국 가위, 바위, 보자기를 정확히 1/3씩 섞어서 내는 상태에 도달합니다.

이 지점에 도달하면, 상대가 어떤 전략(주먹만 내든, 가위만 내든)을 들고와도 나의 승률(EV)은 변하지 않습니다. 더 이상 내 전략을 수정할 유인도, 수정해서 얻을 이득도 없는 상태. 이것이 바로 내쉬 균형입니다.


포커에서도 마찬가지입니다.

  • 제가 블러핑을 너무 많이(Over-bluffing) 하면 → 상대는 많이 콜해서 저를 응징합니다(Exploit).

  • 제가 좋은 패로만 베팅(Value only) 하면 → 상대는 많이 폴드해서 수익이 안 납니다.

결국 “상대가 콜을 하든 폴드를 하든, 수학적으로 손해 보지 않는 블러핑 빈도”를 찾아야 합니다. 이것이 GTO가 만들어지는 과정입니다.

현실에 완벽한 GTO 플레이어는 없지만, 역설적으로 그래서 GTO가 더 중요합니다.
기준점(Baseline)이 있어야 “상대가 어디서 틀렸는지(균형에서 얼마나 벗어났는지)”를 판단할 수 있기 때문입니다.



4) GTO는 ‘나침반’이고, 수익은 ‘착취(Exploit)’에서 나온다


GTO는 “항상 최대 수익을 내는 전략”이라기보다, 상대가 무엇을 하든 내가 추가로 털리지 않는 방어선에 가깝습니다. 반대로 실제 돈은 대개 상대의 실수를 읽고 균형을 깨는 착취 전략(Exploitative Strategy)에서 나옵니다.

  • GTO(수비): 상대가 어떤 대응을 해도 추가로 착취당하지 않는 ‘지지 않는 선’

  • Exploit(공격): 상대가 균형에서 벗어났을 때 그 틈을 찔러 EV(+)를 만드는 ‘이기는 기술’

투자로 치환하면, 시장이 완전히 효율적이라면(모든 참여자가 합리적이라면) 초과수익은 구조적으로 어렵습니다. 하지만 현실의 시장은 탐욕과 공포로 인해 균형 가격에서 자주 이탈합니다.

우리가 내재가치/밸류에이션을 공부하는 이유도 같습니다.
기준점이 있어야 지금 가격이 비싼지 싼지(상대가 실수 중인지)를 판단할 수 있습니다.



5) AKQ 게임: 단순한 게임에서 '균형 빈도'가 만들어지는 방식


포커의 가장 단순화된 형태인 'AKQ 게임'을 통해 GTO(Game Theory Optimal) 전략이 어떻게 도출되는지, 그리고 그 본질적인 의미가 무엇인지 좀 더 ...

회원가입만 해도
이 글을 무료로 읽을 수 있어요.

이미 계정이 있으신가요?로그인하기
댓글 19
avatar
적랑
구독자 315명구독중 40명
논리 기반 사고