본문 바로가기

인지심리기사/의사결정/추론

베이즈 정리를 쉽게 푸는 방법


글: 인지심리 매니아

 다음 문제를 풀어보자.

어느 산악회 전체 회원의 60%가 남성이다. 이 산악회에서 남성의 50%가 기혼이고 여성의 40%가 기혼이다. 이 산악회의 회원 중에서 임의로 뽑은 한 명이 기혼일 때, 이 회원이 여성일 확률은?

정답이 몇 %라고 생각하는가? 이 문제를 풀기 어렵다면 아래 문제를 한번 더 풀어보자.

어느 산악회는 회원 수가 100명이며, 이 중 40명이 여성이다. 40명의 여성 중 16명은 기혼이다. 또 남성 60명 중 30명이 기혼이다. 이 산악회의 회원 중에서 임의로 뽑은 한 명이 기혼일 때, 이 회원이 여성일 확률은?

이제 정답을 맞추기 쉬울 것이다. 정답은 16/46이다.

 

위 문제는 원래 조건부 확률, 특히 베이즈 정리를 이용해서 풀어야 한다. 정답을 도출하는 과정은 다음과 같다.

  (마지막 줄에서 0.48이 아니라 0.46이 되어야 한다 - 역자 주)

문제 출처: 이투스


그런데
, 대부분의 사람들은 문제가 예시 1처럼 제시된 경우 잘 풀지 못한다. 예시 1은 각 사건의 발생확률(%)을 제시했다. 반면 예시 2처럼 빈도(natural frequency, 몇 명 중 몇 명)를 제시한 경우 문제를 쉽게 푼다. 심지어 베이즈 정리를 모를지라도 문제를 풀 수 있다. 어떻게 된 것일까? 두 문제 모두 동일한 구조이며, 단지 사건의 발생확률을 표현하는 방법만 다를 뿐인데 왜 이런 결과가 발생할까?

 

일부 심리학 연구들은 인간이 예시 1처럼 제시된 문제를 풀지 못하는 게 당연하다고 주장했다. 그 이유는 인간이 사건의 발생 횟수를 확률이 아니라 빈도로 표상하기 때문이라는 것이다. 인간은 이 세상에서 일어나는 모든 사건(비가 올 확률, 불의의 사고를 당할 확률 등)의 발생 확률을 경험을 통해 학습한다. 그리고 그 확률을 빈도(몇 번 중 몇 번)로 기억한다. 예를 들어보자. 당신은 등산을 얼마나 자주 가는가? 대부분의 사람들은 한달에 X’, ‘일년에 X이라고 대답할 것이다. 아무도 자신이 등산을 갈 확률이 X%라고 말하지 않는다. 따라서 예시 1이 사건의 발생확률을 제시했을 때 도무지 감이 잡히지 않았던 것이다. 반면, 예시 2는 사건의 발생 빈도를 제시했기 때문에 풀기가 쉬웠다.

앞서 제시한 문제의 경우 지문에 제시된 사건의 발생확률을 토대로 베이즈 판단을 했다. 그럼, 본인의 이전 경험을 토대로 베이즈 판단을 하는 경우는 어떤가? 이 경우에도 확률로 생각하는 것보다 빈도로 생각하는 게 정확한 베이즈 판단을 유도할까?

 

2011 Applied Cognitive Psychology에 실린 한 논문[각주:1]이 이 가능성을 검증했다. 연구자들은 산부인과 의사들을 실험 참가자로 선정한 후, 이들에게 혈청 검사가 양성으로 나왔을 때 태아가 다운증후군일 확률P(H|D) [H: 다운증후군, D: 양성반응]을 물어봤다(예상값). 이 때 의사들을 세 조건으로 나눈 다음, 각 조건마다 질문 방식을 조금씩 달리했다. Retrospective natural frequency 조건의 경우, 자신의 경험을 토대로 P(H|D)빈도로 적어보라고 지시했다. Prospective natural frequency 조건의 경우, 자신의 경험을 토대로 내년의 P(H|D)빈도로 적어보라고 지시했다. Single event probability 조건의 경우, 자신의 경험을 토대로 P(H|D)확률로 적어보라고 지시했다.

, 참가자에게 P(D|H), P(H), P(D)를 추정하게 했다. 연구자들은 이 확률을 토대로 베이즈 판단의 정답을 계산한 다음(계산값), 아까 전 적었던 예상값과 비교해 보았다.

그 결과, 예상값과 계산값의 차이는 Retrospective natural frequency 조건에서 가장 작았다. 결국, 자신의 지식이나 경험을 토대로 베이즈 판단을 하는 경우에도 빈도를 생각할 때 정답과 근사한 답이 도출되었다.

 

수학 시간에 조건부 확률, 특히 베이즈 정리가 나왔다고 해서 좌절할 필요가 없다. 확률로 계산된 문제가 어렵게 느껴진다면, 그 확률을 빈도로 바꾸어 보자. 문제가 쉽게 풀릴 것이다.

더불어, 자신의 이전 경험을 토대로 중요한 판단을 할 경우, 결과가 발생할 확률을 빈도로 생각해보자. 보다 정확한 판단이 가능해질 것이다.


* 이 연구 결과는 베이즈 추론 기반의 전문가 시스템을 개발하는 사람들도 눈여겨 봐야 할 것 같다. 주제 전문가에게 조건부 확률을 자문하려면, 확률이 아니라 빈도수로 묻는 것이 바람직하다. 만약 확률로 물어본다면 정확하지 않은 수치를 인공지능에 포함시킬 위험이 커진다.  

  1. Obrecht, N. A., Anderson, B., Schulkin, J. and Chapman, G. B. (2011), Retrospective Frequency Formats Promote Consistent Experience-Based Bayesian Judgments. Applied Cognitive Psychology. doi: 10.1002/acp.2816 [본문으로]