글: 인지심리 매니아

 

며칠 전 Bing API를 통해 웹 검색 결과 수를 토대로 조건부 확률을 계산하는 application을 만들어봤다. 다들 알겠지만, 구글이나 Bing의 경우 검색결과와 결과 수를 함께 제시한다. 검색 결과 수를 이용하면 특정 단어가 출현했을 때 다른 단어가 동시에 출현할 확률을 구할 수 있다. 예를 들어, 오렌지라는 단어가 출현했을 때 과일이라는 단어가 함께 출현할 확률, P(과일|오렌지)과일 & 오렌지검색 결과 수를 오렌지검색 결과 수로 나누면 된다. 

Application을 완성하고 이 단어 저 단어를 검색하던 중, 문득 다음과 같은 생각을 해 봤다. ‘혹 웹 문서가 인간의 개념 구조를 그대로 반영하고 있지 않을까?’

웹 문서는 인간이 작성했다는 점에서 인간의 사고방식을 그대로 반영하고 있을 것이다. 누군가 웹마이닝 등을 통해 웹에 산재한 데이터들을 관찰할 수 있다면, 인간의 개념 지식, 휴리스틱, 판단 과정을 고스란히 살펴볼 수 있을 것이다.


필자는 그 중 전형성효과가 웹 문서에서도 동일하게 나타나는지 궁금했다. 인간의 개념 구조를 설명하는 이론 중 원형모형은 개념이 원형으로 표상된다고 주장한다. 원형은 그 범주에 속하는 사례들이 가장 평균적으로 가진 속성의 집합체를 말한다. 또, 그 범주에 속한 사례들은 원형과 유사한 정도에 있어서 다르다. 이를 전형성이라고 한다.

예를 들어보자. ‘라는 단어를 들으면 어떤 이미지가 떠오르는가? 아마 전형적인 라고 생각되는 이미지(날개가 달리고 몸이 가벼우며 하늘을 나는)가 떠오를 것이다. 이것이 새라는 범주의 원형이다. 하지만 새라는 범주에 속하지만 원형과 다소 동떨어진 사례도 있다. 가령, 펭귄은 새라고 할 수 있는가? 물론 펭귄은 새가 맞지만 원형과 동떨어졌다는 점에서 전형성이 낮다. 반면 까치는 전형성이 높다. 

웹 문서가 인간의 개념 지식을 그대로 반영한다면, 전형성 효과도 동일하게 나타날 것이라고 예상할 수 있다. , 펭귄보다 까치라는 단어가 출현했을 때 '새'라는 단어가 함께 출현할 확률이 높을 것이다. P(|펭귄) < P(|까치) 간단한 실험을 통해 이를 검증해 볼 수는 없을까? 한번 해 보기로 마음먹었다.[각주:1]

 

실험

 

우선, 웹 검색 결과를 인간의 범주화 과정과 비교하려면 인간 데이터가 필요하다. 그래서 Rosch Mervis 1975년에 진행한 연구 결과[각주:2]를 참고하기로 했다. 이 논문은 참가자들에게 각 사례의 전형성을 평가하게 해서 순위를 매겼다. 아래 그림에 실험 결과가 정리되어 있다. 예를 들어, Chair Furniture라는 범주에서 전형성이 가장 높았다.

 



그 다음, 필자가 만든 조건부 확률 검색 엔진을 통해 각 사례의 조건부 확률을 계산했다. , 웹페이지에서 Chair라는 단어가 출현했을 때 Furniture라는 단어가 함께 출현할 확률 P(Furniture|Chair)을 계산했다.

이런 식으로 모든 사례의 조건부 확률을 구한 다음(결합 단어나 다의어는 자료에서 제외했다), 확률을 토대로 전형성의 순위를 매겼다. 그 다음, 이 순위를 Rosch 등이 보고한 순위와 비교해봤다. 두 데이터 모두 서열 척도이므로 Spearman 상관 분석을 사용했다.
 

그 결과, Fruit Clothing을 제외한 모든 범주에서 유의미한 상관이 발견되었다. 결과에 영향을 주는 수많은 요인이 웹 상에 존재함에도 불구하고 유의미한 상관이 발견되었다는 사실은 좀 놀랍다.
 

   Furniture  Vehicle Fruit  Weapon  Vegetable  Clothing 
 상관계수  .444 .677  -.185  .561  .52  .382 
 유의도  p=.05 p=.001  p=.425   p=.01 p=.033  p=.097 

하지만 이 결과만 놓고 웹에서 전형성 효과가 나타나는지 확신하기는 힘들다. 대체로 인간 데이터와 웹 검색 결과가 비슷해 보이지만, 그렇지 않은 범주도 관찰되었기 때문이다. 이 가설을 제대로 검증하려면 보다 세련된 연구방법이 필요해 보인다.

 

만약, 웹에서 전형성 효과가 관찰된다면 그 응용적 가치는 무엇일까? 어쩌면 우리는 웹 문서를 통해 인간의 개념 지도를 완성할 수 있을지 모른다. 웹 마이닝 등에서 검색 결과의 조건부 확률을 이용한다면 (전형성 효과가 시사하듯)퍼지하게 구성된 인간의 개념 구조를 파악해 낼 수 있을 것이다. , 인공지능이 을 통해 인간과 유사한 추론을 하게끔 만들 수도 있다. 인공지능이 웹 검색결과를 통해 펭귄보다는 까치가 새에 가깝다라는 추론을 하는 모습이 상상되는가?’

 

  1. 인간의 개념 구조를 파악하기 위해 왜 조건부 확률을 관찰해야 하는지 의문이 들 수 있다. 이에 관해서는 인간의 추론 과정을 베이지안 관점에서 해석하는 입장을 살펴보길 권한다. Amy Perfors, Joshua B. Tenenbaum, Thomas L. Griffiths, Fei Xu, A tutorial introduction to Bayesian models of cognitive development, Cognition, Volume 120, Issue 3, September 2011, Pages 302-321, ISSN 0010-0277, 10.1016/j.cognition.2010.11.015. [본문으로]
  2. Rosch, E., & Mervis, C.B(1975). Family resemblance: Studies in the internal structure of categories. Cognitive Psychology, 7, 573-605 [본문으로]

글: 인지심리 매니아


몬티홀 딜레마

다음 문제를 풀어보자.

3개의 문이 있는데 하나의 문 뒤에는 고급 스포츠카가, 나머지 2개의 문 뒤에는 염소가 숨겨져 있다. 참가자는 이 사실을 모르며, 사회자는 이 사실을 알고 있다. 참가자가 이 3개의 문 중에서 하나를 선택하면 사회자는 나머지 2개의 문 중에서 염소가 있는 문 하나를 열어 보여준다. 그리고 사회자는 참가자에게 열리지 않은 2개의 문 중에서 다시 한 번 문을 선택할 기회를 준다.


만약 두번째로 고른 문에서 스포츠카가 나온다면 참가자는 차를 가질 수 있다.
그렇다면 참가자는 처음에 선택한 문을 바꾸는 것이 좋은가 아니면 바꾸지 않는 것이 좋은가?


정답은 아래 동영상을 보면 알 수 있다.



영화 '21'중에서



이 동영상을 보고 당황했을 거라 짐작한다. 첫번째는 문을 바꾸는 게 정답이라는 점, 두번째는 영화 속 MIT 학생처럼 수학적 사고를 하는 게 반드시 합리적일까 하는 점이다.

먼저 문을 바꾸는 게 정답이라는 사실을 이해해보자. 사회자가 열어본 문에 염소가 있었다면, 내가 고른 문 뒤에 스포츠카가 존재할 확률은 증가하는 게 아닐까? 따라서 그냥 가만히 있으면 되는 거 아닐까?

처음에 3개의 문이 주어졌을 때 자동차가 당첨될 확률은 각각 1/3이다. 하지만 사회자가 꽝인 문 하나를 열어 주었고, 다시 한 번 선택을 할 수 있는 상황에서 자신의 선택을 바꾼다면 당첨 확률이 2/3로 처음의 1/3보다 2배 상승하게 된다.



위 그림은 참가자가 1번 문을 골랐다가, 나중에 문을 바꾸는 경우 나올 수 있는 모든 결과를 보여준다. 스포츠카가 2번 문에 있었을 경우, 진행자는 3번 문을 열어줄 것이다(사회자는 2번 문에 스포츠카가 있다는 것을 알고 있으므로). 따라서 참가자가 문을 바꾸려 한다면 2번 문을 선택하게 될 것이고, 확률은 여전히 1/3이다. 차가 3번 문에 있을 경우도 마찬가지다.

하지만 차가 1번 문에 있을 경우, 참가자가 후에 문을 바꾸면 차를 얻을 수 없다. 따라서 이 때의 확률은 손실(차를 놓칠 확률)이 된다. 이 때 사회자가 열어줄 수 있는 문은 2번과 3번 문이므로, 참가자가 나중에 문을 3번이나 2번으로 바꿀 확률은 1/2이다. 결국, 차를 고를 확률인 1/3에 2번 혹은 3번 문을 고를 확률(1/2)를 곱하면 차를 놓칠 확률은 각각 1/6이 된다. 둘을 더하면 1/3이 된다.



결론적으로, 문을 바꾸면 차를 잃을 확률이 1/3, 차를 얻을 확률이 2/3이 된다. 반면, 문을 바꾸지 않으면 확률은 여전히 1/3이다. 문을 바꿀 때 확률이 증가하는 것이다.

(이 문제를 ‘몬티홀 딜레마'라고 부른다).


수학적=합리적?

첫 번째 의문은 해소된 것 같다. 그러나 두번째 의문은 여전히 풀리지 않는다. 영화 속 학생은 조건부 확률을 사용하여 사후 확률을 계산했고, 일반인은 어림짐작을 사용해서 문제를 해결하려 했다. 결국 저 학생의 정답이 옳았다. 하지만 저 학생처럼 사고하는 사람이 과연 몇이나 될까? 또 저 학생처럼 사고하는 게 과연 합리적일까?

카네만과 트베르스키는 인간의 의사결정이 수학적 합리성과 동떨어져 있다는 사실을 발견했다. 우리는 몬티홀의 딜레마를 해결할 때 조건부 확률을 사용하지 않는다. 그냥 직관적으로 문을 바꾸지 않는 게 좋을 거라고 생각한다. 카네만과 트베르스키는 인간이 수학적 추론 대신 '휴리스틱'을 사용해서 의사결정을 한다고 결론지었다. 놀랍게도, 각 분야의 전문가라는 사람들조차 조건부 확률에 약하다. 심지어 수학자들마저 몬티홀 딜레마를 제대로 풀지 못했다. 따라서 MIT 학생처럼 생각하는 사람은 거의 없다고 보면 된다.

카네만과 트베르스키는 '수학적 사고가 합리적이다'라는 전제를 바탕으로 하고 있으며, 인간은 이 기준과 동떨어져 있기 때문에 비합리적이라는 오명을 쓰게 되었다. 근데, 수학적 사고를 '합리적 사고'라고 규정하는 것이 과연 옳은가? 수학적 사고는 상황과 관계없이 항상 합리적일까? 다음 글은 수학적 사고가 모든 상황에서 반드시 합리적이지는 않음을 보여준다.

5지선다형 객관식 문제를 풀 때, 대개의 경우 답이 아니라고 생각되는 번호를 버린 나머지 2개 또는 3개의 번호 중에서 어느 것을 선택할 것인지 갈등을 한다. 만약, 3개의 번호 중에서 하나의 번호를 선택한 상태에서 다른 번호가 답이 아니라는 것을 뒤늦게 깨닫게 되었다면 이때 처음에 선택한 번호를 바꾸는 것이 좋은가, 아니면 바꾸지 않는 것이 좋은가? 이 문제를 몬티홀 문제와 같이 생각하면 번호를 바꾸어서 답을 결정하는 것이 그 문제를 맞힐 확률을 더 높이는 일이라 생각할 수 있다. 왜냐하면, 3개의 번호 중에서 정답인 번호는 하나이므로 오답을 선택했을 확률이 2/3로 정답을 선택했을 확률 1/3보다 크기 때문이다.
그러나, 여러 사람의 경험을 통하여 알 수 있듯이, 선택한 번호를 바꾸면 대부분 틀리는 경우가 많다. 그렇다면 왜 몬티홀의 문제와 다른 결과를 얻게 되는 것인가? 그것은 확률은 “무작위로”로 선택하는 것을 전제로 하지만 우리가 시험볼 때는 무작위로 번호를 선택하는 것이 아니라 공부했던 것을 바탕으로 최선을 다하여 번호를 선택하므로 처음에 답이라고 생각했던 번호가 답이 되는 경우가 많기 때문이다.

출처 - 수학개념서 수학교과서의 새로운 접근


시험 문제를 풀 때는 확률보다 직관에 의존해야 한다. 시험 문제를 풀 때 직관은 우리로 하여금 이전에 봤던 내용을 무의식중에 고르게 한다. 만약 이 답에 수정을 가하면 틀리기 쉽다. 이전 포스트에서 소개했던 숨막힘 현상(choke)이 이와 관련있다. 자동적으로 이루어지는 행동에 너무 많은 생각을 하기 시작하면 오히려 수행이 저조해질 수 있다. 직관적으로 튀어나온 답은 정답일 확률이 높으므로 너무 많은 생각을 하지 말고 그냥 놔두는 게 낫다.

이 상황에서 조건부 확률을 고려하는 건 ‘합리적'이지 않다. 영화 속 MIT 학생이 오지선다형 문제를 풀 때 저런 논리를 사용한다면 낭패를 볼 것이다. 결국 합리성은 ‘생태적 합리성'이어야 한다. 인간은 베이지안 추론에 무지하지만, 일상생활을 하는 데 아무 지장이 없다. 그것은 우리가 일상생활에 적합한 합리성을 이미 가지고 있기 때문일 수 있다. 이 합리성은 수학적 합리성과는 다소 거리가 멀지만, 여전히 우리를 ‘합리적'으로 인도하는 것이다.

‘인지과학 혁명’에서 사에키 유타카는 ‘생태적 합리성'을 자신의 메타이론으로 삼으려 한다. 그는 심리학 연구들을 생태적 합리성이라는 기준으로 재평가한다.  기존의 심리학 연구는 인위적인 환경, 전문가들이 정한 인위적인 합리 안에서 실험을 진행했으며, 이로 인해 인간의 합리성을 제대로 파악하지 못했다는 것이다. 따라서 생태적 합리성을 발견하기 위한 새로운 시도가 필요하다고 주장한다.

조건부 추론을 잘 모른다고 해서 사는 데 지장은 없다. 그냥 내 직관이 잘 들어맞었다는 경험을 믿으면 된다. 시험 문제를 풀 때는 그렇게 생각하는 게 가장 ‘합리적'이다.

출처: Ideas for a deeper sense of life

번역: 인지심리학 매니아

 

며칠 전 카오스 복잡계 이론가인 Steven Strogatz가 뉴욕 타임즈에 확률을 어떻게 가르쳐야 하는지 기사를 실었다. 특히 그는 ‘조건부 확률’을 어떻게 다룰 것인지 조명했다. 그는 제시한 해법은 설득력이 있어 보이고, 인간의 직관으로 보다 쉽게 이해할 수 있다.


그는 기존 학생들처럼 베이즈 공식을 쓰거나 규범적인 수학 공식을 쓰지 말 것을 추천했다. 그는 이번 글에서 유방암을 찾아내는 mammogram 양성 반응 문제를 예시로 들면서 Gerd Gigerenzer(Max Planck Institute for Human Development in Berlin의 인지 심리학자)의 연구에서 찾아낸 방법들을 제시했다.


이 방법은 사람들에게 확률적인 방식보다 '빈도수’를 세는 방식을 권유하고 있다. 즉 퍼센트나 분수, 확률을 사용하지 말고 숫자를 사용하라는 뜻이다(e.g, 20% 대신 100명 중 20명이라고 표현하라). 물론 수학책을 비롯한 교과서에서는 보다 복잡하고 수학적인 공식들을 사용하지만, 단순히 빈도수를 사용하는 게 인간의 직관에 보다 잘 맞는다는 설명이다.


Ernő Téglás, Vittorio Girotto, Michel Gonzalez, and Luca L. Bonatti는 2007년에 유아들을 대상으로 한 실험에서 인간이 어린 시기에 어떻게 확률을 지각하는지 밝혀냈다. 유아들은 4개의 영화를 보게 되는데(두 편은 확률적으로 그럴듯하고 나머지 두 편은 확률적으로 있을법하지 않은 장면), 실험 결과 유아들은 그럴듯하지 않은 결과를 볼 때 화면을 오래 응시했다.


그 러나 유아들이 확률적 추론과 관련 없는 어림법(heuristic)을 사용했기 때문에 이런 결과가 나왔을 수도 있다. 따라서 그들은 추가 실험을 진행한 다음 그럴듯한 VS 그럴듯하지 않은 조건에서의 반응시간(reaction time, RT)을 비교했다. 그 결과 유아들은 처음에 (확률적으로)그럴듯한 동영상에서 나왔던 물체가 (확률적으로)그럴듯하지 않은 사건에 다시 나온 경우에도 화면을 오래 응시했다(즉, 첫 번째 실험이 특정 object로 인한 어림법 사용의 결과가 아니라는 뜻 – 역자 주)


이 두 실험은 인간이 미래에 일어날 특정 사건의 확률을 예측하는 ‘선천적 능력’이 있음을 보여준다. 위 두 사람의 연구를 살펴볼 때 확률을 이해하고 배우는 손쉬운 방법은 유아들이나 아이들이 사용하는 방식과 같은 방식을 따를 필요가 있다. 복잡한 수학 공식보다는 단순히 빈도수를 세는 것이 그것이다.


Teglas, E., Girotto, V., Gonzalez, M., & Bonatti, L. (2007). Intuitions of probabilities shape expectations about the future at 12 months and beyond Proceedings of the National Academy of Sciences, 104 (48), 19156-19159 DOI: 10.1073/pnas.0700271104

+ Recent posts