Image : http://www.kent.ac.uk



글 : 인지심리 매니아



인간은 조건부 확률을 판단할 때 어떤 방법을 사용할까? 만약 당신이 담배꽁초를 산에 버리면 불이 날 확률은 얼마나 될까? 만약 당신이 술을 마시고 운전을 할 경우 사고가 날 확률은 얼마나 될까? 


심리학에서는 대체적으로 두 가지 관점이 존재한다. 베이지안 견해(Bayesian view)는 인간이 사전 확률을 통해 판단을 내린다고 설명한다. 즉, 기존 지식을 통해 A라는 행동을 할 경우 B가 발생할 확률이 90%임을 떠올리고 이를 판단에 활용한다. 하지만 주변 사람들의 말을 들어본 결과 A 행동을 취해도 B가 발생할 확률이 매우 낮다면, 그 사람은 자신의 사전 지식을 수정할 것이다. 베이지안 견해는 인간이 사건 간의 ‘상관'관계를 토대로 판단을 내리며, 주변의 지식을 통해 이 정보를 수정한다고 생각한다.


반면, 설명 기반 견해(explanation-based view)는 인간이 인과 관계를 통해 판단을 내린다고 주장한다. 즉, A가 B라는 결과의 원인이라는 인과적 지식을 활용해 확률을 판단한다. 이 때, 두 사건 간의 확률은 판단에서 중요한 역할을 하지 않는다. 심리학 문헌에서 볼 수 있는 ‘인과 관계 휴리스틱(Causality heuristic)’은 설명 기반 견해를 지지하는 좋은 예다.  


인과관계 휴리스틱(Causality heuristic)

확률 판단 시 인과적 지식에 의존하고 통계 정보를 무시하는 현상.


Ex) ‘무선적으로 선택된 남성은 적어도 한번 이상 심장 발작을 경험한 적이 있다'

‘무선적으로 선택된 남성은 적어도 한번 이상 심장 발작을 경험한 적이 있고, 55세 이상이다'


사람들은 두번째 문장의 발생확률이 높다고 착각한다(결합 오류). 노령은 심장 발작의 원인이라고 생각하기 때문이다(인과관계 휴리스틱)



2012년 Cognitive Science 저널에 실린 최신 논문[각주:1]은 설명 기반 관점에서 인간의 판단 과정을 연구했다(이 논문의 제 2저자인 스티븐 슬로만(Steven Sloman)은 설명 기반 견해의 대표적 인물이다). 이 논문은 사건에 대한 통계적 정보가 동일할지라도 인과 구조가 변하면 판단에 영향을 줄 것이라고 가정했다.


이 연구의 첫번째 실험에서, 연구자들은 프랑스 대학생 144명을 대상으로 세 가지 변인(A: 원인, B: 결과, C: 매개변인)들을 보여주었다. 그리고 세 변인의 동시 발생 확률을 알려줬다. 예를 들어, 전체 사례 중 40%의 경우 세 변인의 발생확률이 모두 높았고, 40%의 경우 모두 낮았고, 나머지 20%의 경우 한 변인은 높고 다른 변인은 낮았다고 알려줬다. 학생들을 이 진술을 통해 한 변인이 발생했을 때 다른 변인이 발생할 확률을 추정할 수 있다. 


연구자들은 학생들을 두 집단으로 나눴다. 한 집단의 경우 세 변인이 인과 연쇄(Causal Chain, A->C->B)의 형태로 제시되었고, 다른 집단의 경우 C가 A와 B의 공통 원인(Common Cause, A<-C->B)이 되는 형태로 제시되었다. 

시나리오를 제시한 다음, 연구자는 학생들에게 A가 발생할 경우 B가 발생할 확률을 0~100%로 예측하게 했다.


그 결과, 학생들은 공통 원인보다 인과 연쇄일 때 P(B|A)의 발생확률을 높게 평가했다. 연구자가 세 변인의 동시 발생 확률을 각 집단에게 똑같이 알려줬기 때문에, (베이지안 관점에 의할 경우)사건의 인과 구조와 상관없이 A와 B의 발생 확률은 동일해야 한다. 그럼에도 불구하고 인과 구조가 판단에 영향을 미친 것이다.


또, 참가자는 Predictive chain의 확률(원인이 발생할 경우 결과가 발생할 확률)이 Diagnostic chain의 확률(결과가 발생했을 때 원인이 발생했을 확률)보다 높다고 응답했다. 이 결과는 우리의 직관과 일치한다. 담배꽁초를 산에 버렸을 때 불이 날 확률은, 산에 불이 났을 때 화재의 원인이 담배꽁초일 확률보다 높은 것처럼 생각되기 때문이다.   



각 집단 별 조건부 확률 판단. 논문에서 인용.



결국 통계적 정보를 동일하게 주었을지라도 인과 구조가 판단에 영향을 준다고 결론 내릴 수 있다.  인과 구조가 판단에서 중요한 역할을 차지한다고 주장하는 설명 기반 견해를 지지하는 데이터라고 할 수 있다. 


  1. Bes, B., Sloman, S., Lucas, C. G. and Raufaste, É. (2012), Non-Bayesian Inference: Causal Structure Trumps Correlation. Cognitive Science. [본문으로]

글: 인지심리 매니아


인간의 사고과정은 신비하다. 인간이 언어를 배우고, 인과관계를 파악하고, 의사결정을 하는 과정은 매우 복잡하며 베일에 가려져 있다. 도대체 인간이 사고를 할 때 뇌에서는 어떤 일이 일어날까? 우리가 그 과정을 상세히 기술할 수는 없을까?

그런데 인간의 사고과정을 수학 공식으로 설명하는 관점이 있다. 바로 베이지안 접근법이다. 이 관점은 인간의 사고과정을 베이즈 정리로 설명한다.

P(h|d) = P(d|h) / P(d)
(h: 가설 d: 증거 )

이 간단한 공식으로 어떻게 복잡한 인간의 사고방식을 설명할 수 있을까? Perfors et al(2011)[각주:1]은 어린아이의 귀납적 일반화 과정을 베이지안 추론으로 설명하고 있다.

 

범주이름 학습
 

출처: http://www.clublabrador.com

어린아이는 어떻게 범주 이름을 학습할까? 당신이 이제 막 말을 배우는 아이의 부모라고 상상해보자. 아이를 데리고 공원에 산책 나왔는데, 귀여운 래브라도 한 마리가 다가온다. 우리는 아이에게 얘는 래브라도야.’라고 가르쳐준다. , 아이의 머리에서 어떤 일이 일어날까?

 

아이의 머리 속은 폭발 직전일 것이다. 아이는 어쨌든 자기 앞에 있는 이 동물이 래브라도라는 사실을 배웠다. 하지만 아이는 며칠 전 공원에서 비슷한 동물(진돗개)을 본 적이 있다. 그럼, ‘래브라도라는 단어는 며칠 전 본 동물을 부를 때도 사용하는가? 아니면 네 발로 걸어다니는 모든 동물을 일컫는 것일까?

 

다행히 아이의 머리 속에는 이 문제를 해결할 규칙이 있다. 그 규칙은 바로 가장 좁은범주를 선택하는 것이다. , 아이는 자기 눈앞에 있는 이 동물만 래브라도이며, 지난 번에 본 동물(진돗개)은 래브라도가 아니라고 생각한다. 만약 아빠가 이 신기한 동물과 똑같이 생긴 동물이 나타날때마다 래브라도라고 부른다면, 이 가정은 더욱 견고해진다. 반면, 아빠가 며칠 전 봤던 동물(진돗개)도 래브라도라고 부른다면 이 단어가 특정 동물()을 지칭한다고 가정할 것이다. 하지만, 그 때도 역시 최소 범위()를 가정한다. ‘래브라도가 동물 전체를 지칭한다고 생각하지는 않는 것이다.

 

베이지안 관점은 이 현상을 우도로 설명한다. 앞에서 살펴봤듯이 우도란 P(d|h), 즉 가설이 참일 때 증거가 출현할 확률이다. 만약 이 동물(A)의 이름이 래브라도라고 가정하면, 이 가정이 맞을 때 실제로 이를 뒷받침하는 증거가 출현할 확률은 P(래브라도라고 부름|A)가 될 것이다. 반면, 모든 개(B)를 지칭하는 단어가 래브라도라면 우도는 P(래브라도라고 부름|B)이 된다. 둘 중 어느 확률이 가장 높은가? 당연히 첫번째다. AB보다 발생빈도가 훨씬 적기 때문이다 (Fig.3 i에서 가장 작은 사각형이 A에 해당한다). 아이는 이렇게 증거가 참일 확률이 높은 가설을 선택한다(그림을 보면 검은 점은 가장 작은 사각형에서 나왔을 확률이 높아 보인다).

 

또 이 가정은 증거가 축적되면서 강화되는데, 이것 역시 우도와 관련있다.. 만약 아빠가 이 개랑 똑같이 생긴 개(A)가 출현할 때마다 래브라도라고 한다면, P(래브라도라고 부름|A)는 더욱 증가하기 때문이다(Fig 3. ii). 따라서 가장 진한 사각형(래브라도)이 지지를 받게 되는 것이다.

 

 


제약
 
 

그 외에도 어린아이는 복잡한 귀납화 과정에서 사용하는 몇 가지 규칙(제약, Constraint)을 가지고 있다. 예를 들어, 단어를 배울 때 그 단어가 사물의 일부분보다 전체를 지칭할 것이라는 가정, 주체는 객체와 달라서 스스로 움직일 수 있다는 가정 등이다.

 

어린아이의 머리 속에 있는 제약은 선천적으로 타고나는가? 베이지안 관점은 제약이 학습된다고 설명한다. 예를 들어 보자. 이제 라는 개념을 이해하기 시작한 아이가 돼지와 골든 리트리버을 봤다고 가정해보자. 아이의 머리는 또 다시 복잡해진다. 이 이상한 동물들도 일까? 아이에게는 이 복잡한 문제를 정리해줄 제약이 필요하다.

 

 

그림4는 제약이 학습되는 과정을 잘 설명해준다. A가 래브라도, b가 골드 리트리버, c가 돼지라고 가정해보자. 학습자는 먼저 기존 경험을 바탕으로 가설()의 범위를 설정한다. , 개는 몸통 길이가 다양하지만(w)  몸무게(l)가 크게 차이 나지 않는다. 따라서 가설공간은 l x w 의 긴 직사각형 모양이라는 제약이 형성된다. 그렇다면 b a와 같은 범주에 속할 확률이 높고, c a는 확률이 낮을 것이다. 학습자는 소수의 사례만으로도 재빠르게 제약을 만들어낸다.
 

베이지안 통계학을 배운 사람은, 이쯤에서 무언가가 번득 떠오를 것이다. 베이지안 관점은 가설에 대한 가설(l w, hyperparameters)베이지안 계층적 모형으로 설명한다. 계층적 모형을 사용하면 제약 뿐만 아니라 인간이 어떻게 개념을 추상화하고, 그 개념을 또 추상화하는지 추적할 수 있다. 정말 신기하다. 수학적 모형으로 인간의 개념 구조를 설명할 수 있다니 말이다.

 

결론

인간의 사고과정은 신비하게 보이지만, 설명 가능한 과정임이 점점 드러나고 있다. 특히 베이지안 관점에 의하면 인간의 사고방식은 합리적인 수학적 판단과 다를 바가 없다. 물론 베이지안 관점에 대해서 비판이 없는 것은 아니지만 비교적 다양한 사고과정을 수학적으로 무리없이 설명해 내고 있다. 카네만과 트버스키의 비판에도 불구하고, 인간은 어쩌면 정말 직관적인 수학자일지도 모른다.

  1. Amy Perfors, Joshua B. Tenenbaum, Thomas L. Griffiths, Fei Xu, A tutorial introduction to Bayesian models of cognitive development, Cognition, Volume 120, Issue 3, September 2011, Pages 302-321, ISSN 0010-0277, 10.1016/j.cognition.2010.11.015. [본문으로]

출처: a replicated type

번역: 인지심리 매니아


전쟁은 이제 시작되었다.인지 모델링의 세계에서 벌어질 전쟁.그 정도는 아닐지라도 최소한 상당한 소동이 있을 것이다.Trends in Cognitive Sciences에 게시된 두 논문은 인지를 각각 다른 현미경을 통해 바라보면서 그 장점을 설명하고 있다 .


확률적 모델링을 지지하는 학자로는 Thom Griffiths, Nick Chater, Charles Kemp, Amy Perfors와 Joshua Tenenbaum이 있다. Representing (non-symbolically) emergentist 접근 방식을 지지하는 학자로는 James McClelland, Matthew Botvinick, David Noelle, David Plaut, Timothy Rogers, Mark Seidenberg과 Linda B 스미스가 있다.이번 논쟁은 결코 가벼운 싸움이 아니다.

그러나, 최초의 전쟁터는 이렇게 복잡한 다이어그램을 사람들이 어떻게 이해할 수 있는지 여부가 될 것이다.나는 (첫 번째 두 이미지 참조)이 결정을 독자에게 맡긴다.

핵심 문제는 어떤 접근법이 대부분의 인지 현상을 잘 설명하는지에 있다.David Mar의 단계적 설명은 문제의 '계산(computational)'적 특징, 그 문제의 '알고리즘적' 기술, 실제로 과정들이 두뇌하여 구현되는 방법에 대한 '실행적'설명을 포함한다.구조화된 확률론(Structured proabilistic)의 경우 하향식(top-down) 처리방식을 지지하는 반면, 발현주의(Emergentism)는 상향식(bottom-up) 접근법을 지지한다.



구조적 접근

구조적 확률론은 '문제를 해결하기 위해 얼마나 많은 정보가 필요한가?'와 같은 질문이 적절하다고 설명한다. 어떤 표상이 필요하고, 학습에 어떤 제약이 있을까? 질적으로 다른 접근 방법이 각각 다른 영역과 추론에 적용될 수 있다.

계층적 구조의 경우 모델이 상위 수준의 정보에 의해 영향을 받을 수 있음을 의미한다. 예를 들어, 당신이 돌고래는 어류라고 믿고 있는데 누군가 '돌고래는 어류처럼 보이지만 사실 포유류다'라고 말했다면 당신은 곧 입장을 바꾸게 된다. 반면 확률적 입장은 연결주의 모델이 상위 수준의 정보를 그렇게 쉽게 통합할 수 없으며, 단지 작은 정보에 의해서 인간의 마음이 바뀔 수는 없다고 주장한다.이들은 또 구조적 접근은 인지적 문제와 분리될 수 있다고 주장하는데, 예를 들면 구조를 학습하는 것과 원인-결과의 강도를 학습하는 것이 그런 경우라는 것이다.연결주의 모델은 이런 두 측면을 통합했지만, 연결주의 모델이 문제를 어떻게 해결하는지 설명하기 힘들다.


발현적 접근

발현적 학설은 세 가지 반박을 한다. 첫째로, 그들은 세 개의 처리 단계 - 계산, 알고리즘, 실행 -에 동등한 비중을 둔다. 둘째, '하향식'접근 방식은 부정확한 표상과 구조를 이론으로 구축할 위험이 있다고 주장한다. 이 학자들은 인지가 어떻게 구조화되어 있는지 보다, 구조가 데이터를 통해 어떻게 통합될지를 주장한다. 그들은 구조화된 접근법을 가정할 경우 뇌가 문제를 최적으로 해결할 수 없을 수도 있다고 말한다.아래는 범주화의 새로운 모델을 묘사한 다이어그램이다.이 그림은 대상과 속성 간 관계를 학습하는 신경 네트워크를 설명하고 있다.

 



발현적 접근법의 장점이 논문에서 극적으로 보여지고 있다: 다음 그래프는 시간 경과에 따른 표상의 output 활성화를 보여준다.놀랍게도, 이 표상이 모델에서 전혀 나타난 적이 없음에도 불구하고 '염소'가 우세하다. 이것이 어쩌면 새로운 네트워크 상에서 발견한 deep goat-bias의 증거일까? 아니면 오타일까?.

 



마지막으로 발현적 학설은 구조적 접근이 발달과정의 요소들을 설명할 수 없다고 주장한다.어린이는 학습곡선과 함께 이와 반대되는 행동을 보이는데, 이런 현상은 새로운 학설로는 설명할 수 있지만, 문제를 최적으로 접근하는 모델에서는 설명할 수 없다.


인지적 양초의 양 끝을 밝히다

나는 문제가 어떻게 구조화되어있는지에 가정하는 발현적 학설이 위험하다는 데 동의한다.내 연구 중 일부는 구조적 접근이 언어학습에 대해 가지고 있는 가정이나, 이중언어같은 언어학습의 '전이'와 관련이 있다.

나는 또한 Griffiths 연구에서처럼 구조적 확률 모델이 문제 해결을 위한 정보량을 결정할 수 있다는 입장에 동의하지 않는다. 예를 들어 사람이 시각적 감각을 이용해 집 안을 돌아다니는 등의 시각적 항행(visual navigation)을 생각해보자.초기 접근법은 우리가 주변 환경에 대한 내부적 지도를 필요로 한다고 설명했다. 내부적 지도는 우리가 현재 어디있고, 우리가 어디를 향하고 있는지 등의 정보를 말한다.연구는 이 문제를 매우 높은 수준에서부터 접근했다. 그러나, Zeil, Hofmann & Chahl는 (2003) 현재 위치와 대상 위치에서 취한 영상의 픽셀별 차이를 통해 문제를 효과적으로 해결할 수 있다고 했다.중요한 점은, 이 실험이 주위가 시끄러운 실제 상황에서 진행되었고 인공적인 실험실에서 진행되지 않았다는 점이다.이 실험은 개미와 꿀벌이 작은 두뇌를 지니고 있음에도 불구하고 길을 정확하게 찾아가는 이유를 설명하는 수도 있다. -이 세상에는 저차원의 시스템이 활용할 수 있는 복잡한 정보들이 널려 있다.

이와 동시에, 발현적 학설은 그들이 입력정보를 표상하는 방식을 통해 문제에 대한 가정을 만든다.위의 모델에서 개체, 양상, 관계는 이미 나누어져 있다.이 모델은 새로운 형태에 관계를 발전시킬 수 없는 것이다.

두 진영 사이에서도 견해의 정도에 따라 차이가 있다. 발현적 접근법은 메카니즘에 초점을 맞춘다. - 뇌가 문제를 어떻게 해결하는가.구조적 확률 접근은 왜 뇌가 문제를 그런 방식으로 해결하는지에 초점을 맞춘다.

난 이 논쟁이 어떻게 진행될지 흥미롭다. 연결주의와 동적 시스템 연구자들이 서로 대립하게 된지 그리 오래되지 않았고, 현재도 이들은 베이지안에 얽매이지 않는다. 현재 상향식, 하향식 접근법을 동시에 사용하는 모델들도 있다. Friston의 dynamic expectation - maximisation 모델은 모델의 계층 구조를 사용하지만, 이 모델은 학습시 neural net처럼 작동하고, 산출의 경우 베이지안 모델처럼 작동한다.결국, 이러한 방식 모두 인지의 이해와 인공 지능 시스템의 발전에 기여를 할 수 있다.



Reference


  • Griffiths, T., Chater, N., Kemp, C., Perfors, A., & Tenenbaum, J. (2010). Probabilistic models of cognition: exploring representations and inductive biases Trends in Cognitive Sciences, 14 (8), 357-364 DOI: 10.1016/j.tics.2010.05.004
  • McClelland, J., Botvinick, M., Noelle, D., Plaut, D., Rogers, T., Seidenberg, M., & Smith, L. (2010). Letting structure emerge: connectionist and dynamical systems approaches to cognition Trends in Cognitive Sciences, 14 (8), 348-356 DOI: 10.1016/j.tics.2010.06.002
  • Zeil J, Hofmann MI, & Chahl JS (2003). Catchment areas of panoramic snapshots in outdoor scenes. Journal of the Optical Society of America. A, Optics, image science, and vision, 20 (3), 450-69 PMID: 12630831

+ Recent posts