글: 인지심리 매니아

 

며칠 전 Bing API를 통해 웹 검색 결과 수를 토대로 조건부 확률을 계산하는 application을 만들어봤다. 다들 알겠지만, 구글이나 Bing의 경우 검색결과와 결과 수를 함께 제시한다. 검색 결과 수를 이용하면 특정 단어가 출현했을 때 다른 단어가 동시에 출현할 확률을 구할 수 있다. 예를 들어, 오렌지라는 단어가 출현했을 때 과일이라는 단어가 함께 출현할 확률, P(과일|오렌지)과일 & 오렌지검색 결과 수를 오렌지검색 결과 수로 나누면 된다. 

Application을 완성하고 이 단어 저 단어를 검색하던 중, 문득 다음과 같은 생각을 해 봤다. ‘혹 웹 문서가 인간의 개념 구조를 그대로 반영하고 있지 않을까?’

웹 문서는 인간이 작성했다는 점에서 인간의 사고방식을 그대로 반영하고 있을 것이다. 누군가 웹마이닝 등을 통해 웹에 산재한 데이터들을 관찰할 수 있다면, 인간의 개념 지식, 휴리스틱, 판단 과정을 고스란히 살펴볼 수 있을 것이다.


필자는 그 중 전형성효과가 웹 문서에서도 동일하게 나타나는지 궁금했다. 인간의 개념 구조를 설명하는 이론 중 원형모형은 개념이 원형으로 표상된다고 주장한다. 원형은 그 범주에 속하는 사례들이 가장 평균적으로 가진 속성의 집합체를 말한다. 또, 그 범주에 속한 사례들은 원형과 유사한 정도에 있어서 다르다. 이를 전형성이라고 한다.

예를 들어보자. ‘라는 단어를 들으면 어떤 이미지가 떠오르는가? 아마 전형적인 라고 생각되는 이미지(날개가 달리고 몸이 가벼우며 하늘을 나는)가 떠오를 것이다. 이것이 새라는 범주의 원형이다. 하지만 새라는 범주에 속하지만 원형과 다소 동떨어진 사례도 있다. 가령, 펭귄은 새라고 할 수 있는가? 물론 펭귄은 새가 맞지만 원형과 동떨어졌다는 점에서 전형성이 낮다. 반면 까치는 전형성이 높다. 

웹 문서가 인간의 개념 지식을 그대로 반영한다면, 전형성 효과도 동일하게 나타날 것이라고 예상할 수 있다. , 펭귄보다 까치라는 단어가 출현했을 때 '새'라는 단어가 함께 출현할 확률이 높을 것이다. P(|펭귄) < P(|까치) 간단한 실험을 통해 이를 검증해 볼 수는 없을까? 한번 해 보기로 마음먹었다.[각주:1]

 

실험

 

우선, 웹 검색 결과를 인간의 범주화 과정과 비교하려면 인간 데이터가 필요하다. 그래서 Rosch Mervis 1975년에 진행한 연구 결과[각주:2]를 참고하기로 했다. 이 논문은 참가자들에게 각 사례의 전형성을 평가하게 해서 순위를 매겼다. 아래 그림에 실험 결과가 정리되어 있다. 예를 들어, Chair Furniture라는 범주에서 전형성이 가장 높았다.

 



그 다음, 필자가 만든 조건부 확률 검색 엔진을 통해 각 사례의 조건부 확률을 계산했다. , 웹페이지에서 Chair라는 단어가 출현했을 때 Furniture라는 단어가 함께 출현할 확률 P(Furniture|Chair)을 계산했다.

이런 식으로 모든 사례의 조건부 확률을 구한 다음(결합 단어나 다의어는 자료에서 제외했다), 확률을 토대로 전형성의 순위를 매겼다. 그 다음, 이 순위를 Rosch 등이 보고한 순위와 비교해봤다. 두 데이터 모두 서열 척도이므로 Spearman 상관 분석을 사용했다.
 

그 결과, Fruit Clothing을 제외한 모든 범주에서 유의미한 상관이 발견되었다. 결과에 영향을 주는 수많은 요인이 웹 상에 존재함에도 불구하고 유의미한 상관이 발견되었다는 사실은 좀 놀랍다.
 

   Furniture  Vehicle Fruit  Weapon  Vegetable  Clothing 
 상관계수  .444 .677  -.185  .561  .52  .382 
 유의도  p=.05 p=.001  p=.425   p=.01 p=.033  p=.097 

하지만 이 결과만 놓고 웹에서 전형성 효과가 나타나는지 확신하기는 힘들다. 대체로 인간 데이터와 웹 검색 결과가 비슷해 보이지만, 그렇지 않은 범주도 관찰되었기 때문이다. 이 가설을 제대로 검증하려면 보다 세련된 연구방법이 필요해 보인다.

 

만약, 웹에서 전형성 효과가 관찰된다면 그 응용적 가치는 무엇일까? 어쩌면 우리는 웹 문서를 통해 인간의 개념 지도를 완성할 수 있을지 모른다. 웹 마이닝 등에서 검색 결과의 조건부 확률을 이용한다면 (전형성 효과가 시사하듯)퍼지하게 구성된 인간의 개념 구조를 파악해 낼 수 있을 것이다. , 인공지능이 을 통해 인간과 유사한 추론을 하게끔 만들 수도 있다. 인공지능이 웹 검색결과를 통해 펭귄보다는 까치가 새에 가깝다라는 추론을 하는 모습이 상상되는가?’

 

  1. 인간의 개념 구조를 파악하기 위해 왜 조건부 확률을 관찰해야 하는지 의문이 들 수 있다. 이에 관해서는 인간의 추론 과정을 베이지안 관점에서 해석하는 입장을 살펴보길 권한다. Amy Perfors, Joshua B. Tenenbaum, Thomas L. Griffiths, Fei Xu, A tutorial introduction to Bayesian models of cognitive development, Cognition, Volume 120, Issue 3, September 2011, Pages 302-321, ISSN 0010-0277, 10.1016/j.cognition.2010.11.015. [본문으로]
  2. Rosch, E., & Mervis, C.B(1975). Family resemblance: Studies in the internal structure of categories. Cognitive Psychology, 7, 573-605 [본문으로]

+ Recent posts