2019년 5월 25일 토요일

수학으로 상대방의 마음을 꿰뚫어 본다고?

좋아한다. 좋아하지 않는다. 좋아한다. 좋아하지 않는다. 좋아…
꽃잎을 하나씩 뜯으며 마음에 둔 사람이 나를 좋아하는지 고민해 본 적이 있는가? 요즘 말로 하자면 이런 상대를 ‘썸남’ 또는 ‘썸녀’라고 부를 것이다. 호의는 있는 것 같긴 하지만, 아직 완전히 사귀는 건 아닌 상황에서 밀고 당기다 보면 서로 상대의 마음이 어떨지 궁금할 수밖에 없다.
지금도 상대방이 보낸 애매한 문자메시지 한 통을 붙들고 마음앓이하고 있을 전국의 썸남썸녀들. 이들을 위한 희소식이 있다. 바로 상대방이 쓴 글로 그 사람의 감정을 분석하는 것이다. 그런데 글을 통해 글쓴이의 감정을 분석하는 기술의 중심에 수학이 있다.
수학_고백_img1
출처 GIB
글쓴이의 마음을 알아내는 ‘감정 분석’
“알고 싶지만 도무지 알 수 없었던 썸남썸녀의 마음, 이제 OO이 알려 줄게요!”
이 문구는 한 회사의 광고다. 이 회사는 모바일 메신저의 대화 내용을 분석해서 상대방의 현재 감정 상태뿐만 아니라, 나에 대한 호감도와 친밀도, 애정도 등을 분석하는 서비스를 제공하고 있다. 현재 63만 명 이상이 애플리케이션을 내려 받아 사용하고 있다.
사람들이 이 애플리케이션에 열광하는 이유는 상대방의 감정을 알고 싶어 하는 것이 인간의 본성이기 때문이다. 상대의 감정에 따른 적절한 행동을 취할 때 사랑과 연애, 결혼에 성공할 수 있고 사회생활에서 원만한 인간관계를 유지할 수 있다. 이뿐만 아니라 국회의원과 대통령을 뽑거나, 소비자에게 상품을 팔 때도 유권자와 소비자의 마음을 헤아리는 것이 가장 중요한 요소다.
수학_얼굴표정_img3
출처 GIB
이 때문에 오래 전부터 과학자들은 사람의 감정을 알아내는 객관적인 방법을 찾기 위해 노력해 왔다. 그런 방법 중 하나는 얼굴 표정을 분석하는 것이다. 인간은 특정한 감정에 대응하는 얼굴 표정을 만들기 때문에, 얼굴 표정의 특징을 파악하면 그 사람의 감정 상태를 유추할 수 있다. 또 다른 방법은 생체 반응을 측정하는 것이다. 인간은 특정한 감정 상태에 따라 심장박동이나 호르몬 농도 등의 생체 반응이 나타난다. 긴장을 하면 심장 박동이 빨라지고, 식은땀이 나는 것처럼 말이다. 따라서 이러한 생체 반응의 특징을 측정하면 인간의 감정 상태를 유추할 수 있다.
이런 분석 방법에는 몇 가지 제약이 따른다. 우선 상대방의 몸에 미리 특수한 장비를 설치해야 한다는 점이다. 그리고 직접 대면한 상태에서 감정이 발생하는 순간에만 감정을 측정할 수 있다. 따라서 현재 감정만 판단할 수 있고, 과거의 감정은 측정 데이터를 가지고 있지 않는 한 알아낼 방법이 없다.
반면에 최근 들어 활성화되고 있는 ‘글을 통한 감정 분석’의 경우, 상대방이 자발적으로 기록한 글만 수집하면 손쉽게 과거와 현재의 감정 상태를 측정할 수 있다. 특히 오늘날은 인터넷과 소셜미디어를 통해 수많은 글이 전세계에서 실시간으로 올라오는 빅데이터 시대다. 따라서 이런 글들을 분석하면 특정한 사회 현상에 대한 긍정 혹은 부정적인 반응을 측정할 수 있다. 또한 기업은 인터넷과 소셜미디어에서 소비자들이 상품에 대해 언급한 글들을 모아서 분석할 수도 있다.
감정을 분석하는 수학 원리는 통계와 확률
감정 분석의 기본이 되는 수학 원리는 통계와 확률이다. 먼저 글이 나타내는 감정 상태를 긍정과 부정의 두 가지로 나눈다. 이때 긍정적인 글에는 긍정적인 의미의 단어가 많이 쓰이고, 부정적인 글에는 부정적인 의미의 단어가 많이 쓰일 것이라는 가정을 토대로 미리 구분해 놓은 긍정과 부정의 단어 집합을 이용한다.
수학_긍정부정_img2
출처 GIB
단어의 긍정과 부정 성향을 구분하는 데에는 ‘PMI(Point-wise Mutual Information)’라는 수학 모델이 쓰인다. 두 단어가 하나의 글에서 얼마나 자주 함께 사게 되는지를 계산하는 방식이다. 만약 두 단어가 긍정적인 의미의 글에서 자주 함께 등장했다면 긍정적인 성격을 띤다고 판단할 수 있다. PMI는 다음과 같은 수식으로 표현된다.
수학_공식_img5
*여기서 P(A)와 P(B)는 트위터 글이나 블로그 글 등 상대방을 분석하기 위해 모아 놓은 글에서 A 또는 B라는 단어가 출현한 확률이다. 반면 P(A∩B)는 A와 B 두 단어가 하나의 글에 함께 출현한 확률을 말한다.
단어의 긍정과 부정 성향을 구분하는 PMI 계산법
A를 ‘아름답다’, B를 ‘좋다’라는 단어라고 한다면 P(A)와 P(B)는 각각 ‘아름답다’와 ‘좋다’가 블로그와 트위터 등에서 나타난 확률을 말한다. 그리고 P(A∩B)는 분석 대상이 되는 글 중 특정한 하나의 글에 ‘아름답다’와 ‘좋다’가 함께 등장하는 경우의 확률을 말한다.
예를 들어 100개의 전체 글 중에서 A와 B 단어가 등장한 글이 각각 3개와 5개였고, 두 단어가 동시에 출현한 글이 하나였다면 P(A)=, P(B)=, 그리고 P(A∩B)=이 되는 것이다.
이때 A와 B 중에서 긍정과 부정으로 확실히 구분할 수 있는 단어가 있다면, 다른 한 단어가 긍정에 가까운지 부정에 가까운지는 다음과 같은 식을 통해서 계산할 수 있다. 예로 들었던 A와 B 중에서는 ‘좋다’라는 단어인 B가 긍정적인 단어이므로, B를 기준으로 A(아름답다)의 성격을 판단할 수 있다.
SO-PMI(아름답다)=PMI(좋다,아름답다)-PMI(나쁘다,아름답다)
만약 ‘아름답다’가 ‘나쁘다’라는 단어보다 ‘좋다’라는 단어와 더 많이 함께 사용됐다면, 위의 계산 결과는 양수가 된다. 즉, ‘아름답다’는 부정보다 긍정에 가까운 단어로 평가할 수 있다.
이제는 주식 투자도 감정 분석으로!
감정 분석은 이제 막 연구실 밖으로 발을 내디딘 첨단 연구 분야로, 최근에는 금융 분야에서 감정 분석을 적용하는 회사들도 속속 등장하고 있다. 주식을 사고파는 금융활동에서 사람들의 심리 상태가 중요한 변수로 작용하기 때문이다.
수학_주식투자_img4
출처 GIB
예를 들어 1987년 10월 19일 미국 주식시장에서는 하루 동안 주가 지수가 22.61%나 하락하는 충격적인 사건이 있었다. 몇몇 투자자들이 가지고 있었던 주가 지수 하락에 대한 불안감이 순식간에 많은 투자자들에게 확산되면서 일어난 일이었다. 금융계에서는 이 날을 검은 월요일이라는 뜻의 ‘블랙 먼데이’라고 부른다.
최근에는 이런 사태를 막기 위해 감정분석을 적용하고 있다. 대표적인 예로는 특정한 시점의 경제 관련 신문 기사를 모두 수집해서 주식 시장의 미래 상황을 전망하는 다양한 단어들을 추출하는 작업이 있다. 추출한 단어들이 나타내는 긍정 혹은 부정의 양을 평가해서 주식 시장에 대한 대중의 심리 상태를 알아내는 것이다.
이런 방법으로 감정을 분석하려면 단어의 뜻을 정확히 구분할 수 있어야 한다. 똑같은 단어라도 맥락에 따라 뜻이 다를 수도 있다. 특히 우리말에 담긴 감정을 분석하려면 우리말 단어에 대한 연구가 이뤄져야 한다. 실제로 우리말에서 감정을 표현하는 단어를 분류해 지도로 작성하는 연구가 이뤄지고 있다.
조만간 컴퓨터로 글을 쓰면 컴퓨터가 사용자의 감정을 알아내 적절히 대응하는 세상이 올지도 모른다. 철저하게 논리적이어서 감정과 무관해 보이는 수학이 감정까지 꿰뚫어보는 시대가 눈앞에 있는 것이다.
사이언스 조이

댓글 없음: