2017년 11월 28일 화요일

수학과 뉴스 요약 시스템

바야흐로 수학의 시대이다. 수없이 다양한 분야에서 수학의 맹위는 식지 않고 있다. 매일 우리는 스마트 폰으로 수많은 정보를 읽고 검색한다. 수없이 쏟아져 나오는 방대한 양의 뉴스를 매시간 확인하면서 정보에 뒤쳐지지 않게 우리는 너무나 많은 시간을 낭비하는 것 같다. 이러한 정보를 조금은 간단하게 요약해서 볼 수 없을까? 우리가 매일 보는 뉴스를 한 번 분석해 보자.
뉴스의 구조
뉴스는 어떤 구조를 가지고 있을까? 뉴스는 텍스트로 이루어져 있다. 텍스트는 인간의 언어를 문자화한 것으로, 무작위적인 입력에 의해 구성된 내용이 아니다. 이것은 형태소들을 나열한 것으로, 의사를 전달하기 위해 언어가 가진 문장 구성 법칙을 따라 구성한 문장이다. 따라서 뉴스의 구조를 분석하는 것은 이러한 형태소들의 나열에서 어떤 특징을 추출해 내는 것과 같은 것이 될 수 있다. 형태소에는 명사, 보조사 등의 여러 종류가 있고, 이 중 우리가 직접적인 정보를 얻을 수 있는 형태소는 명사이다. 이 명사를 통해 뉴스의 구조를 알아보자.
네트워크 이론
구조를 보는 방법 중 하나는 네트워크 이론을 사용하는 것이다. 네트워크는 점들을 선으로 연결한 간단한 형태를 말한다.
예를 들어, 울산에 전봇대가 어떻게 세워져 있는지 그 구조를 알고 싶다고 하자. 전봇대의 위치를 점으로 생각하고 전깃줄을 선으로 생각하여 도식화한다면 쉽게 그 구조를 알 수 있다. 이렇게 어떤 사물을 단순히 점과 선으로 구성하여 보는 것을 네트워크 또는 그래프라고 한다. 네트워크를 분석하기 위해 그 동안 많은 연구들이 이루어졌으며 물리학, 생물학, 사회 과학 등에서 중요한 분석도구로 큰 힘을 발휘하고 있다.
울산의 전봇대를 다시 한 번 생각해 보자. 전봇대의 구조를 분석하기 위하여 네트워크를 만들었다면 이것으로 우리는 무엇을 할 수 있을까? 네트워크에서 어떤 부분이 다른 부분보다 점들과 점들이 보다 복잡하게 연결되어 있다고 한다면 이는 다른 부분보다 전기를 많이 쓰는 부분임을 알 수 있다.
즉, 인구가 많다거나 산업체가 집중된 지역임을 짐작할 수 있다. 따라서 네트워크에서 선의 연결 개수에 따라 각 점의 중요도가 관계있음을 알 수 있다. 이렇게 각 점에서 이어진 선의 개수를 이용하여 점의 중요도를 측정하는 것을 도수 중심성(Degree Centrality)이라 부른다. 도수 중심성이 높을수록 중요한 점이라고 생각하는 것이다.
여기서 자연스럽게 떠올려 볼 수 있는 질문은 선의 개수에 대한 것이다. 선이 적게 연결되어 있으면 정말 중요성이 떨어질까?
매개 중심성 (Betweenness Centrality)
1996년 여름, 미국 서부 지역 11개 주에 정전이 발생했다. 전력망 전체에서 하나의 노드가 고장 나자 처리되지 못한 과잉전류가 연쇄적으로 송전선과 발전기에 전달되어 전체 시스템을 마비시켜 버린 것이다.
선의 개수가 작은 점이라도 그 점이 가진 영향력이 네트워크 전체에 영향을 준다면 그 중요성을 선의 개수가 아닌 다른 관점에서도 바라봐야 할 것이다.
예를 들어 그림 1과 같은 네트워크를 생각해 보자.
그림 1. 네트워크 ⓒ 장봉수
그림 1. 네트워크 ⓒ 장봉수
 그림 1에서 가운데 빨간 점은 연결된 선의 개수는 두 개 뿐이지만 왼쪽 부분의 점들과 오른쪽 부분의 점들을 연결하는 통로로 작용한다. 이 점이 사라지면 양 쪽을 연결하는 유일한 선이 사라지는 것이다. 이러한 점에 착안하여 우리는 그 중요성을 측정해 볼 수 있다.
매개 중심성(Betweenness Centrality)은 네트워크에 존재하는 모든 최단 경로에 대해 각 점이 얼마나 많이 그 경로에 속하는지를 나타낸다. 연결된 선의 개수가 적더라도 이 점이 최단 경로에 많이 속하는 만큼 계산되는 값은 커진다.
그럼 매개 중심성 값이 큰 점은 어떤 역할을 할까? 이런 점은 어떤 정보의 교류를 막을 수도 있고, 정보를 다양한 경로로 퍼뜨릴 수도 있다. 이것을 수학식으로는 다음과 같이 나타낼 수 있다.수학뉴스 수식 1여기서 ①는 점 i가 갖는 매개중심성이고, ②는 점 s에서 점 t로 가는 가장 짧은 경로에 점 i가 놓여 있으면 1의 값을 가지고 그렇지 않으면 0을 갖는 변수이다.
뉴스수학 수식 3
이 식에 따라 값을 계산하고, 매개 중심성이 높을수록 붉게 색칠하면 그림 2와 같이 나타낼 수 있다.
그림 2. 매개 중심성으로 색칠한 네트워크  ⓒ 장봉수
그림 2. 매개 중심성으로 색칠한 네트워크 ⓒ 장봉수
이와 같이 어떤 중심성 계산을 통해 우리는 각 점이 갖는 중요성을 계산하고, 특히 매개 중심성을 통해 구조의 특성을 유추해 볼 수 있었다. 이번에는 각 점이 아닌 네트워크 전체를 바라보는 관점에서 구조를 살펴보자.
작은 세상 효과와 척도 없는 네트워크
뉴스 본문에서 명사를 점으로 정의하고, 한 문장 안에 나타나는 명사들을 선으로 연결하자. 이것을 한 문장에서 나타나는 단어의 동시 출현성(co-occurrence)이라고 부른다.
이렇게 구성된 네트워크는 크게 두 가지 특성을 가진다. 첫 번째는 작은 세상(small world) 효과이다. 작은 세상은 두 단어 사이의 최단 경로를 모두 구하여 그것을 평균한 값이 매우 작다는 것을 의미한다.
두 번째는 척도 없는(Scale free) 도수의 분포이다. 2차원 평면에서 x축을 도수 k로 두고, y축을 도수 k를 갖는 노드의 확률 P(k)라 두었을 때, 그 분포가 다음과 같은 식을 따른다는 사실을 알 수 있다.
수학뉴스 수식 2여기서 ③이 2와 3 사이의 값을 가지면 우리는 이 네트워크가 척도 없는 네트워크라고 부른다. 기존 연구된 문헌에 따라 뉴스의 단어 네트워크 역시 이 두 가지 특성을 따른다는 것을 알 수 있으며, 이를 통해 우리는 다음의 두 가지 사실을 알 수 있다.
수학뉴스 수식 4
1. 단어들이 높은 확률로 서로 연결되어 있다.
2. 도수가 높은 단어가 매우 적게 존재한다.
뉴스의 구조를 알아보기 위해서 명사를 점으로 생각하고 문장 안에 있으면 선으로 연결한 네트워크를 구성하여 구조적인 성질을 알 수 있다.
하지만 뉴스를 요약하기 위해서는 이러한 네트워크의 구조적인 성질 및 중심도의 활용뿐만 아니라 수학의 다양한 분야(선형 대수학, 퍼지 이론, 확률론 등)을 활용한 연구도 필수적이다. 또한 무엇보다 우리가 사용하고 있는 국어가 가지는 여러 가지 특징(문장, 형태소등)의 적용이 매우 중요하다.

ScienceTimes

댓글 없음: