용된 기계 학습 기술은 데이터 부족, 모델의 범용성 부족 등으로 인해 실제로 적용되기 어려웠다. 그런데 최근 빅데이터의 등장과 이것을 분석하는 학습 알고리듬 개발, 하드웨어의 발전이라는 3박자가 맞아떨어지면서 딥러닝은 눈부신 성장을 하고 있다.
현재는 음성 인식, 영상 이해, 기계 번역, 정보 검색 등 인공지능과 관련된 거의 모든 분야에서 사용되고 있다. 사용방법도 어렵지 않아 어느 정도 숙련된 엔지니어라면 기계 학습에 특별한 지식이 없더라도 비교적 쉽게 인공신경망을 만들어 전문가 수준의 결과를 낼 수 있다는 것도 큰 장점이다.
예술가가 되기 위한 필수조건 : 좋은 눈
딥러닝은 학습 데이터가 충분하면 어떤 문제라도 해결할 수 있다. 인간 특유의 창의성을 필요로 하는 일에는 적용하기 어렵다는 반론이 있지만 최근에는 예술까지 그 범위를 넓혔다. 오른쪽 상단 그림이 바로 컴퓨터가 그린 그림이다. 이 그림을 어디서 본 것 같은 기분이 들지 않는가. 이 그림은 컴퓨터가 빈센트 반 고흐의 ‘별이 빛나는 밤’의 스타일을 차용해 풍경 사진을 다시 그린 것이다. 컴퓨터는 고흐 그림의 특징을 모델링하고, 이 모델을 이용해 어디서나 볼 법한 풍경을 고흐의 걸작으로 바꿔놓았다.
결과물은 놀랍지만 기술은 간단하다. 한 가지 전제조건만 보장되면 된다. 화가의 스타일을 학습하기 위해서 딥러닝이 적용된 ‘컴퓨터 비전(computer vision)’ 신경망을 인공지능이 학습하는 것이다. 컴퓨터 비전은 주어진 영상이나 이미지 데이터를 사람처럼 이해하는 기술이다(139쪽 INSIDE 참조). 예컨대 고양이 사진을 보여주면 컴퓨터가 그 사진을 고양이라고 스스로 인식하는 기술이 대표적이다. 처음부터 이 모델을 학습하는 것은 아주 어려운 일이지만 캐나다 토론토대의 ‘알렉스넷(AlexNet)’, 영국 옥스퍼드대의 ‘VGG넷’, 구글의 ‘구글넷’ 등과 같이 이미 공개된 모델 중 하나를 그대로 사용하면 된다.
고흐, 칸딘스키, 피카소가 컴퓨터로 환생
미리 학습된 신경망이 있다면 이제는 그것을 이용해 화가의 독특한 스타일을 배우고 그것을 따라 그려야 한다. 이를 위해 스타일을 모방할 화가의 작품 S와 해당 스타일로 변경시킬 사진 C를 입력해야 한다. 이 두 장의 이미지를 합성한 결과인 R이 출력물이다(S+C→R). 결과 이미지 R을 무작위로 초기화하고, R과 S, C를 비교해 오차를 줄이는 방향으로 조금씩 수정해 최종출력 이미지를 만든다. 이렇게 만든 이미지는 입력 이미지 두 장의 ‘성격’을 동시에 만족시켜야 한다. 성격이란 말이 모호하지만 간단히 말해 컴퓨터가 생각하는 이미지의 정체다. 이미지의 성격을 결정
하는 데 사용되는 것이 앞서 언급했던 딥러닝이 적용된 비전 신경망이다.
이를 위해 비전 신경망으로 S, C의 성격과 R을 비교해야 하는데 컴퓨터 예술의 핵심은 바로 이 비교 기술이다. 비교도 두 가지 방식으로 한다. S와 R을 비교할 때는 스타일에 초점을 맞춰서, C와 R을 비교할 때는 내용에 집중해 비교해야 한다. 우선 내용에 관련된 오차는 C와 R을 비전 신경망에 통과시켜 나온 값의 차이를 비교하는 것으로 충분하다. 스타일에 관한 오차를 계산하기 위해서는 S와 R을 각각 비전 신경망에 적용해 얻은 값의 상관관계(correlation)를 행렬 형식으로 저장한 뒤 이 두 행렬의 차를 계산한다. 이것이 스타일 차이다. 스타일 차이와 내용 차이의 합이 전체 오차다. 마지막으로 전체 오차를 결과 이미지 R에 대해 미분하고, 그 값을 이용해 R을 변경한다. 오차가 더 이상 감소하지 않을 때까지 이 과정을 반복하면 최종 결과물이 된다.
이런 과정은 요즘 스마트폰이 기본적으로 제공하는 ‘차가움’, ‘아련함’ 같은 사진 필터와 크게 차이가 없다. 컴퓨터 예술도 기본 내용인 C에 새로운 필터 S를 덮어씌우는 과정인 셈이다. 다만 단순한 필터가 아니라 예술가의 스타일을 모방해야 하기 때문에 딥러닝이 적용된 신경망을 중간매개체로 사용한 것이다. 과정은 단순하지만 그 결과물은 상상 이상이다. 상단 그림은 평범한 에펠탑 사진(C)이다. 여기에 뭉크, 피카소, 터너의 걸작(S)을 합성했을 때 얻은 결과(R)를 보자. 실제 화가가 그렸다고 해도 믿을 만큼 스타일이 비슷하고, 원래 내용도 잘 보존됐다.
고흐의 70% 만큼만 그려줘!
스타일의 유사성도 조정할 수 있다. 딥러닝에 사용되는 인공신경망은 수많은 뉴런이 층을 이루고 있는데, 여기서 얼마나 깊은 층의 이미지를 사용하느냐에 따라 지엽적인 스타일에 초점을 맞출지 전체적인 분위기에 중점을 둘지가 결정된다. 얕은 층을 사용하면 최종 결과 이미지가 내용을 충실히 보존하고 입력스타일이 매우 단편적으로 적용된다. 깊은 층의 출력을 사용하면 세세한 내용보다는 전체적인 형태만을 보존해 전체적인 느낌이 스타일 입력 이미지와 유사해진다. 이렇게 내용과 스타일의 중요도를 다르게 줘 거장들의 스타일을 원하는 만큼 따라할 수 있다.
거장 두 명의 스타일을 융합할 수도 있다. 꿈에서나 그리던 고흐와 뭉크의 콜라보레이션이 컴퓨터로 가능해진 셈이다. 방법도 간단하다. 스타일을 참고할 그림을 한 장 더 넣고, S1, S2, C 세 장의 그림을 합성하면 된다. 합성한 그림은 내용은 다르지만 두 예술 작품의 분위기를 오묘하게 조합한 새로운 예술작품처럼 보인다.
모두가 해내기 어려울 것이라고 생각했던 예술분야에도 인공지능이 진출하다니 분명 흥미로운 일이 다. 아직은 다른 예술가를 흉내내는 데 그치지만 그럼에도 과학자들 사이에서 많은 주목을 받고 있다. 무엇보다도 컴퓨터 비전을 연구하는 필자가 놀란 사실은 새로운 인공신경망을 학습하지 않고, 이미지 분류를 위해 이미 학습된 신경망을 그대로 가져다 썼다는 것이다. 이처럼 간단한 아이디어로 미처 생각하지 못한 영역까지 딥러닝의 적용 분야를 확대시킨 것은 ‘예술적이다’라는 말로 부족하다.
딥러닝 어디까지 갈까
컴퓨터 화가 아이디어는 창의적이지만 현재 딥러닝의 발전 상황을 고려할 때 높은 기술 수준이 필요한 것은 아니다. 그렇다면 딥러닝이 궁극적으로 어디까지 발전할 수 있을까. 언젠가는 내용과 스타일을 말로 설명 했을 때 원하는 그림을 그려주는 딥러닝 기술이 개발되지 않을까. 더 나아가서는 시나리오만 있으면 딥러닝을 이용해 영화를 제작하는 날도 오리라고 생각한다. 그런 날이 온다면 누구나 영화 감독이 돼, 마음에 드는 배우를 캐스팅할 수 있지 않을까. 현재도 이런 연구가 진행되고 있지만 아직은 걸음마 단계다.
인공지능은 지난 30년간 꾸준히 발전해 왔지만 인공지능이 정말로 미래를 이끌어나갈 핵심기술이라고 기대한 사람은 많지 않았다. 그저 먼 미래에 일어날 공상 정도로 가볍게 생각한 사람이 많았다. 하지만 딥러닝 기술이 나날이 발전하면서 과거에 불가능하리라 생각했던 문제를 하나씩 해결하고 있다. 영화 ‘터미네이터’의 ‘스카이넷’처럼 인공지능이 인류를 위협할 수 있다는 예측마저 나오고 있는 실정이다. 노동분야에서는 과학기술, 특히 소프트웨어 기술의 발달로 단순 노동 시장에서 사람의 역할이 점점 줄어들 것이라는 예측이 이미 있었다. 하지만 창의적인 사고로 새로운 작품을 만들어 내야 하는 예술 분야에 컴퓨터가 뛰어들 거라고 생각한 사람은 많지 않았다. 조만간, 우리가 컴퓨터 화가의 그림을 감상하러 미술관에 들러야 할지도 모르겠다.
댓글 없음:
댓글 쓰기