소리(sound)의 장벽을 돌파하다 본문듣기
작성시간
관련링크
본문
MIT 연구팀, 사운드를 만들어 내는 AI 기술 개발에 성공
지능정보(AI)가 소리라는 장벽을 돌파하는 쾌거를 올렸다. 미국 매사츄세츠 공과대학(MIT) 연구진은 소리가 없는 비디오 클립을 시청(watch)하고 나서 대부분의 인간 시청자들이 그것이 컴퓨터로 생성된 것인지 여부를 판별해 내지 못할 정도의 확신을 주는 수준의 AI 시스템을 개발하는 데에 성공했다.
MIT의 Computer Science 및 AI 연구소는 동 연구소에서 개발한 “심층 학습(Deep Learning) 알고리즘”은 소리가 실제의 것과 구별이 되지 않을 정도의 것이라는 것을 실험하는 소리에 대한 “Turing Test”을 통과했다고 발표했다.
(주; “Turing Test”란, 컴퓨터와 지능 실재 여부를 판정하는 테스트로써, 인간이 두 상대방(기계와 인간)에 똑 같은 질문을 하여 응답자가 기계인지 인간인지를 구별하는 방법으로, 구별할 수 없는 경우에는 그 기계는 지능이 있다고 판단하는 개념)
시각적으로 나타내는 시스템(Vis; Visually Indicated System)은 막대기로 낙엽, 물, 흙, 쇠 등 여러 종류의 부드럽거나 딱딱한 많은 물체들을 두드리거나, 긁거나, 찌르거나 해서 만들어지는 소리를 분석하도록 훈련을 받았다.
연구자들의 말에 따르면, 앞으로 Vis 레퍼토리는 다른 수 많은 물체들의 조합으로 확대될 수 있을 것이라고 한다. 예를 들면, 장래의 버전은 영화나 TV에서, 빗 소리를 만들기 위해 소금 가루나 알루미늄 호일을 떨어트리는 전통적인 방법으로 만들어 내는 것보다 훨씬 더욱 실제와 같은 소리 효과를 만들어 낼 수 있을 것이다.
이 프로젝트 리-더인 Andrew Owens씨는 더욱 중요한 응용은 로봇들로 하여금 대상 물체들의 물리적인 특성을 인식하여 그들이 자신들의 주위와 보다 원활하게 상호작용을 할 수 있도록 하는 분야에서 도움을 줄 수 있을 것이라고 말한다. 이 프로젝트는 이달 하순 라스베가스에서 열리는 연례 Computer Vision and Pattern Recognition 학회에서 보고할 예정이다.
Owen씨는 “로봇은 보도를 바라보고는 시멘트는 딱딱하고 잔디는 부드럽다는 것을 인지하고 그래서 만일 그들 위로 올라서면 무슨 일이 일어날 것인지를 알게 될 것이다” 고 말한다. “소리를 판별해 낼 수 있게 된다는 것은 세상에서 물질적인 상호작용(physical interaction)의 결과를 예견할 수 있게 되도록 나아가기 위해서 대단히 중요한 첫 걸음이 될 것입니다”.
MIT 팀은, Vis에게 드럼을 치는 막대기로 다양한 상황 하에 있는 물체들을 두드리거나 물체들 속에서 움직여서 나오는 46,000개의 소리들을 포함하는 1,000개의 비디오를 입력함으로써 훈련시켰다. 그렇게 함으로써 컴퓨터로 하여금 방대한 수량의 데이터 속에 있는 패턴을 발견해 낼 수 있게 하여 “심층 학습 알고리즘”은 사운드를 분해해 냈다.
Vis는 소리가 없는 필름 클립으로부터 새로운 소리를 서술해 내기 위해서 각 비디오 프레임들이 가장 잘 조합될 수 있는 오디오 실체를 찾아내서는 그들을 하나의 통합된 고유한 소리로 엮어 낸다.
Vis는 스타카도 탶(staccato tap)으로부터 풀잎 사이를 부드럽게 스치며 지나가는 소리에 이르기까지 빠르고 느린 사운드의 특성들을 시뮬레이션 할 수 있다. 또한, Vis는 쿠션에 떨어지는 낮은 피치의 소리에서부터 난간에 떨어지는 높은 피치의 부딪치는 소리까지 소리의 높낮이를 조절할 수 있다.
연구자들은 인간 청취자들의 사운드에 대한 사실성(realism)을 실험하기 위해 400명에 달하는 인간 청취자들로 하여금, 비디오 클립을, 한 번은 실제 소리를 같이 들으며 보게 하고, 한 번은 Vis 버전의 소리를 함께 들으며 보게 하는 방식으로 두 번 보게 하고 나서는 그 결과를 조사했다.
만일, Vis가 만든 사운드가 실제 사운드와 구분을 할 수 없을 정도라면 그들은 절반 정도의 횟수를 선택했을 것이다. 실제로는, 아주 신뢰할 만한 수준인 40% 정도의 스코어를 달성했다.
시스템은 가령 나무나 금속을 때릴 때 나오는 소리처럼 사운드가 맑고 예리한 경우에 성공 실적이 가장 나빴다. 반면에, 낙엽이나 흙을 보다 길게 끌어서 나오는 부드러운 소리를 만들어 내는 데에 가장 성공적이었다. 시스템은 가끔은 막대기가 목표물에 닿기 직전에서 정지하는 경우 등에는 환각(幻覺)을 일으켜서(hallucinates) 실수를 하기도 했다.
Owen씨는 지금, 명확한 시각적인 단서(clue)를 주지 않고도 사운드를 시뮬레이션을 할 수 있게 되는 꿈을 꾸고 있다. 그는 “부드러운 바람이 부는 것으로부터 Laptop이 울리는 소리까지, 어떤 순간에도 우리들 주위에는 우리들이 실제로 찾지 않는 수 많은 소리들이 있습니다. 정말로 흥분할만한 것은, 어쨌든 시각적인 것과 별로 연계되지 않은 사운드를 시뮬레이션 할 수 있다는 점이다” 고 말한다.
(Financial Times, June 13. 2016)
* 해설; 최근 국내외를 막론하고 AI(인공지능 혹은 지능정보) 산업 분야에 대한 관심이 고조되고 있다. 동시에, 이제는 AI 기술을 실제 생활에 응용하는 방도를 개발하는 데 많은 노력을 경주하는 기업들이 앞다투어 신제품 개념을 발표하고 있다. 그 중 가장 흥미로운 것 중 하나가 일본에서 개발하고 있는 소위 “반려 로봇(companion robot)”일 것이다. 이 로봇을 개발하고 있는 기업 측은 이 제품이 ‘차위 수준의 의식(subconscious)’을 가지고 상호 대화를 나눌 수 있는 수준이라고 주장한다. 상상하기로, 이러한 기능을 탑재한 로봇이 옆에 있다면 빠르게 다가오는 고령화 사회의 가장 큰 문제인 노인층 인구의 말년의 외로운 생활에 아주 유익한 말 벗이 되어 줄 수도 있지 않을까, 하는 생각이다. 한 AI 전문 기업이 제시하는 장래의 AI 적용 가능 우선 분야는 법률 서비스, 재무 서비스, 건강 관리, 자동차, 정부 부문 등 부문을 망라한다. 바야흐로 개인들의 일상 가정생활뿐만 아니라 기업의 기본적인 업무 활동을 포함하여 거의 모든 분야의 일상 업무에 이르기까지 AI가 채용되는 환경이 성큼 다가온 느낌이다. 이세[돌 기사를 일방적으로 무찌른 알파고 바둑왕의 기막힌 재능에 탄복하고 있을 틈이 없는, 그야말로 눈이 휘둥그레질 만한 발전 페이스이다. 가히 4차 산업혁명이 본격 태동하고 있다는 실감이기도 하다. (S.K.)
댓글목록
등록된 댓글이 없습니다.