박재천의 디지털경제 이야기 <44> 2024 노벨 물리학상 설명(2); 볼츠만 네트워크 본문듣기
작성시간
관련링크
본문
사람의 경우 어린 아이들도 동물을 가리키며 자신있게 개, 고양이, 또는 다람쥐라고 말할 수 있다. 세부적인 설명이 없이도 이러한 것을 배울 수 있다. 각 동물을 몇 번 보고나면, 구별할 수 있다. 자신을 둘러싼 환경을 경험하면서 고양이를 인식하거나, 단어를 이해하거나, 방에 들어가서 뭔가 바뀌었다는 것을 인지하게 된다.
홉필드가 연관 기억과 홉필드네트워크에 관한 연구를 발표할 때, 제프리 힌턴은 미국 피츠버그에 있는 카네기 멜론 대학교에 있었다. 영국과 스코틀랜드에서 실험 심리학과 인공지능을 연구했던 그는, 기계가 인간처럼 패턴을 인지하고 정보를 분류하기 위한 카테고리를 ‘스스로 찾아낼 수 있는지’ 궁금해 하고 있었다. 이러한 연구를 진전 시키기 위해, 동료 테렌스 세이노프스키와 함께 통계물리학의 아이디어를 활용해 홉필드 네트워크를 진전시켜 새로운 모델을 만들었다.
통계 물리학은 기체 내의 분자와 같이 많은 요소로 구성된 시스템을 설명한다. 기체 내의 개별 분자를 추적하는 것은 어렵거나 불가능하지만, 집합적으로 특정 패턴을 발생할 확률을 분석할 수 있다. 집합적 성질과 상태는 에너지의 양에 따라 달라지며, 19세기 물리학자 루트비히 볼츠만의 방정식으로 설명되는 것이다. 힌턴은 이 방정식을 활용하여 1985년 ‘볼츠만 기계’를 발표한다.
홉필드네트워크가 가시노드 만의 네트워크라면 볼츠만 기계는 두 가지 유형의 노드를 사용하여 작동한다. 정보를 입력 받는 그룹은 가시 노드(visible nodes)라고 불리고, 다른 노드들은 숨겨진 층(hidden layer)을 형성한다. 숨겨진 층은 보이지 않는 개념적 특성(abstract feature)을 찾아내기 위해 인위적으로 설정된 것이다. <그림>
볼츠만 기계가 생성해내는 패턴들은 볼츠만의 방정식에 따라 네트워크의 에너지에 의해 결정되는 특정한 확률을 가지게 된다. 홉필드네트워크의 기억(패턴)이 정해진 것이라면, 볼츠만기계의 기억(패턴)은 확률적인 것이다. 확률적 기억은 회상 할 때 이런 저런 생각이 관련하여 생성되는 것을 모사할 수 있다. 이러한 기능에 의하여 볼츠만 기계는 생성 모델(generative model)의 조상으로 간주되고 있다. 즉, 기억된 패턴의 특징을 요소로 갖춘 다른 패턴을 생성할 수 있어 창작이 가능한 것이다.
볼츠만 기계는 지시가 아니라 ‘예제를 통해 학습’한다는 점이 특별하다. 네트워크의 연결값을 업데이트하여, 가시 노드에 입력된 예제 패턴이 발생할 확률을 최대한 높이는 방식으로 학습이 이루어진다. 훈련에 의하여 동일한 패턴이 여러 번 훈련(학습)할수록 훈련된 예제와 유사한 패턴을 생성할 확률이 높아진다.
훈련(학습)된 볼츠만 기계는 이전에 본 적이 없지만 어쩐지 친숙한 특성(feature)을 인식할 수 있다. 친구의 형제를 만났을 때 뭔가 비슷하다는 것을 알 수 있는 것과 같다. 이렇게 볼츠만 기계는 유사성을 인식하고, 다름도 구별할 수 있다.
초기 볼츠만 기계는 효율성이 낮고 계산하는데 오랜 시간이 걸렸다. 그렇지만 여러 가지 방식으로 개발되면서 더욱 발전했다. 일부 필요 없는 연결이 제한되어 슬림화 되었고 효율성이 더욱 높아질 수 있었다.
<그림>에서 설명하고 있는대로 제한 볼츠만 기계로 네트워크를 층으로 쌓아 사전훈련(pretraining)하는 방법이 2006년 힌튼에 의해 개발되어 이미지 인식을 최적화하는 방법이 도입되었다. 또, 1986년에는 힌튼과 함께 David Rumelhart과 Ronald Williams 등이 "Learning representations by back-propagating errors" 논문을 발표하여, ‘역전파 알고리즘’이 대중화 되는 계기가 만들어졌다. 이를 통해, 딥러닝 신경망을 효과적으로 학습시킬 수 있는 돌파구가 마련됬다.
<ifsPOST>
댓글목록
등록된 댓글이 없습니다.