열려있는 정책플랫폼 |
국가미래연구원은 폭 넓은 주제를 깊은 통찰력으로 다룹니다

※ 여기에 실린 글은 필자 개인의 의견이며 국가미래연구원(IFS)의 공식입장과는 차이가 있을 수 있습니다.

빅데이터 분석으로 본 2022년 대선 본문듣기

작성시간

  • 기사입력 2022년02월06일 17시10분

작성자

  • 김형준
  • 배제대학교 인문사회대학 석좌교수(정치학),전 한국선거학회 회장

메타정보

  • 0

본문

데이터는 거짓말을 하지 않는다

 

대통령 선거일이 한 달여 앞으로 다가왔다. 설 민심이 분수령이 될 것이라는 전망들이 많았다. 설 민심의 최대 화두는 ‘정권연장’이냐 ‘정권교체’냐로 집약되는 가운데 민생, 코로나 방역, TV토론, 야권 후보 단일화 등이 거론됐다. 누가 이번 대선에서 최후 승자가 될까? 

 

선거 결과를 예측하는 방법은 크게 전통적인 여론조사 방식과 빅데이터 분석 방법이 있다. 빅데이터 분석은 세대와 성별, 지역 등에 따라 표본 추출을 하는 여론조사와는 달리 온라인에 올라온 텍스트만 분석한다. 지난 2016년 미국 대선에서 거의 모든 조사기관에서 민주당 힐러리 후보가 낙승을 거둘 것으로 전망했다. 선거 당일 모 언론사에서는 힐러리 후보의 당선확률을 91%로 예상했을 정도였다. 그러나 결과는 공화당 트럼프 후보의 당선으로 막을 내렸다. 

 

그런데 빅 데이터는 '트럼프 당선' 알고 있었다. 구글 트렌드 검색률에서 트럼프가 힐러리를 시종일관 압도한 것을 토대로 내린 예측이었다. 당시 트럼프 당선을 예측한 세종대 우종필 교수는 여론조사의 근본적 한계를 짚었다. 

 

“투표하는 미국 유권자가 1억2000만~1억3000만명 정도라고 했을 때 1000명 내외를 대상으로 한 여론조사는 유권자의 0.00001%를 조사하는 것”이라며 “이런 표본오차가 결국 선거 결과를 잘못 예측하게끔 한다”고 풀이했다. 그는 “빅데이터는 그렇지 않다”고 단언했다. 이어 “하루에도 수십만명의 유권자가 스스로도 모르는 새 자신의 표심을 빅데이터에 쏟아내고 있다”면서 여론조사보다 빅데이터가 유권자 의 속마음을 정확히 파악한다“는 주장했다. 

 

그렇다고 미국 여론조사가 틀린 것은 아니다. 전체 득표수에서 힐러리는 트럼프보다 200만표 이상을 더 얻었기 때문이다. 우리가 이해하기 힘든 미국만의 독특한 선거인단 제도로 인해 힐러리는 다수표를 얻고도 선거인단 수에서 뒤진 탓에 대통령이 되지 못했다. 

 

지난 2017년 한국 대선서부터 빅 데이터 분석을 통한 선거 예측이 시도되었다. 필자는 빅 데이터 전문 기관 타파크로스(Tapacross)와 JDP 빅 데이터 연구소와 함께  빅데이터 분석을 통해 문재인 후보의 당선을 예측했다. 당시 여론조사에서 줄곧 3위를 달리던 자유한국당 홍준표 후보가 안철수 후보를 제치고 약 25%의 득표로 2위를 차지 할 것이라는 것도 예측했다. 심지어 반기문 후보의 사퇴 결정을 사전에 빅데이터 흐름을 통해 전망하기도 했다. 

 

올해 설 연후 직전에 실시된 각종 여론조사 결과, 민주당 이재명 후보와 국민의힘 윤석열 후보가 초 접전 양상을 보이고 있다. 한국갤럽(1월 25∼27일) 조사에서, 이재명·윤석열 후보는 35%로 같았다. 서던포스트․CBS 조사(1월 28-29일)에선 이재명 33.0%, 윤석열 32.5%였다. 설 연휴 마지막 날일 2월 2일 쿠키뉴스․한길리서치가 실시한 차기 대통령 선호도를 조사한 결과, 이재명 후보 40.4%, 윤석열 후보 38.5%로 접전이 계속되었다. 

 

초박빙 상황의 빅데이터 분석 "매우 유용" … ‘타파크로스’의 진단 내용은?

 

이런 초박빙의 상황에서는 빅데이터 분석은 여론조사와 함께 선거 결과를 정확하게 예측하는데 크게 기여할 것으로 보인다. 타파크로스(Tapacross)는 작년 10월 초부터 올해 1월 초(2021. 10.01 - 2022. 01. 05)까지 매스미디어, 트위터, 페이스북, 불로그, 커뮤니티에서 나타난 약 8백만(8,285,892)건의 자료를 통해 여야 우력 대선 후보인 민주딩 이재명 후보와 국민의힘 윤석열 후보에 대해 분석했다. 국민의당 안철수 후보는 작년 12월 초부터 분석했다. <[타파크로스] 주요 여야양당 대선주자 리서치 보고서 : https://ifs.or.kr/bbs/board.php?bo_table=research&wr_id=867>  ​

이번 빅데이터 분석을 통해 확인된 의미 있는 사항들은 다음과 같다. 

 

첫째, 분석 기간 내 전체 온라인 관심도는 이재명 후보 69%, 윤석열 후보 31%로 이재명 후보가 2배 이상 높았다. 윤 후보 부인 김건희 씨 관련 이슈와 선대위 해산(1월5일) 등으로 윤석열 후보와 연관된 다수의 논란이 쟁점화 되면서, 양 후보 간 온라인 담론 비중 격차가 다소 감소하는 경향을 보였다.(타파크로스 분석 자료 3쪽 참조)  

 

둘째, 윤석열 후보의 선대위 운영과 관련해 신지예 대표 영입과 사퇴, 김종인 총괄선대위원장과의 결별과 선대위 해산 등이 논의된 12월 말부터 국민의 당 안철수 후보가 윤석열 후보를 대체할 통합 보수진영 후보로 거론되면서 온라인 관심도가 전 후 약 3.1%p 증가했다.  이 기간 각종 여론조사에서 안철수 후보의 지지도가 두 자릿수로 수직 상승했다.

 

<그림 1>

b6ff490def314480a408aea8913eb1ae_1644025
셋째, 여·야 양당 대선후보 온라인 채널별 관심도를 보면, 호불호 표현 의사가 용이한 트위터 담론이 과반 이상을 차지했다. 이 후보의 경우, 트위터가 차지하는 비중이 86%, 윤 후보는 72%였다. 그런데 지지와 반지지 세력 간 의견이 명확한 이재명 후보는 다양한 논란에 각 세력 내 각자의 의견을 피력하는 커뮤니티가 차지하는 비중은 6%인 반면 윤석열 후보의 경우 그 비중이 12%로 비교적 많았다.

 

넷째, 이 후보 전체 호감도는 31%였고, 윤 후보는 30%였다. 특히 선대위 해산과 관련해 윤석열 후보에 보수층 내 리더십 부재에 대한 불만과 동정 여론이 나뉘는 양상과 함께 동정 여론으로 호감도가 다소 증가했다. 이는 각종 여론조사에서 나타난 흐름과 크게 다르지 않았다.  

 

<그림2>

b6ff490def314480a408aea8913eb1ae_1644025
 

다섯째, 양 후보 모두 공약 및 정책 관련 담론보다 후보와 연관된 각종 의혹과 논란으로 이슈 및 관련 인물에 관심이 확산되는 경향을 보였다. 이 후보의 경우, 대장동 사건과 후보 개인 친인척 의혹과 관련한 논란으로 관련 이슈 및 인물에 관한 주제가 가장 많이 언급되었다. 반면,  윤 후보는 부인 김건희 씨와 선대위와 연관해 김종인, 이준석과 다수 언급되며 주변 인물과 이슈가 가장 많이 거론되는 것으로 나타났다.

 

각 후보 별 주요 이슈 발생 기간 내 상위 연관어를 분석한 결과, 각 기간별로 의혹이나 논란이 발생한 사건이 중점적으로 이야기됐으나, 이재명 후보의 경우 대장동 사건, 윤석열 후보의 경우 부인 김건희 관련 이슈가 진행상황과 새로운 정보가 알려짐에 따라 기간 내 꾸준히 재환기되는 경향이 보였다. 12월 이후 각 후보와 함께 안철수 후보가 자주 언급되며, 온라인상 주요 대선후보에 안철수 후보 포함 3인 구도로 온라인 여론의 인식 전환 흐름이 나타났다.

 

여섯째, 후보 개인과 연관된 상위 감성어를 기준으로 후보 이미지를 분석한 결과, 이재명 후보의 경우 개인의 업무수행 능력에 관한 다수의 긍정 감성어가 상위에 포진되며 긍정적인 인물 이미지를 견인했다. 한편, 윤석열 후보의 경우 강하고 혁신적인 리더십을 기대하는 긍정 감성어가 두드러지며 긍정적 이미지 구현에 영향을 미쳤다. 다만, 윤 후보는 후보 개인의 자질 부족 논란과 리더십 부재로 인한 동정적 이미지가 더해져 다소 부정적으로 인식되는 경향이 있다. 이재명 후보의 주요 이슈발생 기간 이미지 변화를 분석해보면, ‘유능한 업무적 자질’이 42%로 가장 많이 나왔다. 그 다음으로 ‘직무 책임과 신뢰성’(26%), 개인 자질 우려(12%), ‘개인 인성 우려‘(6%) 순으로 나타났다. 한편, 윤 후보의 경우, ’개인 자질 우려‘가 34%로 가장 높았다. 그 다음으로 ’강하고 새로운 리더 이미지‘(29%)가 뒤를 이었다.  (타파크로스 분석 자료 9쪽 및 10쪽 참조)  

 

이상의 빅데이터 분석을 통해 향후 대선 전망과 관련 몇 가지 함의를 잡아낼 수 있다. 무엇보다 언급량과 관심에서 압도적인 우위를 보이고 있는 이재명 후보의 잠재력이다. <아래 그림 3>은 지난 2016년 미국 대선 당시 구글 트렌드에서 나타난 관심도 변화 흐름이다.       

 <그림3>

b6ff490def314480a408aea8913eb1ae_1644025
 

힐러리 후보는 단 한 번도 트럼프 후보를 검색률로 이긴 적이 없다. 이는 그만큼 유권자들이 힐러리에게 관심이 없다는 표현이기도 했다. 당시 트럼프에 대한 비호감도는 힐러리에 비해 훨씬 많았지만 결국 트럼프가 승리했다. 

 

타파크로스 뿐만 아니라 다른 빅데이터 분석에서도 이재명 후보의 관심도가 높게 나타나고 있다. <아래 그림 4>는 뉴스ㆍ커뮤니티ㆍ블로그 등 온라인 텍스트상에서 일어나고 있는 민심 동향을 추적해 분석한 JTBC․빅데이터랩의 후보 관심도 추이 분석이다. 이재명 후보 관심 지수는 다소 높게 나오고 있다는 것이 확인되고 있다. 윤 후보 측은 이런 추세를 결코 무시해서는 안 된다. 

 

<그림 4>

b6ff490def314480a408aea8913eb1ae_1644025
 

2016년 美대선, 빅데이터가 찾아낸 ‘샤이 트럼프’가 승패 갈랐다

 

지난 2016년 미국 대선에서 자주 언급되고 관심을 끈 것은 “샤이 트럼프”의 존재 여부였다. ‘샤이 트럼프‘란 여론 조사에서 트럼프 지지 의사를 숨기다가 대선에선 트럼프에 투표하는 사람’을 지칭했다. 당시 여론조사에선 이런 ‘샤이 트럼프’를 잡아내지 못했지만 빅데이터에서는 찾아냈다. 특히, 저소득, 저학력 백인층에 많이 숨어 있었다. 

 

지난 2017년 한국 대선에서도 “샤이 홍준표” 존재 여부가 쟁점이었다. 당시 여론조사에선 1위와 2위는 문재인 후보와 안철수 후보였지만 대선에서 ‘샤이 홍준표‘에 힘입어 홍준표 후보가 안 후보(21.4%)를 제치고 2위(24.0%)를 차지했다. 여론조사에서는 잡히지 않았던 숨어있던 ’샤이 보수층‘이 선거 막판에 홍 후보를 지지했기 때문이다. 

 

현재 ‘5%정도 ‘샤이 이재명’ 표 존재 개연성 높아…'야권 후보 단일화'가 확실한 ‘정권교체’ 카드

 

현 시점에서 약 5% 정도의 ‘샤이 이재명’ 표가 숨어 있다는 추론이 가능하다. 이재명 후보는 호남에서 약 60% 정도 지지를 받고 있다. 역대 대선에서 나타난 추이를 분석해보면 선거 막판에 이 후보는 호남에서 최소 80% 정도를 득표할 수 있다. 현재 각종 여론조사에서 이 후보는 약 40% 초반의 문재인 대통령 국정 운영 지지도에도 못 미치고, 대통령 직무 긍정 평가자에서 약 70% 정도 밖에 지지를 받지 못하고 있다. 약 200만~300만명으로 추산되는 강성 친문 지지층이 아직 이 후보에게 마음을 주지 않고 있다는 방증이다. 그런데 이들은 막판에 ‘정권교체를 막아 퇴임하는 문재인을 지키기 위해 결국 이재명을 찍을 수밖에 없다. 

 

빅데이터 분석 결과, 이재명 후보에 대한 관심도가 윤석열 후보보다 2배 이상 많고, 윤 후보에 대한 ’개인 자질 우려‘가 상당히 높으며, ‘샤이 이재명’이 존재할 개연성이 크다는 것은 정권교체를 추구하는 세력에게는 큰 위험 신호라 할 수 있다. 이번 빅데이터 분석이 던지는 가장 중요한 함의는 야권이 진정 5년 만에 정권을 확실히 교체하려면 후보 단일화를 통한 연대가 최상의 방안이라는 것이다. 

 

현 시점에서 조선일보 홍영림 여론조사 전문기자의 통찰력을 깊이 고찰해볼 필요가 있다. “1987년과 2017년 등 역대 대선에선 후보 단일화 필요성이 제기됐지만 결국 불발된 쪽이 필패(必敗)했다. 윤 후보와 안 후보 측은 여전히 야권 연대에 손사래를 치며 ‘독자 승리’를 외치고 있다. 야권이 연대만 하면 이긴다는 건 착각이지만, 연대를 안 해도 이긴다는 건 더 큰 착각이다.” 

 

여야 유력 후보 “대한민국을 어떻게 이끌어 갈지 국가적 이슈가 없다”

 

이번 대선에서 나타난 이례적인 현상의 중의 하나는 여야 유력 후보에게 대한민국을 어떻게 이끌어 갈지 국가적 이슈가 없다. 대통령을 뽑는 선거라면 4차 산업 혁명 시대의 국가 발전 전략, 포스트 코로나 이후 경제 회복 대책, 미․중 패권 전쟁 속에서 실리적 극복 방안, 북한의 미사일 도발에 대한 대응 등 국가 생존 전략을 갖고 논쟁을 벌여야 한다. 

 

그런데 ‘탈모 건강 보험’, ‘사병 월급 200만원 등 지극히 미시적인 공약에 매몰되어 있다. 자신들의 전략 계층을 상대로 ‘마이크로 타게팅’에만 몰입하면서 정작 국가 백년대계를 위한 큰 그림은 보이지 않고 있다. 국가 미래에 대한 논의도 없다. 나라 곳간은 비는 데 오직 표만 의식해 수백조원의 막대한 재정 투입이 필요한 퍼주기 포퓰리즘에 매몰되어 있다. 연금 개혁 등 젊은 세대의 미래와 직결된 사항에 대해 침묵으로 일관하고 있다. 그나마 최초 4자 TV 토론(2월3일)에서 후보 모두 연금개혁을 공개적으로 약속한 것은 다행스러운 일이다. 

 

대선은 정부를 심판하는 총선과는 달리 미래에 투표하는 것이다. 미래를 준비한 후보를 지지한다는 뜻이다. 그런데 미래를 얘기하는 후보가 없다는 것은 국민들의 선거에 대한 관심을 떨어뜨리고 뽑을 사람을 정하지 못해 궁극적으로 차선이 아닌 차악을 선택해야만 하는 ‘나쁜 선거’가 되기 쉽다. 

 

이번 타파크로스 빅데이터 분석에서도 확인되었듯이 대선 주자의 현재 행보는 공정, 안전, 정의로 정리되는 시대정신과 거리감이 있다. 더구나, 지속적인 부정 이슈의 연속으로 정책에 대한 담론은 15% 내외로 매우 낮은 수준이며 경제와 관련된 정책의 담론이 부족한 상황이다. 

 

대선 품격을 높여라…‘사과하고 눈물 흘리는 감성 마케팅’ 이젠 안 통해 

경제·안보·일자리 등 국가적 과제에 대한 치열한 ​정책경쟁과 토론으로 심판 받아야

 

남은 대선 기간 동안 대선의 품격을 높여야 한다. 선거 이론에 따르면 유권자는 누가 더 새로움과 변화의 메시지를 내놓는 지, 다른 후보와 어떤 차별성을 갖고 있는지, 누가 더 대통령다움의 당당함을 보이는지를 기준으로 후보를 선택한다. 큰 절 하고 사과하고 눈물을 흘리는 감성 마케팅은 더 이상 통용되지 않는다. 이제 남은 선거 기간 후보 간에 극명하게 차이를 보이고 있는 정책에 집중해서 치열하게 경쟁해야 할 것이다.

 

 가령, 이재명 후보의 미국 뉴딜 식 국가주도 통제경제 정책과 윤 후보의 자유와 창의에 바탕을 둔 민간 중심의 시장경제 중 어떤 것이 ‘경제 살리기 성과’를 낼 수 있는 지 검증받아야 한다. 

 

북한의 미사일 도발에 맞서 사드(고고도 미사일 방어체계·THAAD) 포함 중층적 미사일 방어망을 구축해야 하느냐 아니면 최대 교역국인 중국과의 관계를 고려해 경제를 망치지 않기 위해 사드 추가 배치는 안 된다는 입장 중 어느 것이 북한의 핵미사일 위협으로부터 국민의 안전과 생명을 지킬 수 있는지를 두고 격돌해야 한다. 

 

일자리 경제를 위해 기업의 경쟁력을 어떻게 제고시킬 수 있을지를 놓고도 한판승부를 펼쳐야 한다. 가령, 이재명 후보가 제시하는 노동이사제, 주 4.5일제, 감원전 탄소세, 민노총 눈치 보기 등 이런 거 다하면서 과연 대한민국 기업이 글로벌 경쟁력을 갖춰 성장을 이끌어 낼지 깊이 따져 봐야 할 것이다.  

 

후보들의 이런 대립 쟁점들이 향후 온라인에서 얼마나 뜨겁게 달궈질지 여부가  대선의 관심을 높이고 유권자들이 좋은 선택을 할 수 있는 토대를 만들어 줄 것이다. 단언컨대, 데이터는 거짓말을 하지 않는다. 

 

​ 

 

0
  • 기사입력 2022년02월06일 17시10분
  • 검색어 태그 1

댓글목록

등록된 댓글이 없습니다.