통계 무지(無知)와 통계 조작(造作) 사이 본문듣기
작성시간
관련링크
본문
통계조작 이슈가 조금씩 언론에 나오고 있다. 지난 정부에서 있었던 통계기준 변화 등에 대한 감사원 감사도 진행 중이다. 특히 부동산가격을 중심으로, 고용이나 다른 변수로 퍼지고 있는 듯하다. 경제학이나 빅데이터, 그리고 인공지능(AI)은 이론과 통계를 기반으로 결과를 산출해야 한다. 그런데 정부의 공식 통계를 활용하여 각종 월별 경제동향, 월별 국제금융시장 동향, 분기별 행복지수, 민생지수, 안전지수, 그리고 반기별 경제전망 등을 산출하다 보면 통계가 이상해 졌거나 일관성이 없다고 느낄 때가 많다. 따라서 많은 경제학자들이 한국의 통계를 활용하기보다 미국 등의 주요국 통계나 국제통화기금(IMF) 등의 통계를 활용하여 이론에 따른 실증분석을 하는 경우가 많다.
한국의 통계는 어떤 문제를 가지고 있을까?
일단 일부 변수가 정부 정책목표에 맞지 않는다고 지수 등의 산출 항목에서 빠지거나 다른 지수산출 항목으로 이동하는 경우가 많다. 예를 들어, 지금 전 세계에서 발생하고 있는 물가상승률만 봐도 그렇다. 물가상승률을 계산할 때 기본적으로 소비자물가지수 등을 활용한다. 그런데 가장 중요한 부동산 가격인 자가주거비가 거의 반영되지 못한다. 부동산 가격은 2017년부터 2020년까지 1차 상승, 2021년부터 2022년 초반까지 2차 상승이 있었다.
그런데 자가주거비의 변화가 농산물이나 석유류와 같이 변동성이 크고, 가중치가 커지기 때문에 통계에 넣지 못한다고 한다. 미국이나 일본은 그렇지 않다. 일본의 물가상승률과 금리는 매우 낮은데 그 이유가 다양하지만 자가주거비가 하락하여 일정하기 때문이다. 미국의 경우에도 우리나라와 비슷하게 자가주거비가 상승하면 이를 그대로 반영하고 있다. 미국 노동통계국이 집계하는 소비자물가지수는 식품, 에너지, 그리고 기타 항목 등으로 나누어진다. 이 가운데 식품은 전체 물가에서 13%, 에너지는 7%를 차지한다. 주거비는 이 둘을 제외한 기타 항목에 포함되며, 전체 소비자물가에서 차지하는 비율은 약 32%이다. 음식과 에너지 물가보다 주거비 상승이 물가에 더 큰 영향을 주고 있는 셈이다.
그러나 우리나라는 전체 소비자물가지수에서 주거비의 비율이 미국보다 낮은 9.7%로 나타난다. 만약 다른 품목들의 물가 변동이 없고 주거비 항목만 각각 100% 올랐다고 가정하면, 전체 소비자물가는 미국이 32%, 우리나라는 9.7% 상승한 것으로 나타날 것이다. 이러한 통계를 누가 믿겠는가?
가끔 생방송 등에 출연해 경제문제를 얘기하다 보면 이런 질문을 받는다.
“다음 달에 물가가 얼마나 상승할 것으로 예상하시나요?”
나는 그 때마다 “5%든, 6%든 아무 의미가 없습니다”라고 답한다. 왜냐하면 자가주거비가 빠져있는 소비자물가 상승률은 실생활 물가와 많은 차이가 있기 때문이다. 실제로 2017년부터 2021년까지 주요 도시의 평균 주택가격이 100%만 뛰었다고 하면 단순 계산으로 연간 25%, 월별로 2.1%가 상승한 것이다. 따라서 현재 발표되는 소비자물가에 월별로 2% 정도는 더 더해줘야 실제 소비자 물가상승률이 된다.
비단 이러한 문제는 소비자물가지수만의 문제가 아니다. 지수와 같이 품목이나 하위 변수가 있는 경우에 빠져 있는 변수가 많거나, 다른 지수로 편입하는 경우에도 똑같은 문제가 발생한다. 대표적인 예가 몇 년 전에 물가가 오르고 있을 때, 금이 소비자물가지수 산출 대상품목에서 제외되고, 생산자물가지수 산출 대상품목에 포함된 적이 있다. 합리적인 근거보다는 금값이 많이 올라 소비자물가 상승에 큰 영향을 미쳤기 때문이었다.
경제성장률도 마찬가지이다. 대부분 경제전망을 하면서 정부 산하 기관들은 모형에 맞지 않더라도 정부의 경제성장률에 맞추고, 민간기관들은 자신들의 주된 업종에 초점을 두고 경제성장률을 계산하고, 다음 해의 예산 등을 짜기 마련이다. 따라서 경제전망과 실제치는 점점 격차가 더 커진다. 그리고 그 전망치의 최소한을 맞추기 위해 연말에 밀어내기 건설발주 등을 통해 경제성장률을 인위적으로 올리기도 한다. 실제로 경제는 그만큼 발전하지 못했는데도 말이다. 이것은 통계조작이다. 이러한 수치는 파급력이 상당히 크다. 경제성장률에 따라 세금을 걷어야 하는데, 세입예측도 불가능하고 실제치하고 맞지도 않기 때문이다.
우리나라의 경기종합지수(Composite Index of Business Indicators)는 2018년 이후에 최근에 맞지도 않고, 연구자들이 이 자료를 쓰지 않고, GDP에서 각종 필터나 계절조정방법을 이용하여 계량경제학적 방법론으로 따로 뽑아 쓰는 지경에 이르렀다. 그 중에서도 선행종합지수 순환변동치는 가관이다. 선행종합지수는 미래 경기 흐름을 6개월가량 앞서 내다볼 수 있도록 고안된 지표로 재고순환지표, 소비자기대지수, 기계류내수출하지수, 건설수주액, 수출입물가비율, 구인구직비율, 코스피지수, 장단기금리차 등 현재 경기를 선행하는 특성을 가지는 8개 하위 지수로 구성되었었다.
그런데 지난 2019년 9월에 경기종합지수를 개편했는데 정책당국은 그간 지적되어온 선행지수의 선행성 약화를 개선하기 위함이었다고 설명한 바 있다. 그런데 당시 우리 경제는 L자형 저성장에 머물고 있었다. 따라서 그 때문에 지수개편을 한 것 아닌가 싶기도 한다. 문제는 지수개편 전에도 몇 개월 동안 계속해서 자료가 바뀌고, 전월과 자료가 연결되지 않는 등의 변화가 있었다. 따라서 연구자들은 계량경제학적 방법으로 따로 뽑아서, 또는 조정해서 쓰고 있거나 OECD의 통계를 사용하기도 했다.
요즘 문제가 제기되고 있는 가계동향조사는 경제학적 데이터 관점에서의 무지, 표본추출의 문제, 그리고 기간의 문제가 많다. 2016년부터 조사방식과 표본 선정 및 관리에 지속적인 변화를 주고 있었고, 그런 과정에서 2018년 1/4분기에 저소득층의 소득이 현저하게 떨어졌다는 통계조사결과가 나왔다. 정부의 소득주도성장 정책과는 정반대의 통계치가 생산된 것이다. 게다가 2017년과 2018년은 표본가구 구성이 크게 달라져 2018년 1분기 조사는 시계열 조사로서의 큰 문제가 있었던 것이다. 이런 것들이 지수개편의 원인이었을 가능성이 크다.
앞서 통계청은 2016년에 가계소득에 관한 주요 조사를 가계금융복지조사에서 진행하고 기존 가계동향조사는 소득이 아닌 지출에 특화해 분기별 발표가 아닌 연간 조사로 변화시키기로 바꾸었다. 이에 따라 소득조사와 지출조사를 분리해 이중 소득조사는 2017년까지만 진행하기로 하고 표본 가구의 규모를 축소하고 있었다. 가계동향조사의 표본 가구는 원래 8700가구였지만 2016년부터 표본 수를 줄이기 시작해 2017년에는 4145명까지 줄어들어 있었다.
그러나 학계와 전문가들이 소득과 지출이 통합된 조사와 분기 소득통계가 필요하다고 지속적으로 요구해 2017년에 조사를 종료하는 방침을 변경해 2018년부터 다시 조사를 확대하기로 하고 표본 가구수를 6610가구로 급격하게 늘렸다. 즉 기존 표본의 절반이 넘는 약 2500가구가 새 표본으로 추가됐다. 가계금융복지조사는 주로 자산, 부채 등의 저량(stock)을 다루는 통계이고, 가계동향조사는 소득이나 소비의 유량(flow)을 다루기 때문에 접근 자체가 달라야 하고, 통계치도 달라야 한다. 그런데도 일률적인 표본 확대와 동일한 방식 조사 등으로 문제가 제기됐던 것이다.
부동산 가격 문제는 앞에서도 다루었지만, 표본문제와 임의기입 문제도 있다. 2020년 7월에 당시 국토부 장관은 국회 대정부질문에서 부동산 가격 상승과 관련해 “감정원(한국부동산원) 통계로 11% 정도 올랐다고 알고 있다”고 답했다. 실제 시장과 한참 동떨어진 수치이다. 당시 경제정의실천시민연합이 KB국민은행 통계를 인용한 부동산 가격 현황에 따르면 2017년 이후 3년간 서울 전체 주택가격은 34% 올랐다. 아파트값 상승률은 52%에 달했다고 발표했고, 2021년 5월까지 4년간 서울 아파트 평균 시세가 93% 뛰었다고 발표한 반면 정부는 문 대통령 취임 후부터 2021년 말까지 17% 상승했다고 밝혔다. 이후인 2021년 8월부터 한국부동산원은 주간 조사의 경우 기존에는 아파트 9400가구를 표본으로 활용했는데 이를 3만 2000가구로 확대하고, 월간 조사의 경우에도 아파트 표본을 1만 7190가구에서 3만 5000가구로 높였다. 또 종합 조사 표본도 2만 8360가구에서 4만 6170가구로 확대했다.
결과는 표본을 확대할수록 주택가격은 상승한 것으로 나왔다. 2021년 8월17일 종합조사 표본을 2만 8360가구에서 4만 6170가구로 확대한 첫 월간 조사 결과 그해 7월 서울 아파트 평균 매매가격은 한 달 사이 19.5% 상승한 것으로 나타났다. 표본 수의 증가만으로도 평균가격이 한 달 만에 20% 가까이 상승했다는 사실은 그간 정부통계에 심각한 오류가 있었음을 명확히 보여준 것이다. KB시세도 믿지 못하는데 한국부동산원은 이를 토대로 보정까지 한다. 같은 동네에서 몇 개의 공인중개사가 입력하는 가격이기 때문에 심각한 표본추출 오류를 일으킬 수도 있고, 그 동네 주택을 보유했다면 심각한 편견까지 일으키게 된다. 가격이 하락하는 경우에도 마찬가지로 두 개의 가격조사에는 영향을 미치게 된다. 따라서 표본을 빅데이터로 확대하고 조사하는 것이 훨씬 효율적이다.
고용 통계는 여러 번 지적했듯이 정부의 의지가 반영돼 왜곡을 불러온 것으로 보이며 ,통계의 파급 영향을 생각하지 못한 것으로 보인다. 정책목표로는 80여 만 개의 일자리를 창출해야 하는데 예산에 이를 담을 수 없다. 공공기관의 비정규직 제로를 목표로 내세우며 비정규직 축소에 나섰지만, 2019년 통계에선 반대로 비정규직이 전년대비 87만 명이 늘어난 것으로 나타났다. 당시 기존 조사에서 포착되지 않았던 기간제 근로자 등이 추가로 포착되면서 35만~50만 명이 증가했다.
고용통계의 문제는 많은 부분이 청년과 노인에게 지급되었던 직접 재정지원 일자리 사업이 대표적이다. 직접 일자리 예산이 2018년에 3.5조 원에 83만 5000명으로 1인당 약 35만 원, 2019년 3.8조원에 96.3만명으로 1인당 약 33만원이다. 건강을 위하고 청년을 위해 예산을 늘리는 것은 좋지만, 이를 고용통계에서 취업자로 잡는 것이 문제이다. 고용자 통계로 잡으면 경제활동인구, 1인당 소득, 연금지급액 등의 다른 통계에도 영향을 미치게 된다. 또한 정부가 일자리를 제공하는 정부사업의 고용파급효과를 계산하다 보면, 각 공공기관의 예산을 합하면 전체 국민보다 몇 배는 많아지게 된다.
반대로 합이 잘못되는 경우도 있다. 출산율을 올리기 위해 쓰인 예산 등이 그런 사례에 속한다. 실제로 난임 등 출산에 쓰이는 예산은 1년에 1조 원씩 되지 않는다. 통계를 산출할 때 출산, 보육 등이 들어가면 모두 다 출산에 지출한 돈이라고 한다. 예를 들어 CCTV 설치, 여러 수당 등도 포함시키게 되면 출산예산이 실제보다 부풀려지는 것이다.
제도 때문에 정기적으로 발표되지 않는 통계도 있다. 전세제도는 우리나라에만 있다. 전세자금대출도 대출이다. 주택 하나에 주인은 주택담보대출을 받고, 전세세입자는 전세자금 대출을 받는다. 전세자금 대출이 약 880조 원이라고 나올 뿐이다. 이 부분을 가계부채에 더하면 2022년 3분기 우리나라 가계부채 규모는 1870조 원 규모이고 GDP대비 가계부채비율은 150%대에 육박한다. 그러나 우리는 이러한 통계를 제대로 알지 못한다.
이러한 통계들을 신뢰하기는 상당히 어렵다. 통계를 기반으로 정책을 결정해야 하는데, 표본선정이나 표본수의 문제, 시차의 문제, 정부의 의지가 담긴 문제, 변수를 빠뜨린 문제, 시계열 보정의 문제 등에 의해 믿기도 어렵다. 이제라도 단기간 정치적 목적에 의해 좌우되는 통계가 아니라 제대로 된 통계를 내고, 우리나라를 명확하게 비추어줄 수 있는 통계들이 일관성 있게 발표되어야 한다. 국민생활이나 산업구조의 변화 등에 맞게 통계를 보완하더라도 종래의 구(舊)통계는 일정기간 계속해서 보여주어야 통계를 활용하는 데 도움이 될 것이다,
댓글목록
등록된 댓글이 없습니다.