김진호 | 스위스 경영대학 AI빅데이터학과 교수

ISSUE

선거 여론조사의
시각화 자료를
제대로 이해하기

흔히 여론조사의 시대라고 불리는 요즈음 우리는 바야흐로 각종 여론조사의 홍수 속에 묻혀 살고 있다. 특히 선거철에는 당이나 후보자에 대한 전화 조사가 수시로 걸려오고 신문과 TV에서는 각종 그래프와 수치로 장식된 조사결과를 쉴 사이 없이 발표한다. 이제는 매스컴의 어떤 기사도 여론 조사결과를 요약한 그래프 혹은 숫자를 함께 제시하지 않으면 사람들은 그 기사를 무언가 근거가 없는 주장처럼 여기곤 한다. 문제는 사람들이 여론 조사의 결과를 종종 올바르게 이해하지 못하거나 심지어는 조사 결과의 유리 혹은 불리에 따라 여론조사를 불신하는 경우가 많다는 것이다. 예를 들면 미국 부통령이었던 휴버트 험프리는 “정치인들은 자기 후보에게 유리한 결과가 나온 여론조사는 훌륭한 여론조사라고 하고, 불리한 여론조사는 비과학적으로 행해진 조사라고 우긴다.”고 말했다. 이 말은 요즘에도 선거 여론조사에 대해 정치가들이 종종 하는 말이다.

비판적으로 보는 안목 길러야

선거 여론조사에 대한 불신을 해소하기 위해서는 유권자들, 즉 조사결과를 대하는 사람들이 우선 조사에 대한 안목을 길러야 한다. 조사에 대한 안목을 높인다는 말은 조사 과정에서 일어날 수 있는 잘못을 잘 인식하고, 그런 잘못이 일어났을 때는 그것을 피해가면서 결과를 올바르게 해석하는 것을 말한다. 그렇다면 선거 여론조사에서 가장 많은 왜곡이 일어나는 부분은 어디일까? 조사 결과를 시각화 하는 과정에서 가장 많은 왜곡이 일어난다.

많은 숫자나 분석 결과들을 요약해서 잘 설명할 수 있는 가장 효과적인 방법이 그래프 등을 사용하여 시각적으로 나타내는 것이다. 그래프는 가로축, 세로축, 점, 선, 숫자, 글자, 심볼 등을 복합적으로 사용하여 양적인 숫자들을 시각적으로 요약한다. 따라서 그래프를 대하는 사람의 입장에서는 익숙하지도 않은 많은 숫자들을 머리를 써서 생각할 필요도 없이 단지 보는 것만으로도 숫자들 속에 포함된 사실을 파악할 수 있다. 하지만 문제는 그래프를 이용하여 정보를 전달할 때 가장 많은 왜곡이 일어난다는 사실이다.

왜 그럴까? 많은 숫자(데이터)를 그래프로 그릴 때에는 가능한 한 간단하게 데이터가 갖고 있는 정보를 생기 있는 그림으로 전달해야 한다. 이때 중요한 것은 데이터를 단순화(simplicity)하면서도 데이터가 갖고 있는 사실(fact)을 충실하게(loyalty) 전달해야 하는 것이다. 하지만 이 두 가지 원칙(simplicity & loyalty)은 자칫하면 서로 상충하기 쉽다. 그래서 그래프를 그리는 것이 언뜻 보기에 매우 쉬운 듯하지만 상당한 기술(art)이 필요한 것이다.

실제로 그래프에서 속임수가 가장 많다는 사실은 데이터의 단순화 과정에서 사실에 대한 정확성을 유지하기가 어렵다는 것을 말해 준다. 다시 말하면 그래프의 미숙한 사용으로 데이터를 너무 단순화하면 의도하지 않았더라도 실제와는 전혀 다른 인상을 주는 그래프가 될 수 있다. 더욱이 그래프를 그리는 사람이 사실을 의도적으로 왜곡하여 그리게 되면 그래프는 사실에서 크게 동떨어지게 된다. 그러므로 그래프가 제시될 때 그것을 비판적으로 볼 수 있는 안목을 길러서 혹시 있을지 모르는, 의도적인 혹은 비의도적인 ‘왜곡’에 빠지지 않는 능력을 키우는 것이 매우 중요하다.

그리는 사람 마음대로 왜곡

그래프 중에서 가장 흔한 것은 선을 이용한 선 혹은 막대 그래프다. 이 그래프들은 그리기가 쉬울 뿐만 아니라 많은 숫자 속에 숨어있는 경향을 잘 나타내어 주기 때문에 데이터의 분석이나 예측에 가장 많이 쓰인다. 그러나 데이터의 왜곡이 가장 많이 일어나는 그래프이기도 하다. 가장 흔한 사례는 그래프의 밑 부분을 잘라내는 것이다. 신문에 제시되는 많은 그래프가 지면절약 등의 이유 때문에 이런 식으로 흔히 그려진다. 이런 그래프는 원래의 차이를 부풀리기는 하지만 속임수가 아니면서도 독자에게 주는 인상은 크게 다르다.

외환보유액 추이

MBC, SBS 공동조사

위의 그래프는 월별로 외환보유액을 나타낸 것이다(2013년).1)
9월의 외환보유액은 6월에 비해 거의 3배나 되는 것처럼 보이지만 실제로는 증가율이 2.9%에 불과하다. 그래프의 밑부분이 잘리면서 차이가 과장되게 나타나는 것이다.

위의 그림은 KBS가 2014년 6.4 지방선거를 앞두고 공개한 여론조사 결과의 일부인데 후보별 지지도를 나타내는 막대그래프가 특정 정당에 유리하도록 왜곡되어 그려져서 논란에 휩싸였었다. 막대그래프 마다 눈금의 기준이 달라, 새누리당 후보가 실제 지지도보다 높은 지지도를 얻은 것처럼 비춰져 논란이 됐던 것이다. 위쪽 그래프는 KBS에서 방영된 그래프, 가운데 그래프는 제대로 그린 그래프, 그리고 맨 아래 그래프는 0에서 30%의 밑부분을 잘라낸 그래프이다.2)

서울시장과 충북도지사의 경우에는 위와 가운데의 그래프가 큰 차이가 없다. 하지만 세종시장과 경기도지사의 경우에는 불과 1%P 정도의 차이가 나는 접전 상황인데도 불구하고 (가운데의 그래프의 중앙), KBS 뉴스에서 방영된 그래프에서는(맨 위 그래프의 중앙) 새누리당 후보가 크게 앞서는 것처럼 그린 것이었다. KBS가 선거를 앞두고 특정 정당에 유리하도록 편향된 보도를 한다는 비난을 받자, KBS는 뒤늦게 특정 정당에 유리한 모습을 보일 의도는 전혀 없었다고 해명하기 바빴다. 맨 아래 그래프는 0에서 30%의 밑부분을 생략한 그래프로서 후보간의 경쟁에 대한 전혀 다른 인상을 주고 있다.

그래프를 그리는 사람이 우선 지켜야할 사항은 그래프의 수직 눈금의 크기를 일관성 있게 유지하는 것이다. 그러나 조사결과를 요약하는 그래프에서 이런 기본적인 원칙이 지켜지지 않는 경우가 종종 있다. 아래의 그림은 주요 국가별 공휴일 현황을 막대그래프로 그린 것이다.3)
역시 수직 축의 눈금이 그래프마다 제각각이다. 예를 들어 빨간 사각형으로 나타낸 것과 같이 같은 15 일이지만 한국과 일본의 높이가 다르다.

주요 국가별 공휴일 현황 (2009년 기준, 자료: 한국문화관광연구원)

아래의 그림은 최저임금으로 10시간 일해서 벌 수 있는 돈을 그린 것인데 역시 수직축의 눈금이 제각각이다.4)
중국에서는 22,000원인 붉은 선 높이가 일본에서는 102,970원과 같게 그려졌다.
물론 이런 왜곡 주장에 대해 정작 그래프를 작성한 당사자는 각 막대그래프의 위에 구체적인 숫자를 적어 놓았으니까 그 숫자를 참조해서 보면 되지 않느냐고 반박할 수도 있다. 하지만 그래프의 원래 목적이 양적인 숫자들을 시각적으로 요약하여 보는 사람이 쉽도록 하는 것이다. 사람들이 그래프를 보면서 거기에 적힌 숫자들의 크기를 다시 비교해야 한다면 그래프를 그리는 취지가 무색해진다.

최저임금으로 10시간 일해서 벌 수 있는 돈

아래의 원그래프는 한 방송에서 소위 ‘김영란법’의 국회통과에 대한 여론조사 결과를 파이 형태로 그린 것이다.5)
64.0%인 ‘잘했다’ 응답의 크기가 7.3%인 ‘잘못했다’ 응답의 크기와 비슷하게 그려졌다. 심지어 ‘잘못했다’ 7.3%가 ‘모르겠다’ 28.7%보다 더 크게 그려졌다. 퍼센트(%)의 크기에 맞도록 제대로 그린 두 번째 원그래프와 비교하면 처음의 원그래프는 이 법의 국회통과가 마음에 들지 않는다는 왜곡 의도가 쉽게 드러난다.

김영란법의 국회통과에 대한 여론조사 결과

BBK 사건과 관련한 여론조사

위 사례와 마찬가지로 %의 크기를 상호비교가 가능하도록 그리지 않은 사례는 적지 않다. 아래의 그림은 BBK 사건과 관련한 여론조사 결과를 그린 것이다.6)
역시 ‘BBK 사건 검찰 발표 신뢰 여부’에 대한 응답에서 41.2%의 ‘신뢰한다’는 응답이 50.5%의 ‘신뢰하지 않는다’는 응답보다 더 크게 그려졌다. 심지어 그 아래 그래프에서는 31.5%의 크기가 56.4%의 크기보다 거의 두 배나 될 정도다. 역시 어떤 의도에서 이렇게 왜곡했는지를 쉽게 알 수 있는 그래프다.

시각적인 인상과 사실은 크게 다를 수도

강남의 업무빌딩 공실률(단위:%)

그래프의 시작을 화살표의 밑 부분으로 그리기 시작하면 아무리 소폭증가라도 엿장수 마음대로 화살표의 끝을 위치시킴으로써 원하는 만큼 과장해서 표현할 수도 있다. 위의 그림은 강남의 업무빌딩 공실률을 그린 것이다.7)
2012년에는 공실률이 3.9%였는데 3년 뒤인 2015년에는 9.4%로 2.4배 올랐다. 하지만 선 그래프가 주는 느낌은 그보다는 훨씬 더 공실률이 높아진 인상을 주고 있다.

아래의 그림은 한 방송국 뉴스에서 정규직 임금체계를 바꾸어야 한다는 논리에 대한 근거로 한국과 유럽 세 나라의 30년 근속 임금표를 그린 것이다.8)
한국 정규직의 임금 상승폭이 가장 두드러지게 그려졌다. 예를 들어 영국과 한국의 2배의 차이가 높이에 있어서는 훨씬 더 큰 차이라는 인상을 주고 있다.

한국과 유럽 세 나라의 30년 근속 임금표

통계학자인 스테픈 켐벨은 “그래프는 진실을 자세히 검사하지 않고는 결코 있는 그대로 받아들여서는 안 된다. 사물은 겉으로 보이는 것과는 전혀 다른 경우가 많다.”고 말했다.
이런 맥락에서 그래프에 대해서는 이렇게 표현할 수 있다. “그래프를 자세히 따져보지 않고는 결코 있는 그대로 받아들여서는 안 된다. 그래프는 겉으로 보이는 것과는 전혀 다른 경우가 많다.” 사실 그래프(그림도표를 포함해서)를 그리는 목적은 열심히 읽으려 하지 않는 독자들이나 숫자를 다루는 데 익숙하지 않은 사람들에게 데이터가 갖고 있는 특징이나 본질을 간단명료하게 보여주는 데 있다.
그러나 그래프를 그리는 과정에 있어 수직축과 수평축의 위치나 어떤 눈금을 선택할 것인가는 그래프로 무엇을 나타내려고 하는가 하는 의도에 달려 있다. 더욱이 이러한 선택이 전적으로 그래프를 그리는 사람에게 주어져 있으므로 항상 왜곡의 가능성이 존재하는 것이다.

물론 그래프를 그리는 사람의 기술이 부족하거나 그래프에 좀 더 생기를 불어 넣는 과정에서 과장이나 축소가 있을 수 있다. 하지만 자신만의 논조를 부각하기 위해서 의도적으로 과장하거나 왜곡하는 경우가 더 많다. 그렇다면 이러한 왜곡을 막기 위해서는 어떻게 해야 할까? 그래프를 보는 사람과 그리는 사람의 입장으로 구분해 보자.

제대로 이해하기 위한 두 가지 질문

좋은 그래프는 간단하고 정확하게 데이터에 대한 진실을 말해야 한다. 그래프를 보는 사람의 입장에서 그래프의 공정성을 평가하기 위해서는 두 가지 질문을 던져야 한다.

첫째는 그래프가 전체 그림을 보여주고 있는가 하는 것이다. 그래프의 밑 부분이 잘라져 있는지, 축을 변화시킨다면 전혀 다른 인상을 주는 그래프가 될 수 있는지, 만일 그렇다면 데이터를 왜곡하지 않고 바른 모양을 나타내는 그래프는 어떤 것인가를 반문해야 한다.
둘째는 눈금이 (특히 수직축의) 과장되어 있지 않은가 하는 물음이다. 과장된 눈금은 잘못된 인상을 독자들에게 강요하는 경우가 많다. 그러면 과장되지 않은 적절한 눈금이란 어떤 눈금일까? 그 답은 데이터에 포함된 중요한 차이나 흐름의 변화를 꼭 보여주어야 하는 동시에 별로 중요하지 않은 것들이 과장되지 않도록 눈금을 정하는 것이다. 더욱이 수직축이나 수평축의 눈금이 무엇을 나타내는지 표시조차 안 된 그래프는 의도적으로 과장하거나 속이기 위한 것이 대부분이다.
그래프를 만드는 사람이 유의할 점은 좋은 그래프를 만들기 위해서는 데이터의 본질에 대한 이해와 미적인(artistic) 기술이 필요하다는 것이다. 지금까지는 주로 미적인 기술에 중점을 두어 재미있고 눈에 잘 띄는 그래프를 그리려 하였지만 더욱 중요한 것은 데이터의 본질을 파악하고 이를 그대로 전달할 수 있는 그래프를 그리는 것이다. 특히 눈금의 크기를 적절하게 정하기 위해서는 그래프를 만드는 사람의 데이터의 본질에 대한 이해와 경험이 필수적으로 요구된다.

구체적으로는 먼저 데이터의 변화를 보여주어야지 눈금이나 축의 변화에 따른 축소/과장을 강조해서는 안 된다. 또한 숫자를 나타낼 때에는 그 숫자의 크기와 직접적으로 비례가 되게 하고 특히 그림도표를 사용하는 경우에는 그 숫자의 차이가 면적이나 부피의 차이와 같도록 유의해야 한다. 또한 필요한 경우에는 정확하게 말을 덧붙이는(labeling) 것도 좋은 방법이다.