FOCUS

쏟아지는 여론조사,
왜 들쭉날쭉해 보일까

신정인 | 넥스트리서치 차장

20대 대통령선거, 2달간 283건 선거여론조사 진행

여론(輿論. public opinion)은 “일반적으로 중요한 쟁점에 관해 상당수의 사람이 표현한 선호의 복합(complex of preference)”이라고 할 수 있다. 사적인 주제에 대한 사적인 의견이 아니라, 한 사회의 구성원으로 공공의 상황과 관련된 문제에 대한 개인들의 의견의 합이 여론이다. 이러한 여론을 파악하기 위해 대표성 있는 표본 (sample)을 선정하여 질문을 하고 응답을 받아 정보를 수집하여 조사 대상인 모집단(population)의 특성을 파악하는 것이 바로 여론조사다.

선거제도는 민주주의 사회에서 개인의 의견을 표현하는 가장 대표적인 방법이다. 후보들의 정치적 성향이나 공약 등을 평가하여 자신의 선호를 가장 잘 대변하여 정책에 반영해 줄 대리인을 뽑는 과정이기 때문이다. 민주주의 국가에서 선거만큼 단기간에 공공의 관심이 집중되고 이해가 나뉘는 이슈도 없을 것이다. 그래서 선거기간이면 유권자들의 의견을 물어보는 각종 여론조사가 쏟아지는 것은 자연스러운 현상이다.

우리나라 대통령 선거에서는 여론조사 결과를 단순히 후보 간 현재 지지도를 확인하는 것을 넘어, 후보자 간 단일화에 활용하기도 한다. 2002년 노무현-정몽준 간 단일화에서 노무현 당시 후보로 단일화되는 과정에서 처음 여론조사 방식을 도입했다. 이번 20대 대통령선거에서도 국민의힘 윤석열 후보와 국민의당 안철수 후보도 단일화 방식에 대해 협의할 때 안 후보 측은 계속해서 여론조사에 의한 단일화 방안을 고수하기도 했다.

올해 3월 치러진 20대 대통령선거를 앞두고 2022년 1월~2월 두 달 동안 중앙선거여론조사심의위원회에 등록된 대통령선거 관련 여론조사는 총 283건이었다. 하루 평균 4.8건의 여론조사가 진행된 것이다. 2017년 5월에 있었던 19대 대선 직전 두 달 동안 174건의 대선 관련 여론조사가 있었던 것에 비하면 이번 대선 전 2달간 진행된 조사는 약 1.6배 늘었다

여론조사 이해! 조사방법에 따라 차이가 있다

그러나 선거기간이면 난무하는 여론조사 결과에 대한 보도는 단순 여론조사 피로도를 넘어, 신뢰도에까지 의문이 제기되기도 한다. 후보별 지지도가 짧은 시간에 뒤집히기도 하고, 같은 날 발표된 조사에서 두 후보 간 지지도가 상반된 결과가 나오기도 하기 때문이다. 그러나 이는 조사방법에 따른 차이를 이해하지 못하고 단순 수치의 등락에 주목하기 때문에 발생하는 오류일 가능성이 높다.

조사 방법에는 전화면접조사와 ARS가 있다
대부분의 선거여론조사는 전화조사를 활용한다. 전화조사는 전화조사원에 의한 전화면접조사와 ARS(Automatic Response System, 자동응답시스템) 두 가지 방법으로 나뉜다. 전화면접조사는 조사원이 직접 전화를 걸어 응답자와 통화를 통해 응답받는 방식이고, 자동응답시스템(ARS)은 미리 녹음된 기계음을 듣고 응답자가 전화기의 키패드를 눌러 응답을 하는 방식이다.

올해 3월 치러진 20대 대선을 앞두고 1~2월 두 달간 진행된 246개 여론조사(지역: 전국, 선거구분 : 20대 대통령 선거 기준) 조사 방법별 비율을 살펴보면 아래와 같다. 무선ARS가 29.7%로 가장 많고 다음으로 무선전화면접이 24.4%, 유·무선ARS가 16.7%, 유·무선전화면접이 14.6%였고, ARS와 전화면접을 섞은 방식도 5.7% 있었다.

[그래프1] 2022년 1~2월 진행된 조사 방법별 비율 (중앙여론조사심의워원회 참조)
              조사 방법 비율
              ARS 조사 46.4%
              전화면접조사 39.0%
              무선ARS 29.7%
              무선전화면접 24.4%
              유·무선ARS 16.7%
              유·무선 전화면접 14.6%
              ARS + 전화면접 5.7%
              기타 8.9%

[그래프1] 2022년 1~2월 진행된 조사 방법별 비율 (중앙여론조사심의워원회 참조)

그래프1에서 보듯, ARS는 46.3%, 전화면접방식은 39.0%로 ARS 방식으로 진행되는 조사가 더 많다. 이는 전화면접조사에 비해 ARS조사가 상대적으로 저렴하고 빨리 조사를 진행할 수 있기 때문이다. 조사원이 진행하는 전화면접방식은 인건비가 들기 때문에 ARS에 비해 상대적으로 조사 단가가 높다. 예를 들어, 전국 1,000개 표본 전화면접조사를 진행하기 위해서는 숙련된 조사원 20명 이상이 하루 8시간 (혹은 그 이상) 이틀은 근무해야 조사가 완료된다. 또한 전화면접조사의 경우 준비단계에 시간이 좀 더 소요된다. 조사원도 미리 모집해야 하고, 전화조사원이 앉아서 조사를 진행해야 하는 좌석 개수의 한계로 회사 내 다른 전화조사 스케줄이 미리 잡혀 있을 경우 조사가 어려운 점도 있다. 그러나 ARS의 경우 그런 제약이 적기 때문에 상대적으로 신속하다.

조사방법에 따른 응답률 차이를 이해하자
언론에 가장 자주 보도되는 여론조사 해석 시 유의점은 아마 ARS와 전화면접조사 결과를 단순 비교하면 안 된다는 내용일 것이다. 그 이유로 가장 많이 언급되는 것은 응답률이다. 현재 우리나라 여론조사심의워원회에서 사용하는 ‘응답률’ 개념은 여론조사에 참여한 사람 중 조사 참여를 거절하거나 중간에 전화를 끊지 않고 끝까지 응답한 사람의 비율이다. 예를 들어, “표본 1,000명(응답률 10%)”란 10,000명의 사람과 통화에 성공하고, 그중 1,000명만 마지막 문항까지 조사에 응했다는 것을 뜻한다. 아래 표1에서 보면 조사방법별 응답률 평균값을 확인할 수 있다. 무선전화면접과 유·무선전화면접조사의 응답률 평균은 각각 19.40%, 15.50%로 나타났지만, 유·무선ARS, 무선ARS는 각각 8.40%, 7.10%로 전화면접조사 대비 낮게 나타났다.

[표1] 2022년 1~2월 진행된 조사 방법별 응답률 평균 (중앙여론조사심의워원회 참조)
              No 조사 방법 비율
              1 무선전화면접 19.40%
              2 유·무선전화면접 15.50%
              3 ARS + 전화면접 8.60%
              4 유·무선ARS 8.40%
              5 무선ARS 7.10%

[표1] 2022년 1~2월 진행된 조사 방법별 응답률 평균 (중앙여론조사심의워원회 참조)

전화면접조사와 ARS 조사 응답률의 차이는 조사 특성에 기인할 것이라는 설명이 가장 일반적이다. ARS는 기계음이다 보니 상대적으로 해당 이슈에 관심이 없는 사람이라면, 끝까지 기계음을 듣고 응답하지 않고 중도 이탈 혹은 거절할 확률이 높아진다. 반대로 해당 이슈에 대해 관심이 많은 사람이라면 기계음을 끝까지 듣고 응답할 경향성이 높을 것이다. 그러다 보니 ARS 조사에는 “정치 고관여층이 많이 응답한다”는 이야기들을 한다. 전화면접조사의 경우, 숙련된 조사원들이 일단 접촉된 표본의 응답 성공률을 높이기 위해 총력을 다한다. 전화를 끊으려는 응답자라도 전문조사원이 조사 진행을 유도하게 되면 마지막까지 응답하게 되는 경우가 ARS에 비해서는 높을수 있게 되는 것이다. 이 과정에서 정치 등 전화조사가 진행되는 이슈에 평소에 큰 관심이 없는 응답자라하더라도 표본에 포함되어 조사가 진행될 확률이 높아진다. 이 과정에서 표본 대체가 더 적게 발생하기 때문에 “만 18세 이상 일반 국민”이라고 하는 표본의 대표성이 조금 더 확보될 수 있다.

이는 실제로 유사한 문항이라 하더라도 ARS 조사에서 “모름/무응답”을 응답하는 비율보다 전화면접조사에서 “모름/무응답” 응답 비율이 더 높은 경향성으로 확인할 수 있다. 다음은 2021년 12월(20대 대선 3개월 전) 한 달 동안 진행된 2개의 ARS(무선ARS 100%) 조사와 전화면접조사(무선전화면접조사 100%)의 조사 결과를 비교한 표이다. 지지하는 대통령 후보를 묻는 질문에서 전화면접조사의 경우, “없다”, “모름/무응답”의 합, 즉 부동층 비율이 한 달 평균 21.5%로 나타났지만, 무선ARS에서는 이 비율이 9.1%로 나타났다. 전화면접조사에서는 마음을 정하지 못했다는 응답자가 21.0%가량인 반면, ARS 조사 응답자의 분포는 그 비율이 9.1%로 상대적으로 낮은편이고 이는 정치에 관심이 상대적으로 많은 사람들이 더 많이 응답했다고 볼 수 있는 것이다. 그렇기 때문에 같은 시기에 조사된 결과라고 해도, ARS 조사와 전화면접조사 결과를 단순히 비교하는 것은 적절하지 않을 수 있다.

[표2] 무선ARS와 무선전화면접조사간 부동층(없음/모름/무응답) 차이 (중앙여론조사심의위원회 참조)

[표2] 무선ARS와 무선전화면접조사간 부동층(없음/모름/무응답) 차이 (중앙여론조사심의위원회 참조)
              조사 방법 조사 결과
              조사기간 조사기관 조사의뢰자 조사방법 피조사자선정방법 부동층(없음/모름/무응답)
              11/29~12/01 엠브레인퍼블릭, 코리아리서치 한국리서치,
              엠브레인퍼블릭,
              코리아리서치,
              케이스탯
              무선
              전화면접(100%)
              휴대전화가상번호
              23.0
              12/06~12/08 케이스탯, 한국리서치 17.0
              12/20~12/22 한국리서치, 엠브레인퍼블릭 25.0
              12/27~12/29 코리아리서치, 케이스탯 19.0
              2021. 12. 전화면접조사 없음/모름/무응답 평균 21.0
              12/03~12/04
              (주)한국사회여론연구소(KSOI) TBS
              무선ARS
              (100%)
              휴대전화가상번호
              9.4
              12/10~12/11 8.5
              12/17~12/18 8.4
              12/24~12/25 10.0
              2021. 12. ARS 없음/모름/무응답 평균 9.1

여론조사 이해! 표본추출 방법을 알자

여론조사를 위한 전화조사에서는 할당추출법(quota sampling)이 주로 사용된다. 할당추출법은 비확률 표본추출로 모집단(population)을 상호 배타적인 부모집단(예를 들어, 성, 연령, 지역과 같은 할당 층)으로 나누고 이부모집단별 구성 비율과 표본의 부모집단별 구성비율이 유사하도록 표본을 작위적으로 추출하는 방법을 말한다. 대부분의 전화 여론조사의 경우, 전국을 성별, 연령대별, 권역별 모집단 분포를 이용해 표본 각 층의 할당된 표본수가 결정되고, 배분된 할당 수만큼 표본을 비확률적으로 추출하여 채우는 방식으로 조사를 진행한다.

좀 더 쉽게 설명하자면 다음과 같다. 아래 표 4와 같이 전체 조사 모집단(전국 만 18세 이상 남녀)을 성별, 연령대별, 권역별로 나눈 후, 표5와 같이 1,000명 기준으로 성 * 연령대 * 권역별 비례배분한다. 실제 조사가 진행될 때는 추출된 전화번호에 전화를 걸어, 표4의 할당표를 기준으로 각 셀 별에 할당된 숫자를 채우는 방식으로 조사가 진행된다.

[표3] 전국 만 18세 이상 남녀 모집단 분포(2022년 3월 말 행정자치부 주민등록 인구통계 기준)

[표3] 전국 만 18세 이상 남녀 모집단 분포(2022년 3월 말 행정자치부 주민등록 인구통계 기준)
              구분
              남자 여자
              만 18 ~ 29세 만 30 ~ 39세 만 40 ~ 49세 만 50 ~ 59세 만 60세 이상 만 18 ~ 29세 만 30 ~ 39세 만 40 ~ 49세 만 50 ~ 59세 만 60세 이상
              서울 17 16 16 17 24 19 16 17 17 29
              인천/경기 30 27 32 32 38 27 25 31 31 44
              대전/충청/세종 10 8 10 10 15 8 7 9 10 18
              광주/전라 9 6 8 10 15 7 6 8 9 19
              대구/경북 8 7 9 10 15 7 6 8 10 18
              부산/울산/경남 13 11 14 15 22 11 10 13 15 27
              강원/제주 4 3 4 4 7 3 3 4 4 8

[표4] 전국 성·연령대·권역별 1,000명 할당(2022년 3월 말 행정자치부 주민등록 인구통계 기준)

[표4] 전국 성·연령대·권역별 1,000명 할당(2022년 3월 말 행정자치부 주민등록 인구통계 기준)
              구분
              남자 여자
              만 18 ~ 29세 만 30 ~ 39세 만 40 ~ 49세 만 50 ~ 59세 만 60세 이상 만 18 ~ 29세 만 30 ~ 39세 만 40 ~ 49세 만 50 ~ 59세 만 60세 이상
              서울 17 16 16 17 24 19 16 17 17 29
              인천/경기 30 27 32 32 38 27 25 31 31 44
              대전/충청/
              세종
              10 8 10 10 15 8 7 9 10 18
              광주/전라 9 6 8 10 15 7 6 8 9 19
              대구/경북 8 7 9 10 15 7 6 8 10 18
              부산/울산/
              경남
              13 11 14 15 22 11 10 13 15 27
              강원/제주 4 3 4 4 7 3 3 4 4 8

전화조사에서는 “전화 걸기”를 통해 표본을 추출한다. 그러므로 유선인지, 무선인지, RDD(Random Digit Dialing)인지, 가상번호인지, 어떤 표본추출틀을 활용해 추출된 전화번호에게 전화를 거는지가 중요하다. 최근 여론조사에서 일반적으로 사용되는 방식은 RDD와 가상번호이다. 2022년 1~2월 동안 공표된 20대 대통령선거 여론조사에서 가상번호는 33.5%, 무선 RDD 25.9%, 유무선 RDD 27.2%, 유선RDD + 가상번호는 13.4%가 사용됐다.

휴대전화 가상번호
이용자의 이동전화번호가 노출되지 않도록 여론조사에 사용할 전화번호를 가상의 번호(예: 050-XXX-XXXX) 형태로 변환하여 여론조사 기관에 제공하는 것으로, 여론조사 응답자의 개인정보 노출 없이 지역별·성별·연령대별로 대표성을 확보하여 여론조사 결과의 신뢰성을 높이기 위해 2016년 최초 도입된 제도이다.

이는 국내 통신 3사(SK텔레콤, KT, LG U+)를 통해 받는 것으로 지역·성·연령대 특성에 따라 번호를 추출하여 층화추출이 가능하다는 장점이 있다. 그러나 가상번호 신청을 위해서는 조사 시작 10일 전에 신청해야 하고, 비용이 발생한다는 점에서 이용에 일정 부분 제약이 있을 수 있다. 또한 2022년 2월 말 기준 무선통신서비스 가입현황에 따르면 MVNO(Mobile Virtual Network Operator, 알뜰폰) 가입자 현황이 1,000만 명을 넘었다. 가상번호에는 이들 알뜰폰 가입자가 배제된다는 한계가 있다.

무선RDD
무선 RDD는 010 뒤에 있는 번호를 무작위로 생성하여 만든 전화번호를 투입하여 피조사자를 선정하는 방식이다. 그렇기 때문에 전화번호에 대한 어떠한 정보(성·연령·지역 등)도 가지고 있지 않다. 이는 곧 무선전화 이용자(통신 3자 가입자 + 알뜰폰 가입자)라면 누구나 같은 확률로 추출될 수 있다는 뜻이기도 하여 가상번호보다 대표성이 높을 수 있다. 그러나 동시에 정보가 없어 모르는 전화번호에서 걸려온 전화를 잘 받지 않는 특성이 있는 계층(여성, 고령자 등)에 대한 접근이 어렵다는 단점이 있다.

유선RDD
유선RDD는 지역번호 뒤에 있는 국번을 무작위로 생성하여 만들어낸 전화번호를 통해 응답자를 찾는 방식이다. 유선RDD가 활성화되기 전, 즉 2011년 이전까지 대부분의 여론조사기관에서는 KT 가구전화 등재번호부에서 전화번호를 무작위로 추출하는 방식을 사용했다. 그러나 이 방식은 KT이외의 가구 전화나 전화번호 공개를 원하지 않는 가구번호는 표집 틀(Sampling frame)에서 원천적으로 배제되는 등의 한계로 인해 유선RDD가 등장했다. 유선RDD는 지역번호와 국번이 있어 시/군/구 단위에 대한 지역 정보는 포함하고 있다. 그러나 집전화 보유가 계속해서 줄어들고 있고, 전화조사가 진행되는 시간대에 집에 사람이 없는 경우 등이 있어 최근에는 대부분의 여론조사에서 무선전화 표본추출틀의 한계를 보완하는 차원에서 20% 이내로 사용하고 있다.

이렇듯 어떤 표본추출틀을 사용했는지가 곧 어떻게 조사 대상자를 선정했는지를 결정하기 때문에 표본추출틀이 다른 조사 결과를 단순히 비교하는 것은 지양해야 한다.

여론조사의 한계를 알아야 제대로 활용할 수 있다

한국기자협회의 선거여론조사보도준칙 제3조 “여론조사의 한계”에는 다음과 같이 규정했다.

“여론조사는 여론을 탐색하는 많은 방법 중의 하나이며, 여론조사의 수치는 여론을 이해하는 데 도움이 되는 하나의 자료이다. 여론조사를 통해 얻은 수치가 곧 여론 그 자체는 아니므로 미디어는 여론조사 결과를 여론과 동일시해서는 안 되며, 수치에 과도한 의미를 부여해서는 안 된다.”

여론조사는 직관적으로 이해하기 좋은 “숫자”의 형태로 그 결과가 나타난다. 그렇기 때문에 선거기간이면 조사 방법이나 표본추출 방법이 다른 여론조사 결과를 비교해 후보들 간의 우위를 확인하고 지나친 의미를 부여하는 기사들을 종종 볼 수 있다. 그러나 위에서 언급한 조사 방법이나 표본추출틀에 대한 이해 없이 단순히 지지도 결과를 비교하는 것은 여론을 잘못 이해할 소지를 제공하고, 여론조사에 대한 불신을 가져올 수 있다는 측면에서 조심스러울 필요가 있다.

선거여론조사보도준칙 제16조 “오차범위 내 결과의 보도”에서는 신뢰구간에 따른 표본오차를 감안하고, 오차범위 내 지지도 격차가 발생한 경우, 순위를 매기거나 서열화하지 않고, 수치만을 나열하여 헤드라인으로 쓰지 못하도록 규정했다. 또한 제17조 “조사 결과의 비교”에서는 서로 다른 시점에서 실시된 여론조사는 그 조사방법이 동일한 경우에만 상호비교가 가능하고, 지지율의 상승과 하락에 대한 표현을 할 경우에도 기존 여론조사 결과의 추세, 최대 표본오차, 표본 수 등을 종합적으로 고려해 신중하게 보도해야 한다고 되어있다. 더 설명할 것도 없이 이 두 개 조항은 언론인뿐 아니라 여론조사 결과를 제대로 이해하는데 가장 핵심이 되는 준칙이라고 할 수 있다.