신우람 | 통계청 통계정보플랫폼과 사무관

FOCUS

초거대 AI가 쏘아올린
일상 속 통계활용의 시대

국제학술지 네이처는 매년 우주과학, 생명공학, 환경, 물리학 등 다양한 과학기술분야에서 뛰어난 업적을 보인 과학자 10명을 선정하여 ‘네이처10’을 발표하고 있다. 2023년에는 인류 최초로 달 남극에 찬드라얀 3호를 착륙시킨 인도 우주연구기구(ISRO)의 칼파나 칼라하스티 박사와 멸종위기종의 번식을 돕는 유전공학기술을 개발한 하야시 카츠히코 박사 등이 포함된 10명의 과학자가 선정되었다. 그런데 지난해 ‘네이처10’에는 사람이 아닌 사물이 과학자들과 함께 이름을 올려서 세간의 관심을 받았다. 바로 챗GPT가 포함된 것이다. 이에 대해 네이처는 챗GPT가 비록 사람은 아니더라도 2023년 과학계에 지대한 영향을 끼쳤고, 학습된 데이터로 대화를 이어가는 것이지만 이를 통해 과학자들이 일하는 방식을 변화시키고 있기 때문에 ‘네이처10’에 선정되었다고 밝힌 바 있다.

전문지식을 학습한 AI와의 대화를 통해 과학자들의 일하는 방식이 변화하고 있다는 네이처의 발표는 시사하는 바가 크다. 새로운 정보를 탐색하고 이와 연관된 종합적인 통찰력을 얻기 위해서 우리는 일상적으로 검색 기능을 사용하고 있다. 웹사이트의 모든 정보를 검색해주는 포털의 검색엔진이나, 국가통계포털에서 통계를 찾아주는 검색 기능도 기본적으로 궤를 같이하는 부분이 바로 키워드 검색이다. 특히 국가통계포털에서는 많은 사용자들이 통계에 대해 궁금한 점을 키워드로 정리해서 검색창에 입력하고 검색 버튼을 클릭함으로써 수많은 통계정보의 바다에 풍덩 뛰어들게 된다. 그러나 대부분의 검색 결과에는 내가 원했던 정보뿐만 아니라 굳이 알고싶지 않은 불필요한 내용들까지 검색의 그물망에 함께 끌어올려지는 바람에 내가 필요했던 정보가 맞는지 하나하나 선별하고 검증하는 지난한 과정도 어쩔 수 없이 거쳐야 한다.

국가통계의 성장과 통계이용자의 불편

많은 독자들이 이미 경험했듯이, 국가통계포털에는 1300여종의 통계와 23만개 가까운 통계표가 수록되어 있어 국민들이 시간과 공간의 제약없이 자유롭게 통계를 이용할 수 있다. 그리고 통계의 주제는 매우 다채롭다. 인구부터 보건, 범죄, 환경, 국토이용, 물가와 금융, 환경에 이르기까지 어쩌면 인류의 모든 지식체계와 생활상이 국가통계의 포괄범위에 있다고 해도 과언이 아닐 듯하다. 통계의 주제범위가 넓다고 해서 각각의 통계의 깊이가 낮은 것도 아니다. 국가통계가 작성되기 위해 통계분류체계를 반드시 사용해야 하고, 용어와 변수도 공식적이고 전문적인 단어와 개념을 사용하고 있다. 또한 통계에 기반한 정책 개발과 평가가 자리 잡는 것과 함께 증거 기반 의사결정 시대가 열리면서 새로운 통계도 지속적으로 개발되고 있다. 그 결과 최근 5년 동안의 국가통계종수는 1,142종에서 1,332종으로 증가하였고, 통계표 수도 145,988개에서 227,158개로 증가하는 등 국가통계의 성장세가 가파르다.

그러나 통계의 전문성이 강화되고 주제범위도 다양해지는 등 통계정보 제공의 질적, 양적 성장이 강조되는 장면의 이면에는 통계를 이용하고자 하는 일반 국민이 통계 이용에 어려움을 호소하는 목소리도 함께 커지고 있는 것도 현실이다.
2023년 일반 통계이용자 5,488명을 대상으로 통계정보서비스 이용 시 문제점을 묻는 설문조사 결과를 살펴보면, 통계정보를 이해하는데 어려움을 겪는다고 답한 비율이 36%로 가장 높았고, 그 다음으로 통계검색이 어렵다고 답한 비율이 35%를 차지했다. 쓸모있는 통계를 많이 제공한다고 해서 국민이 통계를 편하게 이용하는 것은 아니라는 의미이다. 결국 쉬운 용어로 통계를 설명하고 통계에 접근하는 방식도 더 편리하게 바꿔야 한다는 결론에 다다르게 된다.

규칙기반 챗봇의 등장과 한계

통계이용자가 보다 쉽게 원하는 통계정보까지 접근할 수 있도록 이미 국가통계포털에서는 2021년부터 챗봇 서비스를 실시하고 있다. 민간기업과 공공기관을 포함해 이 시기에 만들어진 대부분의 챗봇은 규칙기반 챗봇의 모습을 띄고 있다. 규칙기반 챗봇이란 사전에 미리 정의된 다양한 규칙과 응답 집합에 따라 작동되는 챗봇을 의미한다.
즉 예상되는 질문을 미리 만들고, 이에 대응하는 답변도 서로 쌍을 이루도록 잘 정비된 시나리오에 따라 움직이면 최상의 성능을 보여준다. 그런데 사전에 서로 합의된 질문과 응답의 범위에서 조금만 벗어나면 제대로 작동되지 않을 가능성이 높다. 특히 정확한 용어를 사용해야 답을 준다는 점이 큰 한계로 지적된다. ‘가계가처분소득’이나 ‘비임금근로자’, ‘합계출산율’ 같은 전문적인 통계용어를 정확히 언급하면서 질문해야 답을 들을 가능성이 높다. 실제로 현재 국가통계포털에서 서비스 중인 코봇에 2023년의 출생아 수가 몇 명인지 질문하면 기특하게도 인구동향조사의 통계표로부터 출생아 수가 23만명이라는 정확한 답을 찾아서 제시해 준다. 출생아 수를 물어보는 질문에는 인구동향조사에서 답을 찾도록 하는 ‘규칙’이 제대로 작동하고 있기 때문이다.
그런데 이 규칙에 조금만 변조를 주면 어떻게 될까? 출생아 수 대신 우리가 일상생활에서 사용하는 아주 편안한 대화의 방식을 가정해보자. ‘2023년에 사람들이 아이를 얼마나 많이 낳았어?’라고 질문하면 코봇은 인구동향조사 대신 엉뚱하게도 한부모가족실태조사나 지자체의 사회조사 결과를 제시해 주며 슬그머니 물러난다. 무슨 질문을 하는지 제대로 이해하지 못했기 때문이다. 만약 일상언어를 더 잘 이해하는 AI라면 어땠을까?

이용자와의 대화를 통한 질의내용 구체화 과정

통계정보 접근에 있어 초거대AI의 역할

초거대AI를 구성하는 핵심요소는 대규모언어모델로, 수천억개의 매개변수를 포함하고 있기 때문에 자연어의 이해능력이 뛰어나고 동시에 학습데이터로부터 생성한 정보를 쉬운 단어로 풀어서 설명하는 능력 또한 탁월하다.
즉 질문자가 통계에 대한 사전지식이 풍부하지 않아도 사회·경제 현상 등 우리 주변의 여러 현상에 대해 일상언어로 질의하면 초거대 AI를 품은 통계 챗봇은 그 의도와 맥락을 파악하여 통계수치나 용어를 해설해준다. 유사한 용어가 있다면 그 차이점도 알려줌으로써 국민 눈높이를 맞추어 정보를 제공할 수 있어 어려운 통계에 대한 문턱이 대폭 낮아지게 될 예정이다. 예를 들어 ‘가정에서 마음대로 쓸 수 있는 돈’이라거나 ‘자영업자나 돈을 받지 않고 일하는 가족’, ‘여성 한 명이 평생 낳을 것으로 예상되는 아이 수’라는 식으로 표준적인 통계용어가 아닌 일종의 개념을 들어서 질문하면 그 의미가 무엇인지 이해하고 답변을 찾아 준다.

초거대 AI의 우려점과 대안

다만 초거대 AI는 장점만 있는 것이 아니다. 정확한 답을 찾지 못할 경우, 방대한 학습 내용 중에 비슷한 부분만 짜깁기해서 잘못된 정보를 주는 이른바 환각 현상이 발생할 수 있다. 초거대 AI의 환각 현상을 꼬집는 대표적인 사례로 세종대왕이 한글 창제 과정에서 집현전 학자들을 꾸짖던 도중 그만 맥북을 집어 던졌다는 일화나 허쉬 초콜릿은 한국전쟁 이후 미국으로 건너간 허씨 부자에 의해 탄생되었다는 등의 황당한 이야기가 회자된다. 초거대 AI에 통계에 대해 질문해 보면 어떤 답변을 하게 될까? 현재 서비스되고 있는 초거대 AI에 의사들이 평균적으로 아이를 얼마나 많이 낳는지 볼 수 있는 통계가 있는지 물었더니 합계출산율 감소에 대한 일반적인 현황과 평균 초산연령에 대한 정보를 알려주고 있다.

다른 초거대 AI 서비스는 인구주택총조사 결과를 언급하면서 남/여 의사의 자녀수를 각각 1.76명, 1.45명으로 그럴듯하게 제시하고 있다. 사실 질문을 교묘하게 했을 뿐으로 의사의 평균 자녀수가 조사된 공식 통계는 실제로 존재하지 않는다. 그럼에도 불구하고 그러한 통계를 찾지 못했다는 정직한 답변을 하는 대신, 두루뭉술하게 말을 돌리거나 없는 정보를 억지로 만들어 내는 것은 생성형 AI를 활용함에 있어 걱정스러운 요소이다.
새로운 통계 챗봇은 이러한 환각 현상을 최소화 하기 위해 검색 증강 생성서비스(RAG: Retrieval Augmented Generation)를 적용한다. 언어를 이해하고 표현하는 능력은 민간의 검증된 초거대 AI 언어모델을 활용하되, 실제로 정보를 검색하고 답변을 생성하는 부분은 전문적인 문서들이 고차원적인 벡터로 저장된 통계지식데이터베이스에서만 찾아오는 방식이다.
이 데이터베이스에는 1300여종의 통계에 대한 메타데이터와 설명자료, 정보보고서 등이 저장된다. 주제별 통계를 가장 상세하게 설명하고 특징들까지 해석한 보도자료나 간행물도 함께 포함한다. 이때 사용되는 학습데이터들은 이미 통계청 누리집이나 국가통계포털 등을 통해 완전히 공개된 자료라는 공통점이 있다. 공개된 데이터로부터 정보를 찾는 방식이므로 혹시 있을지 모를 데이터 유출사고나 개인정보가 노출되는 문제상황으로부터 완전히 자유로울 수 있다는 의미이다.
결과적으로 통계이용자들은 종합적인 통계정보를 접할 수 있고, 무엇보다 우리가 일상에서 흔히 사용 하는 단어와 문장으로 설명을 들을 수 있게 된다. 필 요할 경우 정보를 요약하여 핵심만 간추릴 수 있다는 점도 장점이다.

초거대 AI 통계챗봇은 통계분류에 대해서도 학습해 나갈 예정이다. 앞서 언급한 질문의 예시처럼, 의사의 평균적인 자녀수를 알 수 있는 통계는 없다. 그러나 만약 초거대 AI가 통계분류를 이해하고 있다면, 의사의 평균 자녀수와 관련된 통계는 없지만 표준직업분류 상 의사가 포함된 ‘전문가 및 관련 종사자’의 출생자녀수 통계표를 대안으로 제시할 수 있게 된다. 물론 의사가 포함된 상위분류이므로 활용에 주의하라는 언급도 함께 제공한다.
이용자와 대화도 가능하도록 설계된다는 점도 새로운 통계챗봇만의 차별점이다. 만약 통계이용자의 질문 내용이 모호하거나, 지나치게 광범위한 내용을 질문한다면 통계챗봇은 역으로 질문의 의도를 재확인함으로써 질문자가 궁금한 내용이 무엇인지 정확히 파악한다. 예를 들어서 반려동물 사업체수를 질문한다면 통계챗봇은 표준산업분류를 제시하면서 농업, 임업 및 어업에 해당하는 애완동물 사육 사업체 수를 묻는 의도인지, 아니면 애완동물을 소매하는 도매 및 소매업에 대해 묻는 질문인지를 역으로 물어봄으로써 의도와 맥락을 정확히 파악하여 답변을 제공하는 식이다.

이용자와의 대화를 통한 질의내용 구체화 과정

초거대 AI 통계챗봇이 가져올 미래모습

이처럼 혁신적인 통계접근방식은 2024년 5월부터 11월까지 서비스 구축이 추진된다. 올해 연말에 시범운영을 통해 성능을 확인하고 개선사항을 보완한 후 2025년 1월부터 본격적인 대국민 서비스가 시작된다. 또한 통계청은 초거대 AI의 기술발전 추이를 지켜보면서 앞으로는 더 다양한 영역에 초거대 AI를 접목할 예정이다.
2026년부터 시작될 예정인 ‘통계정보플랫폼 및 원포털 구축사업’이 완성되는 2028년부터는 초거대 AI가 통계표의 수치 해석을 돕고 이용자의 통계분석까지 지원하게 된다. 공간정보와도 접목해서 분석 결과를 통계지도로 변환해주고, 데이터 특성을 가장 잘 표현하는 형태로 그래프를 그려주는 등 시각화 영역까지 확장될 예정이다. 이 단계까지 도달하면 국민들은 초거대 AI 통계챗봇과의 대화를 통해 일상생활에 가까이 있는 의사결정까지 활용할 수 있게 된다. 예를 들면 ‘대전시 내에서 이사를 가려는데 최근 5년간 집값이 덜 올랐으면서 주변에 학교가 많은 동네를 추천해줘’라고 챗봇창에 입력하면 초거대 AI가 인구주택총조사, 주택매매동향조사, 전국사업체조사 등의 통계자료를 공간정보와 연계하여 분석하고 가장 적합한 후보지를 추천하는 것도 가능해진다.

초거대 AI는 이제 막 걸음마를 시작했다. 문장을 이해하고 정보를 찾아서 제시해주는 수준을 넘어 앞으로는 소리와 영상까지 이해하여 추론할 수 있게 된다. 더 시간이 지나면 통계를 비교하여 분석하고, 자료 간 유사성과 차이를 통찰력 있게 제시해주는 것은 물론, 나아가 인류의 일하는 방식까지 바꿔놓을 것으로 전망된다. 사람이 할 일들을 AI가 대체하는 시대에 대한 두려움과 우려도 일각에서는 가지고 있을 것이다. 그렇지만 다가올 가까운 미래에서는 상황판단과 의사결정에 꼭 필요한 통계를 배경지식과 경험이 풍부한 전문가들만 쓰는 시대는 아닐 것이다. 누구나 쉽게 필요한 통계를 찾아서 이해하고, 분석을 통한 시사점까지 도출해내는 이 통계활용과정이 국민의 일상생활에서 움틀 수 있기를 바란다. 통계에 대한 문턱을 아주 낮추기 위한 긴 레이스의 출발선에 서 있는 초거대 AI 통계챗봇의 활약에 기대를 걸어봐도 좋겠다.