• FOCUS
  • 박재현
  • IT DAILY 기자

생성형 AI 시대 통계 데이터 융합
‘관리’와 ‘활용’으로 가치 확보해야

들어가며

바야흐로 데이터의 시대다. 주위에 보이는 네트워크 통신이 가능한 전자기기는 모두 데이터를 발생·누적시킨다. 요즘에는 단순히 데이터 생산보다 유의미한 정보를 추출할 수 있도록 수집, 분석, 해석하는 과정을 거쳐 통계화 된다. 통계화된 데이터는 특정 집단의 정책 결정, 연구 개발, 비즈니스 전략 등 여러 분야에 적용되면서 의사결정의 신뢰성과 근거가 되곤 한다. 하지만 단순히 통계 데이터를 융합하는 것만큼 중요한 것이 있다. 바로 잘 융합된 통계 데이터들의 현행화와 변조에 대응할 수 있는 ‘관리’ 체계를 갖추는 것과 사용자들이 손쉽게 사용할 수 있도록 접근성을 확보한 ‘활용’ 이다. 생성형 AI 시대에 ‘데이터 거버넌스 기반 데이터 관리’와 ‘접근성을 갖춘 데이터 활용’ 등 2가지 측면에서 통계 데이터 융합의 가치를 더할 수 있는 방안을 모색해 본다.

생성형 AI와 통계 데이터 융합

1. 중요성

통계 데이터는 다양한 형태의 데이터를 수집, 분석, 해석해 유의미한 정보를 얻을 수 있는 데이터로 정의할 수 있다. 우리 주변에서도 쉽게 찾아볼 수 있다. TV 경제 채널에서, 혹은 정부 발표 자료에서, 글로벌 조사기관의 보고서들에서 잘 나타난다. 환율 통계 데이터는 한국은행이 발표하는 물가지수 데이터에서, 금리 통계 데이터는 금융 당국이 발표하는 보고서 등 다양하게 발표되고 있다. 여러 통계 데이터를 활용해 원하는 분석 정보를 추출하고 얻은 정보는 정책 입안, 연구 개발 방향, 비즈니스 전략 수립 등 의사결정을 지원하는 도구로 사용될 수 있다. 통계 데이터는 기술 통계와 추론통계로 구분되며, 각각 방법론에 따라 데이터를 처리하고 활용하는 방식도 다르다. 최근에는 생성형 인공지능(AI) 바람이 전 산업군을 휩쓸며 통계 데이터의 중요성이 주목받고 있다. 생성형 AI의 중심에 있는 AI 모델은 실제 지식이 아닌, 통계적으로 훈련된 데이터에서 패턴을 예측하는 방식으로 작동한다. AI가 학습할 수 있는 신뢰성 높은 데이터의 양이 무수히 많아야 생성형 AI의 완성도가 높다는 의미다. 그렇다면 가장 완성도 높은 데이터는 무엇일까. 데이터의 완성도를 평가하는 여러 잣대가 있지만, 단순하게 생각하면 데이터에서 유의미한 정보들을 추출할 수 있도록 여러 차례 정제된 과정을 거친 통계 데이터일 것이다. 또한, 이렇게 정제된 통계 데이터를 다양한 출처의 데이터와 결합해 포괄적이고 유의미한 정보를 도출하는 ‘융합’ 의 과정을 거치면 데이터 분석 정확성을 향상할 수 있고, 새로운 인사이트를 발굴할 수 있으며, 다양한 분야로의 활용 가능성도 넓힐 수 있다.

데이터 분석을 위한 4대 프로세스

한 글로벌 데이터 기업 관계자는 본 기자와의 미팅에서 “통계 데이터 융합은 정확한 예측과 분석 그리고 효율적인 자원 활용, 혁신 촉진 등 3가지 측면에서 강점이 있다. 다양한 출처의 데이터를 결합해 정확한 예측 모델을 구축할 수 있고 정책결정이나 비즈니스 전략 수립에 지대한 영향을 줄 것이다. 또 데이터 융합을 통해 중복된 정보를 제거하고 필요한 정보를 효율적으로 추출할 수 있다. 마지막으로 새로운 인사이트를 제공함으로써 연구 개발 및 산업 혁신을 촉진할 수도 있다”고 강조하기도 했다.

그렇다면 생성형 AI 시대에 통계 데이터 융합은 어떠한 가치가 있을까. 이 해답을 챗GPT에 물어봤다. 그 결과 ‘생성형 AI와 통계 데이터 융합은 생성형 AI 모델로 하여금 기존 데이터 분석뿐만 아니라 새로운 데이터를 생성할 수 있는 능력을 고도화할 수 있게 한다. 또 다양한 분야에서 통계 데이터를 효과적으로 활용할 수 있도록 할 수 있다’는 답을 내놨다. 쉽게 말해 생성형 AI는 통계 데이터를 보다 풍부하게 활용할 수 있는 도구로, 데이터 분석의 정확성과 효율성을 높일 수 있도록 기여할 수 있다는 것이다. 또 통계 데이터를 생산하는 여러 산업군의 데이터 기반 의사결정을 지원하고, 새로운 인사이트를 제공할 수 있다는 것이다. 일례로 금융 산업에서는 다양한 통계 데이터를 생성형 AI로 분석하고 추가 움직임을 예측함으로써 리스크 관리와 거래 전략 발굴에 도움을 얻을 수 있다.

2. 관리

통계 데이터를 비롯해 모든 데이터는 유의미한 데이터 분석(빅데이터)을 위한 재료로 사용된다. 정확하고 신뢰 할 수 있는 결과를 얻기 위해서는 재료 관리가 중요하다. 이 과정을 IT 업계에서는 데이터를 사용하는 기관 및 기업, 조직이 정한 규정인 ‘데이터 거버넌스(Data Governance) 기반 데이터 관리’라는 단어로 사용한다. 정확한 의미는 데이터의 생성부터 사용에 이르기까지 모든 단계를 체계적으로 ‘관리’해 데이터의 품질과 보안을 보장하는 것이라는 의미다. 데이터에 대한 중요성이 확대될수록 체계적인 데이터 거버넌스 기반 데이터 관리 역시 부각될 것으로 예상된다.

일반적인 데이터 거버넌스 구현 절차는 크게 데이터 표준화, 메타데이터 관리, 데이터 품질관리, 데이터 계보관리, 데이터 카탈로그 관리 등의 순서로 진행되는 경우가 많다. 먼저 여러 곳에서 수집된 데이터의 형식이나 범위 등을 기준에 맞게 일치시키는 ‘데이터 표준화’를 수행해 데이터의 규격을 완성하고, 이렇게 완성된 데이터의 메타정보를 토대로 메타데이터를 관리한다. 이후 데이터에 대한 품질을 관리하면서 데이터 거버넌스 체계를 잡아 가곤 한다. 글로벌 컨설팅 기업 맥킨지가 공개한 보고서에 따르면, 글로벌 상위 2,000개 기업 중 70% 이상이 최근 2년 사이 최신 기술을 활용한 새로운 데이터 아키텍처를 도입했거나 가까운 시일 내에 도입하려는 로드맵을 가지고 있는 것으로 나타났다. 하지만 이들 중 약 50%는 한 가지로 통합되지 않은 데이터 모델을 활용하고 있으며, 대다수는 자사의 데이터 중 25% 이하만을 단일한 데이터 플랫폼에 통합하고 있는 것으로 나타났다. 이는 기업이 보유한 데이터 중 75% 이상은 통합되지 않은 개별 데이터 저장소에 보관되고 있으며, 데이터 사일로(Silo)화가 상당한 수준으로 일어나고 있다는 것을 의미한다.

결국 아무리 데이터를 잘 정제하고 활용할 수 있는 환경이 마련됐더라도, 데이터 거버넌스 기반 ‘관리’ 체계가 미 흡하다면 데이터의 품질과 신뢰성은 하락하게 될 것이다. 통계 데이터 융합 역시 이와 다르지 않다. 잘 정제된 통계 데이터를 타 데이터와 융합해 유의미한 정보를 도출하기 위해선 융합 과정이 끝난 데이터를 특정 기업 및 기관이 정한 데이터 규정에 따라 관리해야 데이터의 신뢰성을 확보할 수 있다는 것이다. 글로벌 데이터 기업 관계자는 “통계 데이터를 타 데이터와 융합했다면, 이후 데이터 거버넌스 기반 관리 전략을 수립해야 한다. 일반적으로 데이터 통합 플랫폼을 사용해 분산된 데이터를 한 곳에서 관리한다. 이때 데이터 중복을 제거(클렌징)한 후 고품질의 데이터를 유지하는 작업이 필요하다”며 “특히 융합된 통계 데이터의 품질을 유지하고 개선하기 위해 통계 데이터에 대한 품질관리도 병행해야 한다”고 조언했다.

3. 접근성을 갖춘 활용 체계

“궁극적으로 모든 데이터는 ‘활용’될 때 존재가치가 있다.” 이 말은 데이터와 관련한 명언 중 데이터 본연의 가치 를 가장 잘 꿰뚫는 문장이다. 데이터를 수집하고 저장하며 관리하는 일련의 모든 과정이 ‘활용’이라는 절차를 위해 존재한다는 의미다. 통계 데이터를 잘 활용하기 위해서는 어떠한 것이 가장 중요할까. 그 해답은 바로 ‘접근성 을 갖춘 활용 체계를 구비하는 것’이다. 통계 데이터나 기타 데이터를 바라보는 마지막은 결국 사람이다. 사람들이 통계 데이터가 내포한 유의미한 정보에 얼마나 쉽고, 빠르게, 간편하게 접근하는지가 잘 활용하는지에 대한 여부를 결정짓는다. 생성형 AI 이전 통계 데이터는 유의미한 정보를 내포한 데이터로, 최종적으로 사람들에게 직관적이고 직접적으로 표나 그래프, 문장으로 제공됐다. 결국 통계 데이터를 보는 사람들이 직접 유의미한 정보를 추출해야 했다. 가령 증권의 경우 여러 지표들이 담긴 통계 데이터를 분석가들이 본인들이 보유한 지식과 노하우, 정보, 데이터를 결합해 유의미한 분석 결과를 보고서로 제공하곤 한다. 하지만 최근 종착지가 생성형 AI 인터페이스로 변화했다. 사람들은 생성형 AI에 다양한 통계 데이터를 요청하기 도 하고 데이터 학습을 추가하거나 새로운 데이터와 융합해 유의미한 정보를 얻기도 한다. 생성형 AI로 인해 사 용자가 통계 데이터로부터 유의미한 정보에 보다 쉽게 접근할 수 있게 된 것이다. 단순 표·그래프 형태의 통계 데이터가 담긴 보고서가 아닌 UI 인터페이스가 통계 데이터를 요약하고 분석하고 유의미한 정보를 추출해 주기까지 하는 형태로 진화한 것이다. 그렇다면 ‘접근성’ 측면에서 사용자가 이용하는 생성형 AI가 통계 데이터에 더 빠르게 접근하게 만들기 위해서는 기술적으로 필요한 것은 무엇일까. 챗GPT에 물음을 던지면, △데이터 아키텍처 및 플랫폼 강화 △클라우드 기 반 솔루션 활용 △자동화된 데이터 관리 프로세스 △자연어 기반 데이터 탐색 △보안 및 개인정보보호 강화 등 5가지 해답을 내놓는다. 물론 상당히 좋은 방법이다. 여러 답안들을 한 문장으로 정의하면 생성형 AI가 사용자 질 의에 대한 해답이 어느 데이터에 있는지 빠르게 찾아갈 수 있는 이정표를 만드는 것이다. 위 5가지 해답 모두 이 답에 귀결된다. 최근 생성형 AI가 데이터를 찾는 길을 쉽게 표기하는 기술인 ‘데이터 카탈로그’도 부상하고 있다. 데이터 카탈로 그는 데이터 자산에 대한 수집-검색-공유-활용을 위한 데이터 접근성과 가시성을 제공하는 백과사전으로 정의할 수 있다. 특정 데이터가 어디에 있는지 어느 데이터베이스(DB)에 있는지 표기된 일종의 안내서인 것이다. 쉽게 말해 사용자가 원하는 데이터를 생성형 AI가 쉽게 찾을 수 있도록 비즈니스 용어, 데이터 소유자, 민감 정보 여부, 데이터 탐색 및 필터링, 접근 권한 관리, 마스킹/암호화 등 데이터 접근에 대한 정보부터 업데이트 주기 및 시점, 업데이트 건수 및 이상치 등 데이터 품질, 레코드 크기와 키(Key) 정의, 레코드 간 관계 등 데이터 구조 정의, 데이터 흐름, 변화 등 데이터 가시성에 대한 정보까지 다양한 기술 요소들이 담겨있다. 이러한 데이터 카탈로 그는 검색증강생성(RAG)을 위해서도 핵심적인 역할을 수행하기도 한다.

만일 기업이 생성형 AI를 설치하고 직원들이 데이터를 잘 활용하게 만들고 싶다면, ‘접근성’에 초점을 맞춘 활용 체계를 잘 구현해야 할 것이다.

마치며

거시적인 관점에서 통계 데이터를 타 데이터와 융합해 유의미한 정보를 추출하는 ‘통계 데이터 융합’의 가치 있게 더하는 방법을 현직 IT 전문지 기자의 시선에서 바라봤다. ‘데이터 거버넌스 기반 데이터 관리’를 통해 일관성 있고 신뢰할 수 있도록 융합된 통계 데이터 관리 체계를 마련하고, 생성형 AI가 융합된 통계 데이터를 더 빠르고, 쉽게 접근할 수 있도록 ‘접근성 갖춘 활용 체계’를 구비한다는 점을 강조했다. 최근 데이터 드리븐 기업 및 조직(Data Driven Enterprise and Group)이라는 단어가 IT 업계 및 국내 기업들 사이에서 들불처럼 번지고 있다. 아마 한 기업을 운영하는 대표, 그룹을 이끄는 리더들은 한 번쯤 들어봤을 것이다. 단어의 뜻은 데이터를 기반으로 의사결정을 내리는 기업 및 조직을 의미한다. 이를 위해 데이터 수집과 분석도 중요하지만, 구성원이 데이터를 이해하고 활용할 수 있는 역량인 데이터 리터러시(Data Literacy)를 갖추고 적시에 데이터에 접근할 수 있는 데이터 관리 체계와 AI 기술을 활용해 데이터를 분석하고 유의미한 정보 추출을 자동화하는 것이 요구된다. 통계 데이터를 융·결합해 비즈니스를 창출하기 위해서는 데이터 사전 준비, 데이터 결합키 생성 및 정보전달, 데이터 결합, 추가 처리 및 반출심사 요청 등 개인정보보호를 비롯해 법적 규제, 기술적 절차 등 준수해야 할 요소들도 많고 기술적인 방안이나 통계 데이터 융합 사례, 쉽고 재밌는 요소들을 글로 전개하는 것도 의미가 있을 것이다. 다소 딱딱하고 기술적일 수 있지만, 필자는 데이터는 ‘활용될 때’ 본연의 가치가 있다는 점을 알리고 싶다. 이를 위해 더 잘 활용할 수 있는 방안, 그리고 활용하기 전과 후 융합 통계 데이터를 관리하는 방안 등을 서술하는 것이 융합된 통계 데이터의 가치를 돋보이게 할 수 있다고 생각한다.

PageTopBtn

(35220) 대전광역시 서구 한밭대로 713(월평동)
통계센터 통계교육원 | E-mail : stimaster@korea.kr

Copyright(c)2014 Staticstis Training Institute.
All Rights Reserved.