김현우 | 행정안전부 통합데이터분석센터 주무관
FOCUS
세계 최초 개발된
보이스피싱 음성분석 모델
보이스피싱 피해 건수는 총 15만 6,249건, 피해액은 3조원
보이스피싱 범죄 피해 규모는 5년간 평균 약 6,100억원 이상으로 국민 고통이 크고, 범죄예방 관련 사회·경제적 비용도 급증하고 있는 상황이다. 최근 경찰청 발표 자료에 따르면 지난 5년간 국내에서 발생한 보이스피싱 피해 건수는 총 15만 6,249건, 피해액은 3조원을 넘어서는 등 국민 생활에 심각한 영향을 미치고 있는 것으로 나타났다.

보이스피싱 수사를 위해 음성을 통한 동일인 여부 판단 필요
그동안 국내에서는 행정안전부 국립과학수사연구원(이하 국과수)이 러시아와 영국에서 개발한 음성 분석 모델을 활용하여 보이스피싱 수사에 필요한 음성 감정을 진행해왔다. 하지만 외국어로 학습된 분석모델 특성상 한국어를 사용하는 범죄자의 동일인 여부를 판별하는 정확도에는 한계가 있었다. 음성 감정 시 두 개의 음성을 비교하여 동일 화자(話者) 여부를 판단해야 하는데 정확도가 낮아서 감정 불가 사례(약 70%)가 지속적으로 발생하고 있었다.
특히, 보이스피싱 범죄 조직은 통상 그룹(수사관역할, 검사역할 등)을 이루어 활동하지만 기존에 보유하고 있는 외산 모델에서는 그룹별 군집화 기능은 없었고 화자 구분만 가능했다. 군집화 유사 분석모델이 러시아에서 개발된 바 있으나 사건별 연루자들을 그룹화한 기능은 없었다. 또한 국과수에서 사용하는 외산 모델은 구매 및 유지 관리 비용이 커 사용자 확장성이 부족하다는 단점이 있다. 경찰청, 각 시·도 경찰서에는 다량의 전화금융사기 범죄자 음성데이터를 확보하고 있음에도 불구하고 이를 분석할 수 있는 시스템이 없어 범죄자 음성분석이 불가능한 상황이었다.
최초의 한국어 기반 음성분석모델 개발 추진
범정부 데이터분석활용 허브기관인 행정안전부 통합데이터분석센터는 외산모델의 기능 및 사용범위 한계를 해결하기 위해 화자구분의 정확성을 높이고 보이스피싱 범죄조직 식별·군집화까지 가능한 최초의 한국어 기반 음성분석모델의 개발을 목표로 국과수와 2022년 8월부터 협업체계를 구축하여 모델 개발을 추진하였다. 통합데이터분석센터는 범죄 수사 현장의 요구를 충분히 반영하여 분석과제 발굴, 상세기획, 데이터 확보·정제, 알고리즘 수립, 활용방안 등을 관리하는 역할을 담당했고 국과수는 분석모델의 알고리즘 상세 설계, 학습에 필요한 음성데이터 분류 및 가공, 반복적인 학습 및 성능 검증을 수행하여 분석모델을 고도화하는 역할을 담당했다.
‘보이스피싱 음성분석 모델’ 개발을 위한 데이터 및 모델링 과정은 약 6천명의 국내외 발화자로부터 추출한 100만개의 음성데이터를 활용, 다양한 학습과정과 성능검증과정을 반복 수행해 ①동일 화자여부 검증, ②동일 범죄 가담자 그룹화가 가능한 모델을 정립하였다. 특히 한국어의 경우, 약 10만개 이상의 일반인 음성데이터와 국과수가 보유 중인 실제 보이스피싱 사기범 음성데이터를 함께 사용하여 다양한 학습 과정과 성능 검증과정을 반복 시행함으로써 보이스피싱 화자 구분 등에 필요한 최적의 알고리즘을 만들어 낼 수 있었다.
동일 화자여부 검증 기능
첫 번째 기능인 동일 화자여부 검증은 최신 딥러닝(Deep-learning) 기술을 기반으로 한국어와 외국어 음성데이터 학습과정을 거친 개발 모델을 활용하여 동일인일 확률 값을 출력한다. 보이스피싱 범죄자 검거 시 분석모델을 활용하여 기 확보 중인 범죄자 음성데이터들과 비교, 일치여부 등에 따라 범죄자의 여죄를 확인하는데 사용할 수 있다.

범죄 가담자 그룹화 기능
두 번째 기능인 범죄 가담자 그룹화는 보유하고 있는 보이스피싱 음성데이터 풀(pool) 가운데서 화자 특징이 유사하고 연관성있는 음성들을 군집화하여 사기범 집단을 그룹화할 수 있다. 보이스피싱 범죄조직은 통상 그룹(수사관역할, 검사역할 등)을 이루어 활동하는데 아래 그림과 같이 사건(범죄1~4)별 범죄자 목소리의 연쇄 비교과정을 거쳐 동일인 확인 및 군집화를 분석모델을 통해 할 수 있다. 사건별 연루자들을 군집화 할 수 있는 기술은 사실상 세계 최초로 구현했다고 볼 수 있다.

기존 보유하고 있는 외산모델 대비 약 77% 향상
개발한 음성분석 모델의 모델 성능을 검증하기 위해 1차 150명의 660여개 음성데이터, 2차 200명의 12,000여개 별도 음성데이터를 사용하여 평소발성/위장발성, 일반녹음/무선통화녹음/유선통화녹음 등 다양한 환경의 상황하에 검증을 진행하였다. 1·2차 성능 검증 결과, 범죄자의 음성을 정확하게 판별해내는 판독률이 기존 보유하고 있는 외산모델 대비 약 77% 향상된 것이 확인됐다.
기존에는 100개의 범죄자 음성 감정시 외산모델에서는 화자 동일성 여부를 28개 정도만 판별해 낼 수 있었지만 새롭게 개발한 모델에서는 51개까지 판별이 가능하다. 그리고 동일화자 및 군집화에 대한 분석모델의 정확도는 약 96.6% 수준으로 확인됐으며 정확도란 분석모델이 ‘범죄자를 범죄자로 판별’한 경우의 신뢰도 수준에 해당한다고 보면 된다.
보이스피싱 음성분석 모델이 성공적으로 개발이 완료됨에 따라 통합데이터분석센터는 국과수, 경찰청과 협력하여 보이스피싱범 수사와 검거 과정에 적극적으로 활용하고 해외 확산도 추진하고자 한다. 먼저, 국과수는 새로 개발된 모델을 2월 말부터 보이스피싱 사기범 목소리 감정에 활용하고 있으며 보유 중인 약 1만 개의 보이스피싱범 음성데이터를 군집 분석하여 범죄조직 그룹화와 이미 검거된 범죄자의 여죄 추궁 등에 사용한다. 아울러 경찰청과도 모델을 공유하여 보이스피싱 범죄 초동수사의 속도와 검거율을 높이는데 활용하고 기관사칭, 전세사기 등 다양한 음성관련 범죄 수사 전반에 적용해 국민피해를 최소화 하고자 한다.
통합데이터분석센터, 데이터 분석을 통해 국민·사회현안을 해결
행정안전부 통합데이터분석센터는 ‘데이터기반행정법’에 근거하여 중앙·지자체·공공기관을 아우르는 범정부적 관점에서 데이터분석 및 활용을 지원하기 위해 2021년 12월에 설치되었다. 데이터 분석을 통해 국민·사회현안을 해결하거나 데이터에 기반한 좋은 정책이 만들어질 수 있도록 지원, 기관의 데이터 분석·활용 역량 강화를 위한 교육과 컨설팅 등을 지원한다.
앞으로 통합데이터분석센터는 국민의 관심사항 및 사회이슈에 대한 지속적 분석 및 모니터링을 통해 효율적 국정운영 및 국민 체감형 행정서비스를 할 수 있도록 하려고 하며, 2023년에는 공정사회, 국민안전, 보건·의료 등의 분야의 데이터 분석과제를 선정해 ‘국민들이 실질적으로 체감할 수 있는 혁신적인 대국민 서비스 제공’을 위해 전문적인 역량을 발휘할 예정이다.
