최원재 | 클라우드와이즈 대표
FOCUS
조선시대, 송남잡지에서 살펴본
아날로그 데이터 사이언스

흔히 데이터 사이언스라고 하면 빅데이터와 이에 대한 분석을 먼저 떠올립니다. 그리고 빅데이터 분석이라고 하면 또 통계와 확률을 떠올립니다. 그러나 데이터 사이언스의 목적을 따져보면 반드시 데이터 사이언스가 숫자와의 뒹굴기만으로 이뤄진 것이 아니라는 사실을 알게 됩니다. 어떤 대상의 데이터를 놓고 그 숫자에 대한 해석이든 사실에 대한 내용 분석이든 데이터 사이언스는 분석가의 인지력에 많은 부분을 의존합니다. 통계로 나온 결과의 숫자를 ‘떼었다, 붙였다’ 조합하면서 누군가를 설득할 수 있는 분석을 도출하려면 자신이 보는 관점의 근거를 대야 하기 때문입니다.
이러한 점에서 데이터 사이언스는 자기만의 통찰력을 끄집어내고 이를 자기만의 언어로 표현하는 공간임이 틀림없습니다. 데이터 사이언스라고 하는 정의는 상당히 커다란 담론이어서 다가가기 어려운 면이 많아 보입니다. 감이 잡힐 듯 잡히지 않는 일종의 회색 지대이지요. 그동안 대학강의를 하면서 가장 안타까운 점은 학생들이 데이터 사이언스의 필요성에 대해서는 절감하면서도 자기가 할 수 없는 것이라고 서둘러 마침표를 찍어버리는 분위기입니다. 아마도 데이터 분석을 위해 배워야 하는 컴퓨터 프로그래밍이 큰 걸림돌인 것 같습니다. 그러나 Chat GPT의 등장 이후 이런 태도에도 조금씩 변화가 보입니다. 오늘 말씀드리고자 하는 것은 숫자가 아닌 문자의 결과이지만 숫자로 변환되는 데이터의 모습 못지않게 중요한 데이터에 대한 해석력과 그 구현 방법론에 관한 이야기입니다.
창의적 통찰의 순간 ··· 데이터 속에 보이는 인사이트
디지털로 생각을 나타내기 위해서 현대에는 컴퓨터 언어로 프로그래밍을 하고 시각화를 합니다. ‘프로그래밍’이라고 하면 우선 무엇을 알아야 할까요? 컴퓨터 언어를 배워야 합니다. 그리고 도메인 지식으로 관련 데이터를 섭렵해야 합니다. 이렇게 두 가지가 마련되면 데이터를 프로그래밍으로 조작할 수 있게 됩니다. 그리고 데이터가 조직화되는 프로그래밍 과정에서 평소에 꽉 눌려있던 답답함이 한 방에 해소되는 인사이트가 불현듯 나타날 때가 있습니다.

사실 이때를 위해서 데이터를 프로그래밍한다고 해도 무리가 아닙니다. 데이터 분석은 데이터의 정렬, 나열이 아니기 때문입니다. 데이터 분석을 통해 결론적으로 자기의 생각이 나타나야 합니다. 데이터 분석에 있어서 분석자가 누구나 다 볼 수 있는 것을 굳이 보여준다면 데이터 사이언티스트라고 불리기에 너무도 초라할 수 있습니다. 이쯤 되면 데이터에 관한 내용을 알기 때문에 시각화를 잘 할 수 있는 것인지 시각화를 프로그래밍하다 보니 인사이트가 생겨나는 것인지 구분이 안 되기도 합니다.
중요한 것은 데이터 사이언스에서 이러한 창의적 통찰의 순간(아하! 순간)이 분석자에게나 분석 결과를 마주하는 사람에게나 모두 큰 도움이 된다는 점입니다. 데이터 사이언스의 가장 중요한 부분일지도 모르겠습니다. 흔히 말하는 데이터 시대란 데이터를 버무리면서 나타나는 이와 같은 창의·인지력의 선순환 구조가 만들어지는 곳일 테지요.
그런데 이러한 기법적 원리는 오늘날의 ‘디지털’ 데이터 사이언스에서만 보이는 것은 아닙니다. 과거 아날로그 데이터 사이언스에도 있었습니다. 단지 처리하는 데이터의 양이 비교할 수 없을 정도로 많아졌고 그 처리 속도가 컴퓨터의 도움으로 굉장히 빨라졌다는 사실 외에 데이터가 창의적 인사이트를 불러일으킨다는 점은 변함이 없습니다.
과거 디지털이 없던 시기에도 데이터 속에 보이는 인사이트를 이러한 창발적 체계에 맞춰 공유할 수 있던 방법이 있었으니 바로 시작(詩作)이었습니다. 컴퓨터가 없던 시절에 다양한 데이터를 데이터베이스로 분류하고 정리하면서 나타나는 분석자의 통찰력은 시로 나타났습니다. ‘한자(컴퓨터 언어)로 시를 짓는다(코딩)’는 것은 지금의 프로그래밍만큼이나 정교하고 논리적인 인지 과정의 알고리즘 없이는 불가능했습니다. 한시 작법이 누구나 배울 수 있는 것도 아니었고, 시작에서 가장 중요한 추상화는 프로그래밍 과정에서 나타나는 추상화와 맥락이 똑같습니다.
그러므로 많은 데이터를 다루면서 순간 떠오르는 인사이트를 엄격한 문법에 맞춰 한자로 코딩하는 일련의 과정을 단순히 감정의 문학적 문자화로만 볼 것이 아니라 직관과 유비 사고를 거쳐 나오는 추상화와 정규화로 구현되는 데이터 시각화 단계의 하나로도 볼 수 있을 것입니다.
송남잡지와 데이터 큐레이션
『송남잡지』는 1855년에 송남 조재삼이 간행했습니다. 6책 14권으로 편찬한 백과전서적 성격의 유서(類書)로서 1,743장으로 이루어진 빅데이터입니다. 총33류 4,432칙으로 구성되어 있고, 천문류부터 국호류, 화학류, 집물류, 충수류, 어조류에 이르기까지 사물을 총망라하였습니다. 조선 후기의 사회상과 풍속을 이해할 수 있는 고유의 언어와 문화 데이터까지 집적했습니다.
이런 백과사전류의 콘텐츠는 빅데이터와 스몰데이터의 교집합을 이루는 데이터로 구성됩니다. 즉, 데이터 큐레이션입니다. 사용자가 데이터와 상호 작용하고 이해하여 분석 결과를 생성하는 데 데이터를 사용할 수 있도록 필요한 데이터 원본을 식별하고, 그 데이터를 컨텍스트와 연계하는 프로세스를 데이터 큐레이션이라고 합니다.
독자적으로 빅데이터를 구성하고 이를 분석하는 과정에서 저자 조재삼은 데이터 사이언티스트의 면모를 유감없이 발휘합니다. 데이터 리터러시와 관련해서 오늘날 『송남잡지』에 주목해야 하는 이유는 저자 조재삼이 『송남잡지』라는 데이터베이스를 만드는 과정에서 보여준 데이터 큐레이션과 ‘아하! 순간’의 데이터 큐레이션인 자작시(自作詩) 때문입니다.
문학적 관점에서 볼 때 조재삼의 자작시는 독자들의 정서를 환기하는 장치였습니다. 그러나 데이터 리터러시 측면에서 조재삼의 자작시는 그가 데이터를 분석함에 있어 ‘아하! 순간’을 경험한 순간 발생한 직관적 영감을 살려 창의적인 방법으로 데이터 리터러시를 나타냈음을 보여주는 데이터 큐레이션입니다.
데이터 분석의 영향이 만들어낸 그만의 인사이트, ‘아하! 순간’을 한자로 코딩했다는 사실은 데이터 추상화의 단계를 밟은 결과라고 보아야 합니다. 추상화 능력은 컴퓨팅 환경에서 문제를 해결하기 위한 데이터 모델링이 요구하는 역량으로 데이터에서 필요한 것만 남겨둘 수 있는 역량입니다. 데이터 사이언티스트 조재삼은 데이터의 ‘안’을 들여다보고 데이터를 분석하고서 데이터를 보는 방법과 해석을 표현하는 방법을 달리 할 수 있게 만드는 창의력 신장의 도구로 데이터 큐레이션을 생각했던 것입니다. 즉, 조재삼은 데이터를 둘러싸고 이성과 직관과 부딪치는 ‘아하! 순간’에 데이터를 큐레이션하는 데에 있어서 그 방법으로 한자 코딩을 통해 시를 프로그래밍함으로써 데이터 리터러시의 창의적 표현 방법의 사례를 보여준 것입니다. 조재삼과 같은 특유의 표현이 있어야만 데이터는 생명력을 갖게 됩니다.
조재삼의 자작시 하나를 보면서 조재삼이 어떻게 데이터 리터러시에 데이터 큐레이션을 활용했는지 살펴보겠습니다. 제목은 「딱따구리[啄木]」입니다. 이해도를 높이기 위해서 디지털 네트워크 그래프도 만들어 비교해보겠습니다. 조재삼이 시로 구성한 시각화와 컴퓨터를 이용한 디지털 시각화를 비교하면 저자가 송남잡지를 통해 목적한 바를 선명하게 읽을 수 있을 것입니다. 디지털 데이터 큐레이션은 웹사이트 ‘최원재 프로젝트’에서 확인할 수 있습니다.1)
저자는 여러 서적과 상황을 참고해서 딱따구리에 대한 당시의 다양한 데이터를 추출했습니다. 『운서』에서는 “딱따구리[啄木]가 열(鴷)이다”라고 한 데이터를, 『고금이전(古今異傳) 』에서는 “딱따구리는 본래 뇌공(雷公)의 약초 캐는 관리인데, 이것이 새로 변하였다”라는 데이터, 『이물지(異物志)』에서는 “갈색인 놈이 암컷이고 얼룩무늬가 있는 놈이 수컷이다. 또 산착목(山斲木)・화로아(火老鴉)라고도 한다”는 데이터, 『비아(埤雅)』에서는 “열(鴷)은 금법(禁法)을 잘하니, 발톱을 구부려 땅에 금을 그어 도장을 만들면 막혔던 구멍이 절로 열린다. 날아갈 때는 날개로 그것을 덮어버린다”라는 데이터를 가져왔습니다.
독자들은 저자의 데이터베이스 덕분에 딱따구리에 대해서 한 번에 여러 데이터를 볼 수 있었을 겁니다. 이렇게 사실적 데이터를 추출하고 집적하면서 저자는 대상에 대한 ‘아하! 순간’이 일어났습니다. 그리고는 데이터 큐레이션을 시작합니다. 물론 프로그래밍은 한자로 했습니다.
왕우칭(王禹偁)의 시, 구양수(歐陽修)의 부(賦), 우리나라에서 구전되는 시를 이용해서 만든 데이터 큐레이션이 완성되었습니다. 한시의 특징인 블록으로 규격화된 시구, 달리 말해 한자로 코딩된 데이터 프로그래밍의 일부를 적절히 활용함으로써 데이터 큐레이션의 효과를 높이고 있는 것입니다. 또한 원전 주석에서 데이터를 찾아 인지적 비축분을 높여 도메인 지식 축적에 기여하기도 했습니다. 이렇게 다양한 데이터를 마주하고 다루는 사이에 자신에게도 ‘아하! 순간’이 들어 자신만의 데이터를 만들고 이를 하나의 큐레이션으로 시각화한 것이지요. 이는 정보를 포함한 데이터를 논리적으로 재구성하는 과정에서 저자 조재삼이 직관적으로 영감을 받아 시로 형상화한 것으로 대상에 관한 정보 데이터뿐만 아니라 대상 분석에서의 감상도 한시라는 코딩 장치를 이용해 표현한 결과 「딱따구리[啄木]」라는 데이터 큐레이션이 완성된 것입니다.
1)최원재 프로젝트 http://dh.aks.ac.kr/~pattern/wiki/index.php

데이터 큐레이션으로 만들어본 네트워크 그래프
내용에서도 일관적인 흐름에 따라 분석한 데이터를 배열하는 데이터 큐레이션의 모습을 보이고 있으며 동시에 형식적으로도 자신의 데이터에 의견을 삽입함으로써 시의 추상성과 압축성을 이용해 독자들에게 제3의 데이터를 창의적으로 구현할 수 있는 접근법을 보여주고 있습니다.
저자의 데이터 큐레이션을 보면 독자들도 ‘아하! 순간’을 외칠 것 같지 않나요? 조재삼의 데이터 큐레이션에 디지털 리터러시를 추가해서 만든 데이터 큐레이션을 아래와 같이 네트워크 그래프로 만들어보았습니다. 데이터 리터러시와 디지털 리터러시가 만나 보여주는 오늘날의 데이터 추상화와 압축성을 조재삼은 시라는 미디어로 구현한 것입니다. 다시 말해서 디지털 리터러시가 존재하지 않았던 170여 년 전 그는 데이터 분석을 통해 인사이트 메시지를 전달하는 코딩 방법으로 시를 활용했다고 볼 수 있습니다.
조재삼의 자작시 「딱따구리[啄木]」를 읽으면서 독자들은 아래에 보이는 디지털 네트워크 그래프가 보여주는 모든 데이터에 노출되는 것과 마찬가지의 효과를 경험했을 것입니다.
