김세윤 | 교육생
EDU
엑셀 초급 데이터 분석 및 활용
교육 수기-1
통계인재개발원의 빅데이터프로젝스수행(SAS기반) 교육을 ‘22. 7. 18. ~ ’22. 7. 22. 4일간 수강한 김세윤입니다. 본 강의에 대한 교육수기를 작성하고자 합니다. 교육수기는 저의 업무에 대한 소개 및 교육 수강 동기, 강의의 구성, 제가 느낀 강의의 장점과 아쉬웠던 점으로 구성하였습니다.
첫 번째 내용으로는 저의 담당업무와 교육 수강 동기를 간략히 말씀드리려고 합니다.
저는 통계학 비전공자로, 작년 3월 통계청에 입직하여 4월부터 서비스업동향과에 발령을 받아 업무경력이 이제 갓 1년을 넘긴 초임 공무원입니다. 저는 과에서 줄곧 서비스업생산지수 개편업무를 담당하면서 경제총조사 데이터를 바탕으로 자료처리를 수행하고 있습니다. 저는 통계학 비전공자로서 데이터를 핸들링한다는 것과 그를 위해 여러 프로그램과 언어를 사용한다는 발상 자체를 해본 적 없이 살아왔는데 업무를 통해 처음 접하게 되었습니다. 처음에는 막막하고 어려웠으나, 점점 익숙해지고 나아지는 스스로를 보며 자료처리에 흥미를 느끼고 있었고, 이에 통계청 내부자료뿐만 아니라 외부 데이터를 다뤄보고싶다는 생각을 하게 되었는데, 제가 주로 사용하는 SAS 프로그램을 통해 외부 데이터를 다뤄볼 수 있는 본 교육이 매력적으로 느껴져 수강하게 되었습니다.
두 번째 내용으로는 강의의 구성에 대해 말씀드리려고 합니다.
강의에서는 국립건강영양조사 자료(이하 ‘국건영자료’라 하겠습니다)와 국민건강보험공단 자료(이하 ‘건보공단자료’라 하겠습니다) 이렇게 2가지 자료를 다루고, 각 자료에 대한 설명, 기본적인 실습, 미니 프로젝트 수행으로 이루어집니다. 먼저 교수님께서 각 자료의 구성에 대해 설명해주십니다. 개인적인 생각으로는 본격적인 자료처리에 앞서 그 자료를 잘 이해하는 것이 가장 중요하다고 생각하는데, 교수님께서 자료 구성, 변수의 의미 등을 코드북을 바탕으로 설명해주셔서 자료를 큰 어려움 없이 이해할 수 있었습니다. 다음으로는 자료를 활용하여 예제를 풀어보는 실습이 이루어집니다. 실습은 자료를 활용하여 원하는 결과값을 이끌어내는 것을 목적으로 하는데, 이 과정에서 데이터 전처리, 통계분석이 이루어집니다. 그렇기 때문에 SAS 프로그램 활용과 SQL 언어가 활용되어 다양한 구문 등을 실습해볼 수 있습니다. 또 통계분석을 위해 여러 프로시저를 활용해 보았는데, 목적에 맞는 프로시저를 직접 활용해볼 수 있습니다. 특히 국건영자료는 복합표본설계가 이루어진 자료인데, 프로시저를 활용함에 있어 단순무작위추출에 활용되는 프로시저가 아닌 복합표본설계에 적합한 다른 프로시저를 활용해야 하는 점 등을 알 수 있었습니다. 이렇게 여러 예제에 대한 실습을 통해 데이터와 친해진 후에는 미니 프로젝트가 이루어집니다. 미니 프로젝트는 교수님께서 이전에 각 자료들을 활용하여 연구하셨던 내용을 기반으로 이를 약식으로 수행해보는 것입니다. 교수님께서 연구하셨던 내용을 먼저 설명해주시고, 앞에서 예제에 대한 실습을 하며 습득했던 다양한 기법들을 활용하여 미니 프로젝트를 수행하게 됩니다.
세 번째 내용은 제가 느낀 강의의 장점입니다.
통계청 공무원인 저에게는 외부 데이터를 접해볼 수 있다는 것이 가장 큰 장점으로 다가왔습니다. 통계청에서 근무하는 동안에는 통계청 내부 데이터는 많이 다뤄볼 수 있겠지만, 외부 데이터를 쉽게 접하기는 어렵다고 생각했습니다. 따라서 국건영자료나 건보공단자료와 같은 외부 데이터를 직접 접해보고 핸들링하는 경험을 해볼 수 있다는 것이 가장 큰 장점이라고 생각했습니다. 특히 건보공단 데이터는 전체 국민의 95%를 포괄하는 사실상의 전국민 전수자료인데, 물론 본 강의에서는 일부만으로 이루어진 코호트자료를 활용하긴 했으나, 그러한 자료를 직접 접해보고 다뤄볼 수 있다는 것이 정말 좋은 기회라고 생각되었습니다. 다음으로는 다양한 프로그래밍 기법을 배울 수 있다는 점이 좋았습니다. 데이터를 활용하여 여러 실습과 미니 프로젝트를 수행하는 과정에서 필수적으로 동반되는 데이터 전처리 과정에서 여러 기법들을 익힐 수 있었습니다. 특히 기본적인 컬럼 생성 및 삭제, 변수 추가, 정렬, SQL 구문을 활용한 join 및 요약값 생성, 다양한 표시형식 등을 다루며 평소 사용해보지 못했던 기법들을 익힐 수 있었습니다. 또한 통계분석을 함에 있어서도 다양한 통계분석 프로시저가 있음을 알 수 있었습니다. 특히 단순무작위추출과 복합표본설계의 차이점을 고려하여 자료의 성격에 맞는 프로시저를 활용해야 한다는 점은 통계학 비전공자인 저에게는 시야를 한층 더 넓힐 수 있는 계기가 되었습니다.
마지막 네 번째 내용은 제가 느낀 강의의 아쉬운 점입니다.
먼저 실습 및 프로젝트에 있어 개개인이 코드를 짜고 직접 해볼 수 있는 시간이 충분하지만은 않았다는 것입니다. 간단한 문제는 약간의 시간만으로도 코드를 구현할 수 있지만, 복합적이고 어려운 문제도 적지 않았는데, 이러한 문제들에는 충분한 생각과 시간이 필요하다고 생각했으나 충분히 주어지지는 않았습니다. 하지만 4일만에 모든 과정을 마무리해야한다는 현실적인 여건 탓인지, 교수님께서 충분한 시간을 제공해 주시지는 못하는 모습이셨고, 약간의 시간 이후에 정답을 공개하시고 그 정답에 대한 설명을 덧붙이시는 방식으로 실습과 프로젝트가 이루어져, 개인이 보다 충분히 고민할 시간이 부족하다는 것에 다소간의 아쉬움이 있었습니다. 다음으로는 교육생 개개인이 모두 프로그램 활용을 능숙하게 하지는 못한다는 점입니다. 다양한 기관에서 여러 교육생들이 참석을 하는데, 저를 포함하여 몇몇 교육생들은 실습에 어려움이 있음이 느껴졌습니다. 특히 건보공단자료는 복잡하여 작업에 상당한 난이도가 있다고 느꼈는데, 교수님께서도 아쉬움을 피력하신 것처럼 보다 프로그램 활용에 능숙한 교육생들로 교육이 이루어진다면 교육효과가 보다 극대화될 수 있을 것이라고 생각합니다.
하지만 세상 모든 것이 좋은 점만 있을 수는 없는 것처럼, 전술한대로 몇 가지 아쉬운 점이 있기는 하지만 본 강의는 유능하고 젊은 교수님께서 열정적으로 강의하시는 단점보다는 장점이 훨씬 많은 강의라고 생각합니다. 혹 저의 경우처럼 외부 데이터를 접해보고 다뤄보고 싶은 분이 계시다면 꼭 한번 추천드리고 싶습니다. 이상 교육수기를 마칩니다. 감사합니다.