한국의 코로나-19 기록보존소를 꿈꾸며 │ Team. Cayley

데이터트러스트
발행일 2020.12.01. 조회수 48

한국의 코로나-19 기록보존소를 꿈꾸며

<코로나-19: 우리의 기억> 프로젝트

팀케일리 설지은, 이해영, 정예은

2020년 올해 한국 사회를 뜨겁게 달구었던 이슈는 여러 가지가 있겠지만, 그중 코로나 19가 가장 뜨거웠고 지금도 뜨겁지 않나 싶습니다. 프로 스포츠 경기들이 모두 중단되기도 했고 종교시설, 박물관, 미술관, 도서관 등이 문을 닫기도 했습니다. 이제 마스크 없이는 대중교통을 이용하지 못하게 되었고, QR 코드를 제시해야 식당과 카페를 이용할 수 있습니다. 코로나 19로 우리 사회의 많은 것들이 변화했고 변화하고 있습니다.

팀 케일리는 코로나 19가 바꾸고 있는 우리 사회의 이러한 단면들을 ‘망기하지 않고자’ <코로나-19: 우리의 기억>이라는 디지털 아카이브 프로젝트를 시작했습니다. 기록되지 않은 사실은 시간이 흐르면 사라지기 쉽습니다. 특히 웹상의 데이터들은 언제 생겨나고 사라질지 모르는 가변적 성질이 강합니다. 저희는 웹에 올라오는 코로나 관련 기사나 정부 보도자료 등의 데이터를 아카이빙하고 싶었습니다. 

또한 기억은 목적과 필요에 따라 다르게 구성됩니다. 저희는 현재 당면한 ‘코로나 19’라는 상황을 ‘중립적인 시각’으로 기록하고, 관련 데이터를 수집해 분석하고 싶었습니다. 이외에도 이 과정에서 발생한 데이터와 데이터 분석 코드를 누구에게나 개방하여 사회적으로 이 주제에 대한 ‘지속가능한 분석과 협력’을 만들고 싶은 마음에 프로젝트를 시작하였습니다.

이러한 계기로 시작한 저희 프로젝트의 지향점은 크게 3가지로 나뉩니다.

  • 가치 중립적인 디지털 기록
  • 지속가능한 협업 모델
  • 오픈 데이터 원칙

 ‘가치 중립적인 디지털 기록’은 어느 한쪽 분야나 가치관에 치우치지 않도록 중립을 지키며 데이터를 모으자는 것입니다. ‘지속가능한 협업 모델’은 코로나 상황에서 프로젝트를 진행하는 만큼 줌, 슬랙을 통해 꾸준히 정기 비대면 회의를 이어가자는 내용이고, ‘오픈 데이터 원칙’은 프로젝트 과정에서 수집, 구축된 모든 결과를 공유하자는 내용입니다.

 

가치 중립적인 디지털 기록

팀 케일리는 코로나19와 관련된 사회적 이슈를 정부 정책 및 대응, 경제, 교육, 문화, 사회, 환경 총 6가지 주제 분야로 나눠 분석했습니다. 분석 시에는 공공데이터를 활용해 중립적인 관점에서 기술하려 노력했습니다. 아래에서 각 주제 분야의 대표 분석 결과물을 꼽아보고자 합니다.

  • 먼저 정부 정책 및 대응 팀‘뉴스로 보는 타임라인’입니다. 국내 첫 확진자 등장부터 코로나 19와 관련된 다양한 국내 이슈를 수집하여 인터렉티브 차트로 나타냈습니다. 
  • 경제 팀‘동학개미운동’은 코로나 19 기간의 코스피 지수와 투자자별 순매수를 시각화하여 비교하고, ’개미’라 불리는 개인 투자자들이 어떤 주식을 매입했는지를 알아봤습니다. 
  • 교육 팀은 특정 기간 발생한 각 지역별 감염 사례에 따라 등교 수업을 조정한 학교 수를 알아봤습니다. 또한 지역 확진자 수와 등교 조정 학교 수를 비교하여, 등교수업 조정 기준의 모호성을 지적했습니다. 
  • 문화 팀은 코로나 19로 인한 전반적인 문화산업의 침체를 다뤘습니다. 영화, 공연, 전시 등 대표적인 문화 산업의 2019년과 2020년 매출액, 관객 수, 예매 수 등을 비교하는 한편, 입출국과 관광 수입 및 지출에 관한 자료를 시각화하여 관광, 항공업의 어려움을 드러냈습니다. 
  • 사회 팀은 2월부터 7월까지 코로나 19 관련 청와대 청원을 수집한 뒤 ‘워드 클라우드’를 통해 핵심 단어들을 추출하여 시민들의 주된 관심사와 요구사항을 알아보고자 했습니다. 
  • 마지막으로 환경 팀은 대기오염 완화 및 폐기물 증가 여부, 해양 생태계 등 전반적인 환경 생태계에 코로나 19가 미친 영향을 살펴보고, 코로나 19 관련 폐기물을 올바른 방법으로 폐기할 것을 강조했습니다. 
가치중립적 기록을 위해 가장 다양한 가이드라인을 세운 작업은 뉴스 타임라인입니다. 모든 구성원이 함께 기사를 수집했기에 수집한 기사의 라벨링과 전담 팀의 필터링이 무척 중요했습니다. 기사는 날짜, 이벤트명과 요약 내용, 카테고리로 라벨링을 하고 기사가 포함하고 있는 이미지나 비디오, 데이터셋 그외 시각화자료 등을 체크했습니다. 기사를 수집한 이가 꼭 들어가야 한다고 생각하는 이벤트는 별도의 표시를 해 타임라인 구축에 반영하였습니다. 또 타임라인을 시각적으로 보여주기 위해 기사의 이미지나 동영상 썸네일 등도 중요하게 고려했습니다. 이렇게 선별한 기사는 정부의 지침 등이 잘 정리되어있는 ‘CSIS’의 한국 이슈 수집 홈페이지를 참고하여 적절성을 다시 검토하고 차트에 반영했습니다.
 

만만치 않은 수작업: 데이터 수집, 정제, 분석 과정

팀 케일리의 팀원 대부분은 데이터 분석 경험이 많지 않았습니다. 프로그래밍 경험이 없거나, 경험이 있어도 파이썬 기초 과정인 사람이 대다수였기 때문에 실제로 데이터 분석을 직접 해보기 전까지 과정에 대한 이해가 막연했습니다. 데이터 분석을 본격적으로 시작하기 전까지는 방대한 데이터 사이에서 필요한 것들을 쉽게 고르고, 코드 몇 줄로 모든 작업을 끝낼 수 있으리라 생각했는데, 큰 착각이었습니다. 진행할수록 데이터를 다루는 일 역시 만만치 않은 수작업이라는 사실을 깨달았습니다.

데이터를 수집하고 정제하는 과정에서 마주했던 가장 큰 어려움은 데이터가 구축되어있지 않는 경우였습니다. 분석 주제를 정하고 필요한 데이터를 수집하는 단계에 들어섰을 때, 데이터셋 자체가 없을 때가 많았습니다. 문화팀은 온라인과 오프라인의 도서 관련 추이를 알아보고자 했으나, 도서 구매와 관련된 데이터 셋을 찾을 수 없었습니다. 결국 방향을 틀어 서울시 공공도서관 대출 현황 데이터를 요청해 이를 분석했습니다. 

시군구별 코로나 19 확진자 데이터셋도 없었기 때문에 직접 만들었습니다. 코로나 19는 현재 진행 중인 상황이었고, 다음 날의 확진자 수가 어떻게 변동될지 예측이 불가능했기 때문에 (중앙 행정에서) 시시각각 변하는 확진자 수를 데이터셋으로 만들어 매번 업데이트하기는 한계가 있었으리라 생각됩니다. 그래서 팀 케일리의 팀원들이 매일매일 시군구 홈페이지를 방문해 확진자 수가 늘었는지 변화를 확인하고 엑셀 파일에 일일이 입력했습니다. 

다만 시군구별 확진자 수 데이터셋을 만드는 과정은 조금 까다로웠습니다. 각 지역 홈페이지마다 확진자 수를 집계해 표시하는 방법이 달랐기 때문입니다. 해외유입 확진자나 지역 외부 확진자 수를 포함하지 않는 곳도 있어서 해당 지역 확진자가 어느 경로로 감염된 건지 게시글을 통해 하나하나 확인해야 했습니다. 또한 지역마다 홈페이지상 확진자 업데이트 주기도 달랐습니다. 결국 해커톤 당일 아침까지 확진자 수를 파악하고 최종  데이터셋을 확정했습니다.

데이터셋에 누락 값이 많거나, 제공된 데이터 간 형식이 다른 경우도 있었습니다. 도로교통공사 공공데이터 포털에서 수집한 고속도로 교통량 데이터에는 누락된 날짜 값이 많아서 하나하나 누락 값을 비교하고 수정해주는 작업이 필요했습니다. 요청했던 공공도서관 데이터는 도서관마다 제공하는 파일의 형식이 pdf, excel 등 모두 달라 통일이 필요했고, 자료의 내용도 조금씩 다른 것들이 있어 역시 직접 수정을 거쳐야 했습니다.

 

지속 가능한 협업 모델

<코로나-19: 우리의 기억> 프로젝트는 올해 5월 시작되었습니다. 활동 초기에는 중앙대학교 문헌정보학과 김학래 교수님과 그 학생들, 그리고 COSADAMA(중앙대학교 사회학과 데이터 사이언스 소모임)가 프로젝트를 이끌었습니다. 최근 10월부터는 팀 케일리 2기를 꾸려 다양한 전공의 학생들이 함께 참여하고 있습니다.

프로젝트가 사회적 거리두기 기간에 진행되고 있는 만큼, 팀 케일리의 활동은 대부분 비대면 환경에서 이루어집니다. 만나지 않고도 지속적인 협업이 가능하도록 여러 가지 소프트웨어와 온라인 도구들을 사용합니다.

구성원 사이의 소통과 정보 공유를 위해서는 슬랙(Slack)과 구글 드라이브(Google Drive), 그리고 노션(Notion)을 활용합니다. 먼저 슬랙(Slack)은 주로 정보 공유나 구성원 간 의견을 모을때 사용하며, 자유롭게 대화를 나누기도 합니다. 자료 저장소로는 구글 드라이브(Google Drive)를 사용합니다. 수집했거나 제공받은 데이터 목록, 데이터 분석 결과, 그리고 정기 회의의 회의록 등 팀 케일리의 활동 과정에서 나온 모든 자료를 저장하고 있습니다. 노션(Notion)은 각 주제별 브레인스토밍을 하는 공간으로 활용했습니다. 또 매주 열리는 정기회의는 온라인 회의 도구인 줌(Zoom)을 사용합니다. 정기 회의의 회의록과 영상을 공유하는 것은 정기회의에 참여하지 못한 구성원도 회의록을 참고하여 협업이 가능하게 하기 위해서 입니다.

팀 케일리 팀원들에게 또 다른 새로운 협업 경험을 제공해준 활동은 해커톤입니다. 해커톤은 정해진 시간 내에 소프트웨어, 프로그래밍 작업으로 결과물을 만들어내는 이벤트인데, 팀 케일리는 이를 통해 깃허브(Github) 페이지와 코로나 19 관련 뉴스 타임라인을 구축했습니다. 팀원들은 서로 머리와 컴퓨터를 맞대고, 데이터에 대해 논의한 시간이 ‘함께’의 힘을 깨닫게 해주었다고 말합니다. 단기간에 결과물을 내야 하는 어려움도 있었지만, 우리가 수집한 데이터에 의미를 부여하고 적절한 시각화 방법에 대해 함께 고민한 것은 참 뜻깊은 경험이었습니다.

 

오픈 데이터 원칙

앞서 언급한 지속가능한 협업은 단지 팀 케일리 내에서의 협업만을 의미하는 것이 아닙니다. <코로나-19: 우리의 기억> 프로젝트는 단편적이고 일시적인 프로젝트를 넘어, 대중과의 협력을 목표로 합니다. 따라서 프로젝트에서 수집한 원시 데이터를 포함한 모든 데이터와 데이터 분석을 위해 개발한 모든 소스 코드를 대중에게 공개합니다. 팀 케일리가 공개하고 있는 데이터셋은 다음과 같습니다.

  • 주요 주제별로 수집한 뉴스 데이터
  • 감염 현황 및 통계와 주요 이슈별로 수집한 데이터
  • 주제별 분석 소스코드
  • 타임라인, 스토리맵을 포함하는 데이터 시각화 자료

깃허브(Github)에서는 팀 케일리가 수집·분석·시각화한 데이터뿐만 아니라 이를 통해 사회문화적 이슈를 분석한 글을 볼 수 있습니다. 분석한 주제로는 ‘마스크 부족의 원인’, ‘재난 불평등: 재난은 평등한가?’ 등이 있습니다. 즉 이 모두를 공개하는 창구인 깃허브(Github) 페이지와 코로나 19 뉴스 타임라인은 우리 프로젝트의 얼굴이자 오픈 데이터 원칙을 지키기 위한 노력의 일환입니다.

모든 것이 혼란스럽고 불명확한 코로나 19 상황에선 가치 중립적인 기록의 유무가 무엇보다 중요합니다. 산출한 결과만을 공개할 수도 있지만, 모든 데이터와 분석 코드를 공개하는 것은 대중과의 지속적 협력을 통해 기록의 확산과 확장이 일어나고 이를 더 많은 이들과 제대로 기억하기 위해서입니다. 현재 코로나 19 관련 정보는 디지털 환경에서 생산, 소비되고 있습니다. 그런만큼 대중이 웹 환경에서 자유롭게 기록을 탐색하고 재사용할 수 있어야 합니다. 이러한 차원에서 팀 케일리는 손쉽게 기록에 접근할 수 있는 방식을 지원하고자 했습니다. 

시각화 자료들 또한 비슷한 맥락에서 만들게 되었습니다. 우리의 기억은 가변적입니다. 코로나 19 확산 초기였던 2월이나 3월의 모습을 지금 떠올려보면, 몇 개월 지나지 않았음에도 어떤 일이 일어났었는지 기억이 잘 나지 않기도 하고, 머릿속에서 사건 순서가 뒤죽박죽 섞이기도 합니다. 그래서 코로나 19 이슈를 시·공간적 시각화 도구를 통해 탐색할 수 있는 뉴스 타임라인과 스토리맵을 만들었습니다. 뉴스 타임라인이 시간순으로 정리된 자료라면, 스토리맵은 대한민국 지도를 옮겨 다니며 올해 코로나 19와 관련해 일어난 일들을 보여줍니다. 타임라인과 스토리맵은 코로나 19시기에 우리 사회에 어떤 이슈가 있었는지 잊지 않기 위한 것입니다.

 

여러분도 이 작업에 손쉽게 참여할 수 있습니다. 팀 케일리의 프로젝트 웹사이트에는 ‘참여: 타임라인 이벤트 추가’라는 공간이 마련되어 있어, 일반 시민 누구나 뉴스 타임라인에 들어갈 기사를 팀 케일리로 보낼 수 있습니다. 인터넷 검색을 하다가 코로나 19와 관련하여 중요한 기사나 이벤트를 발견하시면 팀 케일리 웹사이트로 오셔서 추가 해주시면 감사하겠습니다.

 

코로나 19가 만든 사회를 기억하고 다시 나아가기

이 프로젝트에서 기대하는 것은 크게 두 가지 입니다. 하나는 코로나 19가 가져온 사회문화적 영향을 대중들이 ‘기억’하는 데 도움을 주는 것입니다. 언젠가 코로나 상황이 종식되고 일상으로 돌아가게 되었을 때 우리가 모은 데이터들이 지금 이 상황을 생생히 보여주는 지표가 되길 바랍니다. 팀 케일리의 디지털 아카이브가 코로나 19의 영향 아래 있던 한국 사회를 기억하는 데 도움을 주는 기록보존소의 역할을 하게 된다면 정말 더할 나위 없을 것 같습니다.

또한, 다른 사회 구성원들이 우리가 모은 데이터와 시각화를 참고하여 더 나은 분석을 산출하면 좋을 것 같습니다. 이번 프로젝트에서 강조했던 부분 중 하나인 ‘오픈 데이터 원칙’에 따라 디지털 환경에 구축한 팀 케일리의 아카이브는 언제나 문이 열려 있습니다. 아카이브에 있는 모든 기록을 이용하셔서 코로나 19와 관련한 연구와 분석에 활용했으면 정말 좋겠습니다.

최근에는 팀 케일리 2기를 꾸려 아카이빙 활동을 이어가고 있습니다. 2기의 활동은 크게 디지털 아카이빙과 데이터 시각화로 진행될 예정입니다. 데이터 파이프라인을 구축하고 RiC라는 모델을 활용하여 데이터에 적용해보려고 합니다. 이 과정에서 모은 데이터들 또한 모두에 개방될 것입니다. 타임라인 업데이트와 데이터 분석도 계속 진행할 예정이니 관심 있게 지켜봐 주셨으면 좋겠습니다.

앞에서 소개한 모든 자료는 이곳에서 확인하실 수 있습니다.

 

데이터명과 원본 데이터 링크

코로나 19와 관련된 국내외 데이터, 데이터 분석 및 시각화를 위한 소스코드 (데이터셋 1,067건)

https://github.com/Open-Knowledge-Korea/covid-19-our-memory

데이터 형식 보건복지부, 교육부 등 공공데이터와 그에 대한 분석, 시각화 자료, 코로나 19 관련 보도자료 데이터(엑셀, ipynb, html 등)

 

댓글 (0)