코로나19 데이터 공개로 기회 잡은 심평원 ‘데이터 표준화’ 추진
노연숙 빅데이터연구부장 "가치 있게 사용되도록 노력할 것"

전 세계적으로 의료 빅데이터에 대한 관심이 커지고 있다. 신약개발과 환자 맞춤형 정밀의료 시대를 앞당기는 단서가 그 안에 있다고 보기 때문이다. 국내에서는 불필요한 중복 규제를 없애 빅데이터 활용 범위를 넓힌 ‘데이터 3법’이 시행되면서 기대감이 한층 높아졌다. 데이터 3법은 지난 1월 국회에서 개정된 개인정보보호법, 정보통신망법, 신용정보법을 말한다. 이 법은 8월부터 시행됐다.

건강보험심사평가원은 이미 한발 앞서 준비해 왔다. 건강보험제도 하에서 양질의 의료 빅데이터를 구축하고 있는 곳이 심평원이다. 여기에 최근 신종 코로나바이러스 감염증(코로나19)이라는 국제적 이슈가 생겼고 심평원은 이 ‘기회’를 놓치지 않았다.

심평원은 지난 3월 코로나19 관련 의료 빅데이터를 전 세계 연구자들이 활용할 수 있도록 무료로 개방했다. 코로나19 국제협력연구를 주도하겠다는 의지다. 의료 분야 코로나19 빅데이터를 개방한 건 심평원이 세계 최초다. 코로나19 국제협력연구에 참여한 해외 연구자들은 심평원의 의료 빅데이터 공유 모델을 빅데이터가 공공보건을 위해 어떻게 사용될 수 있는지 보여준 훌륭한 사례라고 호평했다.

심평원은 의료기관이 청구한 건강보험 진료내역을 심사·평가하는 과정에서 생성된 데이터를 빅데이터로 활용할 수 있도록 꾸준히 기반을 구축해 왔다. 그리고 그 중심에 심평원 빅데이터실이 있다. 최근 심평원 빅데이터실 노연숙 빅데이터연구부장은 청년의사가 만든 의학전문채널 '의대도서관'에 출연해 심평원의 의료 빅데이터가 가진 의미와 향후 역할에 대해 이야기했다. 빅데이터연구부는 방대한 전국민 의료 데이터를 표준화하고 이를 국내외 여러 기관과 공동으로 연구해 국가단위 임상 근거나 정책 근거를 만드는 방법론을 수립한다.

심평원 빅데이터실 노연숙 빅데이터연구부장이 최근 '의대도서관'에 출연해 심평원 빅데이터의 의미와 앞으로 나아가야 할 방향에 대해 이야기했다.
심평원 빅데이터실 노연숙 빅데이터연구부장이 최근 '의대도서관'에 출연해 심평원 빅데이터의 의미와 앞으로 나아가야 할 방향에 대해 이야기했다.

- 지난 3월 심평원이 코로나19 유행에 국제사회가 공동대응 하고자 전 세계 연구자들에게 의료 빅데이터를 개방했다. 세계 최초였는데, 이처럼 빠르게 공개할 수 있었던 배경은 무엇인가.

지금까지 경험하지 못했던 방식과 규모로 코로나19가 확산되면서 전 세계적인 공동 대응이 필요하다고 봤다. 한국은 코로나19 치료비 전액을 정부가 부담하고 있어 환자가 발생할 때마다 신속하게 청구가 이뤄졌고, 디지털 방식으로 데이터를 수집해 가공하고 이를 공개할 수 있는 기술적·제도적 기반이 있었기 때문에 빠른 시간 내 공개가 가능했다.

3~4년전부터 심평원이 가진 데이터를 공통 데이터 모델 CDM(Common Data Model)으로 변환해 유의미한 연구 방법으로 활용하는 방안을 고민해 왔다. 심평원이 갖고 있는 빅데이터는 유의미한 결과를 낼 수 있는 잠재력이 큰 데이터다. 하지만 임상 정보가 풍부하지 않은 행정 데이터라는 한계와 데이터 표준화 등 문제 해결을 위한 내부 고민이 컸다. 지난 2017년 심평원 데이터 일부를 CDM으로 변환하는 파일럿 스터디를 시작으로 데이터 공유를 위한 준비를 해왔다.

- 코로나19 국제협력연구를 통해 얼마나 많은 프로젝트가 진행됐나. 그 중에서 성과를 거둔 프로젝트도 있는가.

연구를 시작했던 3월 말 전 세계 연구자들의 관심이 커지면서 58개국 1,500~1,600여명의 연구자들이 심평원 연구 웹사이트에 가입했고, 신청 프로젝트만 420여개였다. 하지만 분석코드까지 제출한 프로젝트는 130여건에 그쳤다. 일반 연구자들이 직관적으로 심평원의 데이터를 이해하기 어려운 측면이 있기 때문인 것 같다. 연구를 위해 수집된 데이터가 아니라 심사평가를 위해 수집된 데이터이다보니 테이블 구조나 변수 등을 이해하지 못하는 사람들이 많았다고 분석했다.

좋은 의도로 데이터를 공개했고, 해외에서도 많은 관심을 가지고 접근했지만 이런 방식의 연구가 처음 이뤄진 만큼 데이터 접근이 쉽지 않았던 부분도 존재했다.

하지만 코로나19 이전 인플루엔자 환자 데이터를 활용한 기저질환 분석을 통해 중증도로 갈 수 있는 위험도를 계산한 연구와 양성자펌프억제제(PPI)가 코로나19 환자 치료에 미친 영향 등에 대한 연구가 해외 저널에 발표된 성과가 있다. 올해 말에는 지금보다 실체적인 결과들이 발표될 것으로 기대한다.

- 헬스케어 분야에서 빅데이터를 활용해 신약개발 등을 위한 움직임이 활발하다. 심평원의 빅데이터가 이를 위해 나아가야 할 방향은 무엇이라고 생각하나.

어떤 환경을 조작해서 수집한 데이터가 아니라 실제 일반적인 과정을 통해 수집된 데이터는 모두 리얼월드데이터(RWD)라고 볼 수 있다. 청구 데이터도, 병원에서 수집하고 있는 EMR 데이터 등도 자연스럽게 축적된 RWD라고 본다. 그간 임상시험 결과를 갖고 안전성·유효성에 대한 승인과 의약품 판매에 대한 허가 등을 해왔다면 좀 더 나아가 실제 리얼월드에서 수집한 데이터를 활용해 정책 결정을 할 수 있을 것이다. 특히 데이터 3법이 시행되고 데이터를 포괄적이고 효과적으로 쓸 수 있는 환경이 만들어진다면 임상시험 결과를 유의미하게 도출할 수 있는 환자군 선정에도 심평원 빅데이터를 활용할 수 있을 것이다. 그렇게 된다면 비용 효과적인 임상시험을 진행할 수 있다.

- 심평원 빅데이터가 이 같은 역할을 해 나가기 위해 우선적으로 해결해야 할 과제가 있다면.

일상 속 우리가 하는 모든 행위가 데이터화 되고 그 데이터가 쌓여 빅데이터가 된다. 이 데이터를 우리가 어떻게 활용하느냐에 따라 생각하지 못했던 새로운 가치가 만들어질 것이다. 그런 의미에서 심평원이 전국민의 시계열적 데이터를 갖고 있다는 건 큰 의미가 있다. 심평원이 관리하지만 국민 전체가 이 데이터의 주인이다. 이에 원래 주인인 국민들, 또 국민을 위해 산업계가 효율적으로 쓸 수 있도록 데이터 표준화 부분에 신경을 쓰고 있다. 수요가 많은 부분에 대한 데이터를 코호트로 구축해 이용자들이 쉽게 분석할 수 있는 형태로 제공한다든지 의미 있게 데이터를 사용하도록 노력하겠다.

저작권자 © 청년의사 무단전재 및 재배포 금지