국가 주도의 생애전주기 암 빅데이터의 안전한 수집·활용으로 암 질환을 극복
국가 주도의 생애전주기 암 빅데이터의 안전한 수집·활용으로 암 질환을 극복
  • 박금현 기자
  • 승인 2022.04.08 16:25
  • 댓글 0
이 기사를 공유합니다

최귀선 국립암센터 암빅데이터센터장

“데이터 혁신은 보건의료분야에도 많은 변화를 가져올 것”이라며 최귀선 센터장은 말한다. 오래전부터 개별 환자의 진료목적으로 사용되던 임상정보가 이제는 빅데이터로 처리되어 다른 환자 치료 계획을 수립하는데 도움을 주거나, 새로운 신약 또는 진단 기술을 개발하는 데 활용되고 있다. 실시간으로 암의 치료결과를 확인하고, 부작용과 예후를 예측하여 환자에게 최적의 치료방법을 추천하는 시대가 곧 도래된다. 최근 조사에 따르면 다수의 환자들은 ‘공익’과 다른 환자들을 위해 기꺼이 자신의 건강정보를 공유할 의사가 있는 것으로 나타났다. 최 센터장은 “성숙한 국민 인식만큼이나 개인의 건강정보가 얼마나 안전하게 공공의 이익을 증진하는 데 활용되고 있는지 알아야 하며, 개인정보 유출 등 문제가 생겼을 때 어떤 방식으로 대응하고 개선 방안을 마련할지 등에 대한 투명한 절차와 민주적 거버넌스도 구축되어야 할 것”이라고 설명했다.

 

최귀선 국립암센터 암빅데이터센터장 / 사진 박성래 기자
최귀선 국립암센터 암빅데이터센터장 / 사진 박성래 기자

 

암빅데이터센터의 소개와 주요 성과를 들어보겠습니다.
국가암빅데이터센터는 국가 주도의 생애전주기 암 데이터 수집·연계 및 환류를 주도함으로써 글로벌 선도 암 데이터 전문기관으로 자리매김하는 것을 미래 비전으로 설정하고 있습니다. 공공 및 민간에서 독자적으로 수집·활용하고 있는 세계적 수준의 데이터를 상호연계하여 새로운 부가가치 창출 기회를 제공하고, 암 데이터를 기반으로 암 질환을 극복하고 있습니다. 
암빅데이터센터는 보건복지부 ‘국가암빅데이터 발전계획’, ‘제3차 암관리종합계획’에 따라 2017년 국립암센터 국가암관리사업본부에 설치되었습니다. 그동안 암빅데이터센터는 국립암센터 연구소, 병원, 사업본부에 흩어져 있는 데이터를 수집하고 활용할 수 있는 기반을 마련하였습니다. 국립암센터 개원 이래 내원한 환자의 임상 정보, 유전체 정보, 의료 영상 정보를 임상 연구 데이터 웨어하우스(Clincal Research Data Warehouse, CRDW)로 구축하였습니다. 약 60만명의 임상데이터 3억 5천만 건을 진료, 투약, 검사, 의료영상, 간호기록 등으로 분류하고, 개인식별정보를 삭제한 후 임의 대체키를 부여하여 관리하고 있습니다. 나아가 연구에 필요한 임상정보를 암종별로 정의하고 환자 중심으로 재구성하여 14개 암종별 레지스트리로 구축하여 운영하고 있습니다. 유전체 데이터의 경우 암환자의 NGS 패널 검사결과를 정형화된 형태로 추출하여 DB로 구축하고 있습니다. 종양영상 데이터의 경우, 개인정보 보호를 위해 영상의 파일 헤더를 삭제하고, 개인정보를 블랙마스킹 처리하는 방식으로 CT 1.5억장, MRI 1,200만장, 조직병리이미지 1만장의 영상 데이터를 구축하였습니다. CT 이미지와 같이 3차원 재조합시 개인식별의 가능성이 있는 경우 가장자리를 모자이크 처리하는 방식을 적용하여 연구자에게 제공하고 있습니다. 이들 데이터는 주 1회 전자의무기록시스템(EMR) 등 병원 운영시스템에서 자동으로 추출되어 적재되고 있습니다. 연구자는 검색기능과 시각화 기능, 신청기능이 있는 ‘임상연구검색포털’을 통해 구축된 데이터를 쉽게 검색하고 신청할 수 있습니다. 
암빅데이터센터는 보건의료데이터 활용 가이드라인에 따라 작년 1월부터 데이터 심의위원회를 구성하고, 가명처리의 적정성, 제공 여부 및 방법 등을 심의하여 승인 과제에 한하여 데이터를 제공하고 있습니다. 데이터의 안전한 활용을 위해 인터넷 환경이 차단된 분석실과 가상 컴퓨팅환경에서 활용하도록 하고 있습니다. 또한 개인정보를 안전하게 관리하기 위하여 한국인터넷진흥원에서 운영하는 ‘정보보호 및 개인정보보호 관리체계 인증 (ISMS-P)’ 심사중에 있습니다. 데이터의 표준화와 품질을 높이기 위한 노력도 꾸준히 하여 작년에는 한국데이터산업진흥원의 품질인증 심사에서 의료기관 최초로 CRDW에 대해 최고 등급인 플래티넘 등급을 획득하였습니다. 이 외에도 암빅데이터센터는 4차산업혁명위원회 산하 “헬스케어특별위원회”의 중점과제 중 하나인 “헬스케어 빅데이터 쇼케이스” 사업에 참여하여 활용에 중점을 두고 다양한 암 데이터 간 통합과 이를 활용한 기술개발을 추진하고 있습니다. 

 

빅데이터 플랫폼 'CONNECT'와 'FeederNET' 플랫폼의 소개도 들어보고 싶습니다.
‘CONNECT(Clinical  Oncology  Network for uNifying  Electronic mediCal daTa)’는 과학기술정보통신부가 ‘빅데이터 플랫폼 및 센터 구축 사업’을 통해 구축한 16개 빅데이터 플랫폼 중 헬스케어 분야의 대표 플랫폼입니다. CONNECT 플랫폼은 암환자의 전산화된 의무기록자료를 표준화하여 수집, 활용할 수 있도록 의료기관을 서로 엮어주는 플랫폼입니다. 이를 위해 국립암센터는 2019년부터 2021년까지 3년간 빅데이터 플랫폼 구축사업에 참여하여 전국단위 11개 암병원의 임상정보를 표준화하고, 데이터 활용을 활성화하기 위한 네트워크를 구축하였습니다. 현재 운영중인 ‘CONNECT 홈페이지(bigdata-cancer.kr)’에서는 네트워크에 참여한 11개 암 전문병원의 표준화된 암 임상 데이터셋인 암종별 라이브러리 정보를 확인할 수 있습니다. 데이터를 사용하고자 할 경우, 신청자는 기관연구윤리심의 및 개별 병원의 데이터심의위원회를 거쳐야 합니다. CONNECT 플랫폼에서는 원활한 데이터 신청 및 활용을 지원하기 위해 ‘헬프데스크’ 서비스를 운영하고 있습니다. 또한 데이터를 데이터 신청전에 미리 체험할 수 있도록 ‘데이터 프리박스(Data Free Box)’ 서비스를 통해 합성 데이터를 무료로 제공하고 있습니다. 합성데이터는 암빅데이터 플랫폼에서 제공하는 암라이브러리 데이터를 가상으로 구현한 것으로 별도의 심의절차가 없기 때문에 신청하면 바로 제공이 가능합니다. 
분산형 바이오헬스 빅데이터 플랫폼(Federaetd E-Health Big Data Evidence Renovation Network, FeederNet)은 여기저기 분산된 데이터를 한군데 모아서 활용하는 대신 의료데이터를 공통의 표준모델로 전환하고 플랫폼을 통해 데이터의 활용을 지원하는 사업입니다. 민감정보가 많은 의료데이터의 경우 기관간 데이터의 직접적인 통합 및 개방이 제한적일 수 밖에 없습니다. FeederNet은 의료기관 데이터를 동일한 구조와 규격의 데이터 모델로 변경한 후 동일한 분석 코드를 이용하여 분석을 시행하고 그 분석결과값만을 통합하는 방식입니다. 국립암센터는 2022년 산업통상자원부가 지원하는 바이오산업 기술개발 사업에 주관기관으로 선정되어 연합학습을 활용한 예후예측 지원시스템을 개발할 예정입니다. 이 사업은 CONNECT 플랫폼에 참여한 국립암센터, 삼성서울병원, 연세세브란스병원, 가천대길병원, 전북대학교병원과 ㈜에비드넷이 참여하여 공공·민간 플랫폼(CONNECT, FeederNET) 기반으로 분산 연합학습용 데이터를 구축하고 약 10개의 인공지능 응용서비스 모델 개발을 목표로 하고 있습니다. 주요 예후예측 모델로 ‘유방암 환자 재발 예측모델’, ‘대장암 및 간암 환자의 재발 사망 예후예측 진단모델’, ‘암 환자 중증 합병증 발생기전 예측모델’, ‘암 질병 간 발생 인과관계 예측모델’을 개발하고 이들 모델의 상용서비스를 추진할 계획입니다. 

 

지난 9월 지정된 국가암데이터센터의 암 전문정보 통합·연계체계 구축 계획과 향후 기대되는 부분에 대해 말씀 부탁드립니다.
보건복지부는 2020년 4월 암관리법 개정을 통해 ‘암데이터사업(제9조의2)’과 ‘국가암데이터센터 지정 등(제18조의2)’에 대한 조문을 신설하였습니다. 암데이터사업은 암관리를 위한 정책 수립 및 평가, 암관리를 위한 연구·개발 등의 목적으로 공공기관이 보유한 데이터를 수집, 처리, 분석 및 제공하는 사업입니다. 국가암데이터센터는 암데이터사업의 효율적인 수행을 위해 일정 시설·인력·장비 등의 기준을 충족하는 기관 중 1개 기관을 보건복지부장관이 지정하도록 하고 있습니다. 국립암센터는 2021년 9월 국가암데이터센터로 지정받아, 암데이터사업을 위한 조사 및 기획, 데이터 구축 및 활용과 관련된 세부 지침과 절차의 마련, 자료의 수집, 결합, 분석 및 제공 등의 역할을 수행할 예정입니다. 또한 가명정보 결합전문기관으로 서로 다른 개인정보 처리자 간의 안전하고 효율성 높은 가명정보 결합 및 활용을 지원할 예정입니다. 
국가암데이터센터는 올해 보건복지부가 주관하는 K-CURE (Korea-Clinical data Utilization network for Reserch Excellence) 사업에 참여하여 한국보건의료정보원과 함께 암 임상데이터 활용 네트워크를 구축할 계획입니다. 이 사업을 통해 우리나라 주요 암 병원의 10개 암종 임상데이터를 표준화하여 구축하고, 활용 네트워크를 조성하여 임상데이터의 활용을 지원할 계획입니다. 임상 데이터의 경우 병원간 사용하는 EMR 시스템이 서로 다르기 때문에 임상데이터를 통합하여 활용하는데 제약이 많습니다. 그동안 국립암센터는 임상데이터의 표준화를 위해 국립암센터에서 구축한 14개 암종의 레지스트리 항목을 지침서로 만들어 공개하고, 공공데이터포털을 통해 오픈API 형태로 항목정보를 제공하여 왔습니다. 작년에는 임상 전문학회와 공동으로 자궁경부암, 전립선암, 신장암, 췌장암, 소아백혈병의 5개 암종에 대해 표준 항목을 정의하고 데이터 구축을 위한 지침서를 발간하였습니다. 지침서에 따라 의료기관마다 동일한 표현 및 속성의 데이터를 구축한다면, 다기관 연구시 데이터 수집 및 통합 과정에 들어가는 노력을 크게 줄일 수 있고 연구기간도 단축시킬 수 있을 것으로 기대하고 있습니다.  
또한, K-CURE 사업의 일환으로 공공기관이 보유하고 있는 암 데이터를 수집하고, 연계하여 암 공공 라이브러리를 구축할 계획입니다. 이를 위해 국민건강보험공단, 건강보험심사평가원, 통계청 등 공공기관과 협의체를 구성하고, 예방, 진단, 치료, 사망에 이르는 전주기 데이터를 순차적으로 수집, 통합하고 공익적 목적의 연구·개발을 지원할 계획입니다. 실제로 미국은 국립암연구소와 의료보장센터를 주축으로 1991년부터 SEER (Surveillance, Epidemiology and End Results) 암 등록자료와 Medicare 의료보험 청구자료를 결합한 데이터베이스를 구축·운영하고 있습니다. 우리나라는 공공기관 자료를 결합하여 사용하기 위해서는 개인정보 보호법에 따라 각 기관별로 데이터 신청 및 심의가 이루어지고, 제3의 기관리기관과 결합전문기관을 통해서 결합하여야 하는 등 그 절차가 복잡하고 결합에 수개월이 소요되고 있습니다. 결합수요가 많고 추적조사를 위해 반복결합이 필요한 공공데이터를 암 공공 라이브러리 형태로 사전 결합하여 구축해 놓을 경우 데이터 신청 및 결합에 소요되는 시간을 획기적으로 줄이고 결합오류 등을 현저하게 낮출 수 있을 것으로 기대하고 있습니다. 
나아가 정밀의료 등 혁신연구를 위해 병원의 임상데이터와 유전, 의료영상 데이터, 공공데이터 등 서로 다른 형태의 데이터를 결합하고 활용할 수 있는 체계를 구축할 계획입니다. 대표적으로 최근 맞춤형 표적치료를 위해 암을 일으키는 암단백유전체 표적을 분석·발굴하는 암단백유전체 연구가 진행되고 있습니다. 국가암데이터센터는 이들 연구에서 생산되는 유전체와 전사체, 단백질 데이터 등의 멀티 오믹스 데이터를 임상데이터와 함께 수집하고 공개할 계획을 수립하고 있습니다. 

 

정부의 보건의료 빅데이터의 개방과 건강하고 안전한 국민 서비스 제공을 위한 바람직한 발전 방향과 정책 제언도 말씀 부탁드립니다.
최근 빅데이터의 활용이 핵심으로 떠오르면서 공공이 보유하고 있는 데이터의 개방과 활용에 대한 사회적 요구가 강해지고 있습니다. 공공기관이 보유하고 있는 데이터는 보건의료 현장에서 일어나는 현상을 그대로 반영하는 실제 데이터(real world data)이자 전국민 자료를 담고 있기 때문에 대표성이 강한 자료입니다. 다만 개인의 의료내역을 기반으로 하기 때문에 민감한 정보가 다수 포함되어 있고 원래 수집하고자 하는 목적 외의 활용이기 때문에 활용에 대한 법적 근거가 명확하고, 사용의 목적이 공익에 부합하여야 합니다. 보건복지부는 지난해 9월 개정된 개인정보 보호법 시행에 따른 후속조치로 ‘보건의료 데이터 활용가이드라인’을 발표하고, 가명정보 결합전문기관을 지정하는 등 보건의료 데이터의 활용 활성화와 더불어 안전한 데이터 활용을 위한 제도적 방안을 마련하고 있습니다. 그 일환으로 보건복지부는 올해 권역별로 의료데이터 안심활용센터를 구축하여 안전한 데이터의 활용을 지원할 계획입니다. 
다만, 보건의료 데이터는 민감한 정보가 많고 언제든지 새로운 개인정보 침해 위험이 발생할 수 있기 때문에 다양한 수준에서 데이터 활용의 영향을 평가할 필요가 있습니다. 보건의료데이터의 보안 강화 방안을 지속적으로 보완하면서, 공익적 목적의 데이터 활용의 유용성을 국민에게 알리고, 전향적으로는 정보주체의 동의를 확보해 나가는 방안에 대한 검토가 필요합니다. 보건의료데이터를 다루는 기관들은 데이터 처리 과정 전반에 걸친 절차 및 거버넌스, 안전조치 사항 등을 내부적으로 규정하고 정보 주체의 권익을 보호하기 위해 책임을 다해야 합니다. 이를 위해서는 데이터를 안전하게 보호하고 관리할 수 있는 전문 인력의 양성과 분산환경 기반의 학습, 프라이버시 보호 모델과 같은 안전한 데이터 활용 기술, 가명화 방법 등도 개발이 시급히 이루어져야 할 것입니다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.