인공지능 유전체 분석 어디까지 왔나?
인공지능 유전체 분석 어디까지 왔나?
  • 이지혜
  • admin@hkn24.com
  • 승인 2022.12.27 08:46
  • 댓글 0
이 기사를 공유합니다

유전자 dna gene 게놈

[헬스코리아뉴스 / 이지혜] 개인의 유전정보 확인이 가능해지며 개인 맞춤형 솔루션을 제공하는 정밀의료(Precision medicine)는 더 이상 미래의 일이 아니게 됐다. 많은 암 환자들이 자신의 암 조직 정보에서 나오는 유전체 정보를 바탕으로 가장 적합한 약물을 처방받을 수 있는 시대가 열린 것이다. 인공지능을 활용한 유전체 분석을 통해 환자가 질병을 얻기 전 자신의 위험 요소를 미리 대비할 수 있는 많은 진단 기술도 확보될 것으로 보인다. 

유전체 분석 기업 지니너스 이시영 연구원은 최근 ‘인공지능(AI) 기술을 활용한 유전체 분석 동향’ 리포트를 통해 유전체 데이터에 인공지능 기술을 적용한 사례인 약물반응성 예측, 공간정보에 대한 발현 예측, 신약개발 타깃 발굴 예측 등 3가지를 소개했다. 

유전체 분석 기술은 현재 차세대 염기서열 분석방법(Next Generation Sequencing, NGS)이 개발됨에 따라 기존 염기서열을 하나 하나 읽어가며 분석하던 직접서열분석방법(sanger suequencing)에 비해 매우 빠른 시간 안에 분석이 가능하게 됐다.

유전체(Genome) 분석을 넘어 전사체(Transcriptome) 분석 및 단백체(Proteomics) 분석 또한 NGS 방식을 사용하는데, 유전체 분석에 대한 데이터 양이 기하급수적으로 늘어나면서 아직 해석하지 못하고 있는 정보가 훨씬 많아 인공지능(AI)의 적용이 필요한 상황이다.

 

“면역항암제 약물반응성 예후 예측 ... 실제 환자 진단 활용 기대” 

암 환자의 경우 특정 변이에 따라 표적치료를 하는 경우도 있지만 면역항암제는 약물의 특성보다는 개인의 면역적 특성이 치료에 상당한 영향을 미치기 때문에 유전체 데이터를 해석하는 것이 중요하다. 특히 면역항암제는 효능이 좋지만 투여 비용이 비싸기 때문에 어떤 사람이 효능을 얻을 수 있는지 판단하는 것은 매우 중요하다. 

면역항암제 반응성에 대한 연구는 단일세포 시퀀싱을 많이 활용하고 있는데, 각 세포 하나에서 나오는 전사체의 집합체를 가시적으로 구분하고 데이터를 쉽게 다루기 위해서 인공지능 알고리즘이 필수적으로 사용된다.

기본적으로 RNA 시퀀싱을 활용해 확인할 수 있는 유전자 발현의 수가 3~4만 개 정도 되는데 이를 1만여 개의 세포에서 모든 유전자를 통해 특성을 확인하고자 한다면 데이터의 수와 각각의 변화를 일일이 확인하는 것은 연산 처리에 있어 매우 복잡하고 시간이 오래 걸린다. 

변수가 매우 많을 경우 데이터를 압축하는 방법을 사용해 학습속도를 개선하고 데이터를 가시화하는 방식을 통해 세포들의 특성에 따라 클러스트를 분류한다. 

 

단일세포 전사체 분석 결과 tSNE, UMAP 차원 축소 모델 [자료=BRIC 동향리포트]
단일세포 전사체 분석 결과 tSNE, UMAP 차원 축소 모델 [자료=BRIC 동향리포트]

자동적으로 분류되는 클러스트를 기반으로 유전자 정보들이 나타나는 곳을 확인해보면 혈액이나 조직 내에서 면역세포의 특성을 가지는 세포들의 분류를 따로 특정지어 뽑아낼 수 있다. 

이런 정보를 바탕으로 면역항암제 투여에 반응성을 알 수 있는 환자 면역세포의 특징을 알아낼 수 있다. 현재까지 연구된 바로는 CD8 T cell의 활성이 높아진 상태(cyto-toxic CD8 T cell)나, 활동이 저하된(exhaust CD8 T cell) 상태 등을 비롯해 CD4 에서도 Th1, Th17 의 비율, TAM(Tumor associated macrophage) 등의 비율 확인으로 약물에 대한 반응성을 예측하는 논문들이 많이 등장하고 있다. 최근에는 이러한 면역세포의 특징적인 부분 외에 부수적으로 나오는 수많은 마커들을 하나의 바이오마커의 네트워크로 패턴화하여 반응도를 예측하는 모델들이 활용되고 있다. 

이시영 연구원은 “최근에는 많은 데이터들이 공개되고 또 사용될 수 있기 때문에 자신의 연구 데이터로 예측모형을 만든 후 다른 공개 데이터 등을 통해서 검증하는 용도로 사용하는 연구들이 논문화 되고 있다”며 “90~95% 정도의 예측 정확도를 가지는 모델을 보통 잘 짜여진 예측 모델이라고 판단하고 있다”고 설명했다. 

피부암의 일종인 기저세포암(Basal cell carcinoma, BCC)에서 anti-PD1 면역치료를 진행했을 때 나오는 반응군과 비반응군에 해당되는 CD8 T cell의 발현 특성에 따라 97%까지 반응 예측도를 확인할 수 있는 기계학습 모델이 국제학술지 프론티어스 인 제네틱스(Frontiers in genetics)에  지난해 발표된 바 있다. 

올해 국제저명학술지 네이처 커뮤니케이션스(Nature Communications)에 발표된 논문에서는 네트워크 모델을 기반으로 다른 논문에서 연구된 데이터들보다 예측도를 더 높인 예측 알고리즘이 개발되기도 했다.

이 연구원은 “이러한 데이터들이 의미하는 것은 기존에 알려진 바이오마커 외에 인공지능을 활용하여 새로운 의미를 가지는 패턴화 된 특이점 혹은 마커를 발견할 수 있으며 데이터가 더 축적될수록 정확한 결과를 얻어낼 수 있다”며 “아직까지는 이러한 예측 모델이 연구적인 논문 성과에 그치고 있지만 추후 데이터 축적과 더불어 실제 동반진단(Companion diagnostics, CDx) 개념 혹은 다지표검사(Multivariate Index Assay, MIA)의 개념으로 추후에는 FDA에서 승인되어 실제 병원에서 환자들의 진단으로 활용될 수 있을 것”으로 예측했다. 

 

“공간전사체 분석으로 유전자 발현 정도까지 예측”

공간전사체 발현 패턴 예측 사례 [
공간전사체 발현 패턴 예측 사례 [자료=BRIC 동향리포트]

단일세포 분석과 더불어 병리적으로 많은 정보를 제공해 줄 것으로 기대되는 공간전사체 분석기술은 2020년 네이처 자매지 네이처 메소드(Nature methods)에서 올해의 기술로 선정됐다.

조직의 공간정보와 세분화된 전사체 분석을 통해서 각 조직별로 어떤 RNA가 발현되는지를 확인할 수 있게 됨에 따라 인간이 미처 감지하지 못하는 병리적인 부분 또한 인공지능이 개척할 수 있는 하나의 분야로 최근 많은 연구자들이 해당 주제를 통한 인공지능의 영역을 활용하게 됐다.

공간전사체 관련 발현을 통해서 앞선 면역항암제의 반응성을 예측하는 지표로도 활용할 수 있지만 해당 기술을 인공지능에 접목시킨다면 조직의 단면 병리 H&E 슬라이드에서 얻을 수 있는 정보만을 가지고 해당 유전자의 발현 정도까지 예측하는 것 또한 가능해지는 시대가 오고 있다.

네이처 의공학저널(nature biomedical engineering)에 2020년 발표된 논문은 이러한 가능성에 대한 잠재력을 증명하며 딥러닝 기술의 활용방안을 제시했다. 보통 암에 대한 병리 슬라이드를 통해 환자의 기본적인 암 조직, 면역세포 종류 확인 등을 확인하고 면역염색(Immunohistochemistry, IHC)을 통해 약물 처방에 대한 바이오마커 지표 등을 확인하는 과정을 거친다.

암은 기본적으로 정상세포와는 다른 RNA 발현 패턴을 갖게 되는데 지방산 생성효소인 FASN(Fatty acid synthease)이라는 유전자는 대부분의 인간 종양세포에서 과발현 되는 패턴을 보인다. 다만, 병리적으로 구분되는 종양 중에서도 사람의 인지적 판단에 따라 애매한 부분 혹은 놓칠 수 있는 부분이 있을 수 있는데 인공지능 기술을 도입해 H&E 슬라이드(slide)의 각 부분에 해당되는 RNA 발현(expression)을 예측할 수 있도록 나타낸 것이다.

이시영 연구원은 “물론 이에 대한 정확도가 아직 완벽하지는 않지만 뚜렷하게 구분되는 몇몇 마커들의 발현을 예측할 수 있음에 따라 딥러닝 알고리즘 구현을 이미지에 매칭해 결국 이미지만 보고도 유전자 발현을 예측할 수 있는 모델 개발이 이루어질 수 있는 것”이라고 설명했다. 

현재 영상정보 데이터를 기반으로 딥러닝 기술을 도입한 루닛 또한 이러한 접근 방향을 가지고 H&E 슬라이드의 위치정보 및 약물 반응성 정보를 기반으로 Lunit SCOPE, Lunit IO와 같은 툴을 개발해 미국임상종양학회(ASCO)가 발간하는 SCIE급 국제학술지 저널 오브 클리니컬 온콜로지(Journal of Clinical Oncology)에 비소세포폐암(Non-small lung cancer, NSCLC)에서의 면역세포들의 침투 및 주변 면역세포들의 조성을 인공지능으로 점수화해 약물반응성을 예측한 바 있다. 

뿐만 아니라 보다 복잡한 RNA expression을 예측하는 모델까지도 해외 유수 AI 그룹에서 연구가 집중되어 나오고 있다. 그림에 대한 정보를 RNA expression과 연계시키는 것까지 계속해서 개발되며 배포되고 있다. 공간전사체 정보 등을 기반으로 약물에 대한 반응이 실제로 일어났는지 조직 내 분포를 통해 확인하거나 종양미세환경 등을 유전자 발현 정보 기반으로 면역 투과도 등을 지표화해 확인할 수 있는 방법 등을 개발하고 있는 포트래이(Portrai) 등의 유전체 기반 AI 기업 등도 해외에서 성과를 발표하고 있다.

이 연구원은 “획기적인 플랫폼들의 개발 및 인공지능의 개발에도 불구하고 상용화가 되기 위해서는 가격적인 부분에서의 부담이 존재한다”면서 “하지만 이와 같이 한 슬라이드 당 수백만 원의 원가를 들여서 생산해야 하는 정보들로부터 수많은 데이터를 축적한 후 딥러닝 알고리즘이 이상적으로 구축된다면 단돈 만 원에 얻을 수 있는 슬라이드 정보로부터 수많은 정보를 확인하게 될 수 있다”고 기대했다. 

이어 “현재로서는 암 분야에 있어서 가장 빠르게 연구가 되고 상용화가 될 것으로 생각되지만 기술개발을 통해 세포 하나하나 단위로 분석이 되고 예측모델도 점점 개발된다면 암 분야 외의 다른 많은 의료영역에서도 비싸지 않은 의료정보를 통해서도 많은 맞춤형 처방을 내릴 수 있을 것”이라고 전망했다. 

 

신약개발 타깃 발굴 

신약개발에 있어서 타깃을 발굴하거나 동반진단을 위한 예후 예측 마커를 발굴하는 것은 유전체 분야에서 인공지능을 활용해 가장 관심을 보이고 있는 분야 중 하나다.

최근 인공지능을 활용해 타깃의 도출 과정을 기존 10년에 가까운 시간에서 1~2년 정도의 시간으로 절약하는 것이 가능해졌고 단일세포 분석을 통해 기존 전사체 분석에서 확인할 수 없었던 각 세포별 특징을 볼 수 있게 됐다.

정확도를 비약적으로 높이는 과정이 많은 임상시험 등을 통해 진행되고 있고 임상 3상에서 성공하는 약물의 경우 동반진단을 활용하는 경우가 그렇지 않은 경우에 비해서 2배 가량 성공률이 높다고 보고되고 있다.

 

신약개발과정에서의 유전체 정보 활용
신약개발과정에서의 유전체 정보 활용 [자료=BRIC 동향리포트]

예전에는 동반진단에 대한 부분을 개발하는 회사에서 먼저 제안을 하고 신약개발 후에 진행하는 경우가 많았지만 최근에는 신약개발 시 정확도 및 성공확률 등을 높이는 경향에 힘입어 신약개발을 하는 과정에서 동반진단 마커 등을 개발하도록 FDA에서 권고하는 추세다.

이러한 접근 방식으로 성과를 내기 시작한 것은 10년 내외이기 때문에 앞으로의 데이터의 축적과 인공지능의 활용으로 더욱 발전할 것으로 기대되고 있다. 

미국 경제 전문지 포브스는 2022년 헬스케어 업계가 지속적으로 관심을 기울여야 하는 시장의 주요 트렌드 중 하나로 데이터 분석을 꼽았다. 신약 개발 과정에서 패턴을 발견하고 투약에 따른 치료 결과를 미리 예측할 수 있는 부분을 말할 정도로 최근 트렌드는 인간이 미처 파악하지 못하는 데이터의 활용방안에 대해 집중하고 있다.

글락소스미스클라인(GSK)은 2018년 7월 미국 유전자 검사 기업 23앤드미(23andme)가 가지고 있는 500만여 명의 데이터를 4년간 사용하는 조건으로 3000억 원이 넘는 비용을 투자했다.

미국, 영국을 비롯한 선진국들부터 범국가적인 규모로 유전체 데이터의 수집이 이루어지고 있는 상황으로 연구자들이 사용 가능하도록 많은 부분이 공유되고 있다. 이미 잘 알려 진 NCBI GEO(Gene Expression Omnibus), SRA(Sequence Read Archive), TCGA(The Cancer Genome Atlas) 등의 플랫폼에서 많은 연구자들이 데이터를 활용하거나 새로 수집한 데이터 등과 비교해서 우위를 가지는 알고리즘 등을 도출하고 있다.

데이터 활용의 중요성과 가치에 대해서는 연구자뿐 아니라 제약사 등의 각 기업에서 점점 관심이 높아지고 있다. 최근에는 많은 국내외 제약사 등이 기존의 축적된 데이터 등을 가지고 정확한 타깃을 발굴하기 위해서 인공지능 회사들과 공동연구계약 혹은 인수를 통해서 신약개발에 박차를 가하고 있다.

기존 RNA 시퀀싱에 비해 정밀한 단일세포 분석 데이터를 가지고 있는 미국의 이뮤나이(Immunai)나 셀시어스 테라퓨틱스(Celsius therapeutics) 같은 경우도 데이터 기반 타깃을 도출해 신약개발 제약사와 공동 협업을 하면서 로열티로 매출을 발생시키고 있다.

축적된 수많은 데이터와 인공지능을 활용해서 정확한 타깃을 발굴하는 인공지능(AI) 기술을 활용한 것을 넘어 실패 확률이 높은 사례들을 제거할 수 있다는 기전 또한 인공지능을 통해서 활용이 가능하기 때문이다.

이시영 연구원은 “인공지능을 이용해서 진행한 신약개발과정에서 아직까지는 타깃 발굴부터 임상에 들어간 프로젝트 중 성공사례까지 나온 것은 없다”며, “많은 제약사가 타깃 도출 및 전임상, 임상단계에 진입하고 있고 영국 AI 신약개발사 엑스사이언티아(Exscientia)가 암 분야에서 타깃 발굴을 통해 임상 1상에 들어간 프로젝트가 현재로서는 가장 빠르게 진행되고 있는 프로젝트 중 하나”라고 소개했다.

그러면서 “추후 인공지능을 활용한 약물개발이 성공하는 사례들이 나올 것이고 그러한 성공사례들을 바탕으로 개인의 유전체 데이터와 이를 활용 하고자 하는 연구자 및 기업의 더욱더 많은 접근 및 활용으로 상용화가 이루어질 것”이라고 내다봤다. 


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.

      • 회사명 : (주)헬코미디어
      • 서울특별시 마포구 매봉산로2길 45, 302호(상암동, 해나리빌딩)
      • 대표전화 : 02-364-2002
      • 청소년보호책임자 : 이슬기
      • 제호 : 헬스코리아뉴스
      • 발행일 : 2007-01-01
      • 등록번호 : 서울 아 00717
      • 재등록일 : 2008-11-27
      • 발행인 : 임도이
      • 편집인 : 이순호
      • 헬스코리아뉴스에서 발행하는 모든 저작물(컨텐츠, 기사)는 저작권법의 보호를 받는 바, 무단·전재·복제·배포 등을 금합니다.
      • 「열린보도원칙」 당 매체는 독자와 취재원 등 뉴스이용자의 권리 보장을 위해 반론이나 정정보도, 추후보도를 요청할 수 있는 창구를 열어두고
        있음을 알려드립니다. 고충처리인 이슬기 02-364-2002 webmaster@hkn24.com
      • Copyright © 2024 헬스코리아뉴스. All rights reserved. mail to admin@hkn24.com
      ND소프트
      편집자 추천 뉴스
      베스트 클릭