현재 사용중인 브라우저 정보

귀하께서 사용하시는 브라우저 종류는 인터넷 익스플로러 브라우저 입니다.

원할한 W브릿지 이용을 위해서는 Edge 브라우저나
Chrome 브라우저를 이용해주시기 바랍니다.

Wbridge 로고

과학기술 트렌드

미래유망직업

[전문가 칼럼] 생물정보학으로 감염병을 잡는다

#여성과학기술인#생물정보학#감염병

조회수 23717 좋아요6 작성일2022-04-20

[전문가 칼럼] 생물정보학으로 감염병을 잡는다


생물정보학(Bioinformatics)이란 생물학(Biology)과 정보학(Informatics)의 두 분야가 융합되면서 만들어진 분야다. 초창기에는 생물학 연구를 위한 컴퓨팅 기술 정도로 시작됐으나 급속도로 발전하는 IT와 맞물리면서 독자적인 학문 영역으로 자리매김하게 됐다. 생물정보학은 유전자 서열정보를 공유하는 데서 더 나아가 신종플루, 코로나19 같은 감염병의 변이바이러스 분석에도 유용하게 쓰이고 있다.



ⓒ shutterstock


생물정보학의 역할


생물정보학의 태동기에는 주로 개개의 실험실 단위로 관리되던 유전체 서열을 디지털화해 인터넷상에서 공유할 수 있도록 데이터베이스를 구축하는 일 자체도 매우 큰 작업이었다. 그 당시 대표적인 데이터베이스 서비스 기관으로는 미주지역을 대표하는 NCBI(National Center for Biotechnology Information), 유럽대륙을 대표하는 ENA(European Nucleotide Archive, 구 EBI(European Bioinformatics Institute)) 그리고 아시아를 대표하는 일본의 DDBJ(DNA Data Bank of Japan) 등을 손꼽을 수 있다. 이 3개 기관은 INSDC(International Nucleotide Sequence Database Collaboration)라는 협의체를 결성해서 하루 주기로 각각의 기관으로 등록된 유전자 서열정보를 공유함으로써 연구자는 어느 기관의 웹 사이트를 방문하더라도 동일한 양의 유전자 정보를 얻을 수 있었다.

21세기에 들어서면서 전 세계적으로 대유행을 야기한 감염병들은 대부분 호흡기를 통해 전파되며, 병을 유발하는 원인 미생물이 바이러스라는 공통점을 가지고 있다. 2009년 멕시코와 미국으로부터 시작해서 전 세계적인 대유행을 야기한 신종플루, 2003년 2월 아시아에서 시작해서 높은 치사율을 보이며 급속도로 확산되어 나갔던 중증급성호흡기증후군, 일명 사스(SARS), 2012년 중동지역 국가인 사우디아라비아에서 처음으로 보고되고 2015년 우리나라에서 큰 사회적 이슈가 됐던 중동호흡기증후군, 일명 메르스(MERS), 그리고 2019년 말 중국 우한시로부터 시작되어 지금까지 전 세계적으로 맹위를 떨치고 있는 코로나19(COVID-19)에 이르기까지 인류 역사는 감염병과의 전쟁의 연속이라고 이야기해도 과언이 아닐 것이다. 

우리가 잘 아는 인플루엔자를 유발하는 바이러스는 A형과 B형이 존재하는데, 신종플루라는 대유행을 일으킨 종류는 A형 인플루엔자 바이러스 중 H1N1 아형(subtype)이었다. A형 인플루엔자 바이러스는 원래 조류를 숙주 생물종(host species)으로 증식하던 종으로 이후에 사람, 돼지 등 다양한 생물종으로 감염 범위를 확대해 오고 있으며, 이런 이력 덕분에 변이 발생 속도도 매우 빠른 것으로 알려져 있다. 올해로 발생 2주년을 넘어가고 있는 코로나19는 사스 코로나바이러스 2(SARS-CoV-2)가 원인이다. 이 바이러스는 2019년 말 중국 우한에서 최초로 보고된 이래 알파, 베타, 감마, 델타에 이어 오미크론까지 길지 않은 기간 동안 수많은 변종이 보고되고 있다. 

이와 같은 변이바이러스의 특징은 사람의 면역체계를 회피하는 능력을 얻을 수 있다는 점이다. 유전자가 변이되는 속도가 매우 빠르기 때문에 생물정보학적 기술을 활용한 분석이 매우 중요한 역할을 한다. 

감염병 바이러스의 변이를 분석하려면?

코로나19의 사례를 살펴보면, 세계 각국으로부터 쏟아져 나오는 SARS-CoV-2의 유전체 서열을 효율적으로 수집해 공유하기 위한 많은 노력이 이루어졌다. 가장 먼저 디지털화되어 공유되기 시작한 것은 개개의 바이러스 유전자가 아니라 바이러스의 전장 유전체(whole-genome)였다. 해당 서열정보는 독일의 GISAID(Global Initiative for Sharing All Influenza Data) 플랫폼을 통해 관련 연구자들에게 제공됐다. 이후에 미국의 NCBI SARS-CoV-2 Resources에서도 전장 및 유전자별 서열 데이터를 제공해오고 있다. SARS-CoV-2에 대한 전 세계적인 관심의 산물로 매일매일 쏟아져 나오는 데이터의 양은 상상을 초월할 정도로 많다. 바로 생물정보학이 필요한 이유이다. 

 감염병 바이러스 유전체 정보공유 플랫폼 사례. GISAID(왼쪽)와 NCBI SARS-CoV-2 Resources(오른쪽). ⓒ GISAID & NIH

감염병 바이러스의 변이를 분석하는 전통적인 방법은 계통학적 분석기법(phylogenetic analysis)이다. 바이러스 유전자 서열 간의 유사도를 계산한 뒤 분지도(tree) 형식으로 각 서열 간의 관계를 시각화해 보여준다. 즉 상관도를 분석하려는 바이러스의 서열들을 분류군(taxa)으로 정의하고 특정 알고리즘(Neighbor-Joining 또는 Maximum-Likelihood 등)을 사용해 이들 간의 유전학적인 거리와 공통의 조상 서열(root)을 가지(branch)와 마디(node)로 이루어진 분지도(tree) 형태로 표현한다. 

과거에는 미국 워싱턴대에서 개발한 PHYLIP(PHYLogeny Inference Package) 시리즈의 비교적 간단한 분석 프로그램이 사용됐으며, 최근에는 다양한 기능을 추가한 MEGA(Molecular Evolutionary Genetics Analysis)나 BEAST(Bayesian Evolutionary Analysis Sampling Trees) 등과 같은 고도화된 소프트웨어들이 오픈소스로 개발되어 사용되고 있다. 이 소프트웨어들은 지금껏 잘 알려진 바이러스 서열에 대한 변이분석에서는 탁월한 성능을 나타내지만, 타깃이 명확하지 않은 신종 바이러스 분석에서는 다소 어려움이 있다. 

계통학적 분지도(phylogenetic tree)의 기본 구조.

생물정보학과 인공지능, 컴퓨터 프로그래밍의 만남

코로나19의 사례에서도 나타났듯이, 지금껏 알려지지 않았던 신종 감염병 바이러스가 출현하고 단시간에 많은 수의 감염자들이 발생할 경우 변종 바이러스가 나타날 확률은 더욱 높아진다. SARS-CoV-2 바이러스도 어마어마한 양의 바이러스 유전체 정보들이 매 순간 쏟아져 나오고 있다. 실제로 타깃 유전자 서열정보를 내려받는 데도 적잖은 시간이 필요한 지경에 이르렀다. 감염병 대응연구에 있어서 시간은 생명이다. 감염병 연구를 위한 생물정보학 연구자는 첫째로는 수많은 양의 데이터를 효과적으로 다룰 수 있어야 하며, 두 번째로는 확보된 데이터로부터 숨겨져 있는 바이러스의 특성을 신속하게 파악할 수 있어야 한다. 

4차 산업혁명의 시대의 서막을 알린 인공지능 알파고 이후로, 다양한 분야에서 인공지능 기술을 활용하기 시작했다. 감염병 연구 분야도 예외가 아니어서 질병에 대한 진단, 예측을 위한 다양한 인공지능 모델개발이 이루어지고 있다. 미국 IBM사가 개발한 인공지능 ‘왓슨(Watson)’은 암환자의 증세를 보고 치료약 처방을 돕고, 또 다른 인공지능은 엑스레이 이미지를 통해 코로나19인지 아닌지를 판단한다. 인공지능은 정답을 모르는 상태에서 대량의 빅데이터를 스스로 판단해 숨어 있는 특성을 추출해내는 데 탁월한 능력을 가지고 있다. 바로 이와 같은 인공지능의 장점을 감염병 대응을 위한 생물정보학 분야에서도 활용할 필요가 있다. 감염병 대응에 특화된 인공지능을 개발하기 위해서는 모델을 훈련시킬 데이터 세트를 얼마만큼 잘 준비하느냐가 중요하며, 최근에는 파이썬(python)이나 통계 프로그램인 R-패키지(package), 또는 수치해석 프로그램인 매트랩(MATLAB) 등에서도 다양한 생물정보학 기술을 활용할 수 있는 기술이 다수 개발되고 있다. 

과거에는 제품화된 소프트웨어에 의존해 생물정보학 연구를 수행해 왔다면, 이제는 컴퓨터 프로그래밍을 통해 자신이 원하는 방향으로 필요한 분석 파이프라인을 만들어 나갈 수 있어야 한다. 생물정보학은 머물러 있는 학문이 아니라 IT의 발전과 함께 빠르게 변화해 나아가는 학문이다. 이제 다음 팬데믹(next pandemic)을 대비해야 하는 중요한 시점에서 생물정보학 연구자들도 첨단 기술을 감염병 연구에 십분 활용할 수 있는 전문인력으로 거듭날 수 있기를 바란다. 


글_안인성 한국과학기술정보연구원 책임연구원