Research Stories 게시판읽기 ( AI기반 최첨단 생물정보학 분석 도구 및 ▼ 분석 결과 제시 )

Research Stories

AI기반 최첨단 생물정보학 분석 도구 및
분석 결과 제시

게놈학 및 분자생물학 분야에서 다양한 도전적인 문제를 더 이해하고 해결하기 위하여 AI 머신 러닝 기술을 접목하여 최근 생물학의 다양한 난제의 해법을 제시

융합생명공학과 발라찬드란마나발란 교수

융합생명공학과 발라찬드란 마나발란 교수는 게놈학 및 분자생물학 분야에서 다양한 도전적인 문제를 더 이해하고 해결하기 위하여 AI 머신 러닝 기술을 접목하여 최근 생물학의 다양한 난제의 해법을 제시하고 관련내용을 Molecular Therapy (IF-12.91 2022), Briefings in Bioinformatics (Impact factor 13.994, 2022), Briefings in Bioinformatics (Impact factor 13.9994, 2022)에 각각 교신저자로 개제하였다.

최근, 그의 연구팀은, 새포 내 긴 비암호화RNA(lncRNA) 위치 및들을 제안하였다.

1. 스택 전략을 활용한 인간 RNA N5-메틸사이토신(m5C) 위치추적

m5C는 다양한 세포 과정과 질병 발병에 필수적인 역할을 하는 전사 후 후성유전학적 변형 중 하나이다. 따라서 세포 과정 및 대사 메커니즘에 대한 보다 깊은 이해를 얻기 위해서 m5C 변형을 정확하게 식별하는 것이 매우 중요하다. 관련하여 발라찬드란 교수와 Hong-Wen Deng (Tulane 대학교) 교수 팀은 최신 벤치마킹 데이터 세트를 구성하고 새로운 컨텍스트인 one-hot 인코딩을 포함하는 DNA 염기 서열 정보로부터 다른 특징들을 추출하였다. 기존에 존재하는 기준 모델 및 딥 러닝 기준 모델을 구성하는 데 다양한 인코딩방식을 활용하였고, 스택 전략으로 중요한 모델들을 결합하여 최종 예측모델인 Deepm5C를 구축하였다. 다양한 검증 데이터 셋으로부터 Deepm5C가 기존 예측 모델들보다 m5C 사이트를 식별하는 성능이 훨씬 뛰어나다는 결론을 얻었으며, 제안된 하이브리드 프레임워크의 효율성을 더욱 입증하였다.

해당 연구는 NRF-2021R1A2C1014338의 지원을 받아 수행되었으며, 5월 6일 Molecular Therapy (Impact factor 12.91) 저널(Cell Press)에 온라인 게재되었다.

2. 트리 기반 알고리즘을 활용한 인간 lncRNA의 세포내 주 발현 위치 예측

lncRNA는 세포내 가장 많이 존재하는 기능성 RNA로서 세포내의 다양한 신진대사 및 인간 병증에 관여하는것로 알려져 있다. 관련하여, lncRNAs는 세포내의 위치에 따른 역할이 다르며, 해당 RNAs의 세포내 위치를 식별하기 위하여 다양한 머신러닝 기반 예측 모델이 개발되어 왔다. 이에 발란찬드란 교수 (교신저자) 연구팀은 융합생명공학과 전영준 (교신저자) 교수 연구팀과 협업을 통하여 현존하는 여러 머신러닝 기반 알고리즘보다 월등한 예측력을 가지고 있는 TACOS라 명명한 예측 알고리즘을 개발하였다. 연구팀은 각 세포 유형에 대해 새로 구성된 균형 잡힌 학습 데이터 세트 (training dataset)를 사용하여 10개의 서로 다른 특징 디스크립터 (feature descriptor)를 가진 6개의 트리 기반 분류기(tree-based classifier)를 포괄적으로 평가하였다. 그 후. AdaBoost 기준 모델의 강점들을 적절한 트리 기반 분류기와 통합하여 최종 예측을 진행하였다.

그림 1 TACOS 개요. 데이터 세트 구성, 특징 추출, 기준 모델 구성 및 최종 모델 구성 단계가 포함된다.

해당 연구는 NRF(2021R1A2C1014338 및 2021R1C1C1007833)의 지원을 받아 수행되었으며, 6월 27일 Briefings in Bioinformatics (Impact factor 13.994; JCR=1) 저널에 온라인 게재되었다.

3. 항코로나바이러스 펩타이드(ACVP) 식별을 위한 새로운 알고리즘 구축

기존의 비펩타이드 약과 달리 항바이러스성 펩타이드 약물은 특이성이 높고 합성 및 변형이 용이하며 약에 대한 내성이 쉽게 발생하지 않는다. 수천 개의 펩타이드를 선별하고 항바이러스 활성을 분석하는 데 드는 시간과 비용을 줄이기 위해서는 ACVP를 식별하기 위한 계산 예측 변수가 필요하였다. 발라찬드란 교수와 Hiroyuki Kurata(일본 규슈 공과대학교) 교수의 팀은 iACVP(그림 2)라는 도구를 개발하였다. 5가지 다른 분류기와 기존 특징에 대한 철저한 분석을 바탕으로 랜덤 포레스트 알고리즘과 word-embedding word2vec(W2V)가 데이터 세트에 관계없이 최상의 성능을 보여주었음을 확인하였다.

그림 2. iACVP 개발 워크플로우. (A) W2V 인코딩 및 BE를 사용한 머신 러닝 방법의 구축, 평가 및 분석. (B) K-mer 연속 아미노산(AA) 시퀀스의 Word2vec 인코딩 및 훈련 및 테스트 데이터 세트의 샌드위치 구조.

이 연구는 NRF-2021R1A2C1014338의 지원을 받아 수행되었으며, 7월 1일 Brieflings in Biominformatics (Impact factor 13.994; JCR=1) 저널에 온라인 게재되었다.

종합적으로 발라찬드란 마나발란 교수 연구팀은 국내외의 다양한 연구자들의 협업을 통하여 연구팀이 연구 노하우를 다양한 생물학적 컨텐츠에 적용함으로써 지속적인 연구 결과를 양산하고 있다. 그의 관심 연구는 https://balalab-skku.org/에 확인할 수 있다. 현재 그의 연구팀은 지속적인 연구영역 확장을 위하여 재능있고 관심있는 연구자 및 학생들을 찾고 있다고 말했으며, 관심있는 학생은 bala2022@skku.edu으로 직접 연락할 수 있다.