머신러닝 기법이 의약품 이상반응 실마리정보 탐지의 새로운 대안이 될 수 있다는 전문가의 의견이 제기됐다.
전통적 역학·통계모델과 머신러닝 기반 모델의 비교분석 결과 머신러닝을 이용한 실마리정보 탐지가 전반적으로 퍼포먼스가 좋은 연구결과 때문.
신주영 성균관대 약대 교수는 7일 서울대병원 치과병원에서 열린 약물역학위해관리학회 추계학술대회에서 ‘전통적 통계적 분석과 머신러닝 기법 비교’ 발표를 진행했다.
이날 신주영 교수는 성균관대 약물역학연구실과 소프트웨어공학과 등과 함께 연구한 머신러닝을 이용한 항암제 이상반응 실마리정보 분석 결과를 소개했다.
머신러닝은 컴퓨터 과학 중 인공지능의 한 분야로, 패턴인식과 컴퓨터 학습 이론의 연구로부터 진화한 분야로, 특히 경험적 데이터를 기반으로 학습을 하고 예측을 수행하고 스스로의 성능을 향상시키는 시스템과 이를 위한 알고리즘을 연구하고 구축하는 기술이다.
신 교수에 따르면 머신러닝의 과정은 전처리 과정, 데이터의 분리과정, 머신러닝 알고리즘의 적용과정, 예측과정 및 평가과정으로 진행됐다.
신 교수는“이 과정을 통해 목표약물의 실마리정보를 탐지하려고 했다. 검증된 머신러닝 알고리즘 중 실마리정보 탐지에 적합한 알고리즘을 활용해 실마리 정보를 탐지했다”고 밝혔다.
특히 신 교수는 그동안 사용해 온 항암제인 도세탁셀과 면역항암제 중 가장 먼저 출시된 니볼루맙을 선정해 연구했다.
그는 “머신러닝 기법은 통계적 방법이 아닌 학습된 예측기에 의한 분류를 기반으로 하는데 실마리 분석을 위한 머신너링으로 가장 강력한 알고리즘인 Random Forest와 gradient Boosting Machine을 사용했다”면서 “이후 목표약물의 이상반응에 대한 실마리정보를 탐지했고 이를 기존의 방법으로 실마리정보를 탐지한 결과와 비교했다”고 설명했다.
그 결과, 머신러닝 알고리즘이 더 많은 부작용 실마리정보를 찾는 것을 확인할 수 있었다.
이는 당초 전통적 통계분석 지표가 사전에 연구되고 오랜 기간 사용되었던 부분이라는 점에서 머신러닝 알고리즘보다 나을 것이라고 예측과 다른 결과였다는 것이 신 교수의 설명이다.
연구결과를 자세히 살펴보면, 오래 사용된 항암제로 부작용 보고가 많은 도세탁셀이 전반적으로 퍼포먼스가 좋게 나왔고 기존 전통적 통계 방법인 POR(Reporting Odds Ratios), IC(Information Component) 지표를 이용하는 것보다 머신러닝을 이용한 분석방법이 퍼포먼스가 더 좋게 분석됐다.
특히 양성예측치(Positive Predictive Value)가 높은 것으로 보아, 시그널로 판단한 것이 실제 약물과 관련된 이상사례일 가능성이 높다는 평가다.
신 교수는 “머신러닝 알고리즘을 이용하는 것이 기존 방법보다 실마리정보 분석에 더 나은 퍼포먼스를 보여줬다”며 “머신러닝 알고리즘을 이용하는 것이 기존 방법이 잡아내지 못하는 시그널을 잡아냈다”고 밝혔다.
아울러 “머신러닝을 통한 실마리정보 탐지가 PPV(양성예측치)보다 높은 것으로 보아 정확성 또는 높은 시그널을 생산할 수 있다는 것을 보여준다”면서 “즉 Random Forest와 gradient Boosting Machine을 이용한 방법이 실마리정보분석의 새로운 대안이 될 수 있는 가능성을 보여줬다. 좋은 퍼포먼스를 보이는 머신러닝 기법이 실마리정보 탐지의 새로운 대안적인 방법이 될 수 있다”고 말했다.