EMNLP 2021 채택 자연어처리 논문수 한국이 5위...작년까지 10위
국내 연구팀 논문 총 33편 중 10편은 네이버, 12편은 KAIST에서 나와
카카오·서울대, 네이버·KAIST 공동 연구 각기 오럴 세션 발표

(사진=EMNLP 2021, 네이버, 카카오, 서울대, 카이스트)
(사진=EMNLP 2021, 네이버, 카카오, 서울대, 카이스트)

우리나라의 자연어처리(NLP) 분야 연구 역량이 전세계 5위 수준에 도달했다.

11일(현지시간) 막을 내린 NLP 분야 최고 국제학술대회 ‘EMNLP 2021’에 소개된 한국 연구팀 논문수가 세계 5위를 기록한 것.

특히 이번 학회에서는 기업이 대학과 비슷한 수준의 성과를 내면서 한국의 NLP 연구 역량을 증명하는데 앞장섰다.

하정우 네이버 AI연구소장에 따르면 올해 EMNLP에 채택된 국내 연구팀 논문수는 총 33편이다. 이는 전세계에서 5번째로 많은 수치다.

이번 EMNLP에 가장 많은 논문을 발표한 국가는 미국이다. 다음으로 학회에 많은 연구 성과를 공개한 국가는 중국, 영국, 독일, 한국 순이다.

(사진=네이버 클로바)
(사진=네이버 클로바)

하정우 연구소장은 “작년까지 우리나라는 EMNLP 채택 논문수로 10위에서 12위 수준에 머물렀었다. 올해 성과가 더욱 의미있는 이유”라고 강조했다.

네이버 클로바 관계자는 “컴퓨터 비전 분야는 CVPR이나 ICCV등에서 이미 한국이 3-4위를 하고 있는데 이제 NLP에서도 최상위권으로 올라왔다. 한국의 NLP 연구 역량이 세계 수준까지 성장했다는 것을 보여주는 부분”이라고 전했다.
 

◆하이퍼클로바 보유한 네이버, 국내 기업 중 최다 논문 발표

국내 기업 중 EMNLP 2021에 가장 많은 논문을 발표한 곳은 네이버다. 네이버가 이번 학회에서 발표한 NLP 논문은 총 9개. 자연어이해(NLU) 분야 논문까지 합하면 10개다.

한국 연구팀 성과 중 약 30%는 네이버에서 나왔다는 의미다. 연구의 질적인 면에서도 좋은 평가를 받았다.

네이버 논문 중 5편은 메인 세션, 나머지 5편은 파인딩스(Findings)에서 소개됐다. 메인세션에 채택된 논문은 상위 20%, 파인딩스의 경우 상위 30~35% 성적으로 평가받은 것을 의미한다.

네이버가 메인 세션에서 발표한 논문 중 하나는 하이퍼클로바 연구 성과다. 해당 논문 제목은 '대규모 언어모델이 불러올 변화는? 하이퍼클로바에 대한 심화 연구(What Changes Can Large-scale Language Models Bring? Intensive Study on HyperCLOVA: Billions-scale Korean Generative Pretrained Transformers)'다.

논문에서는 하이퍼클로바가 다양한 한국어 과제(task)에 대해 제한된 예제만으로도 뛰어난 학습 성능을 보인다는 것을 증명했다. 초거대 언어모델에서의 프롬프트 최적화, 데이터 토큰화 등에 대한 논의를 발전시켰다는 것이 네이버 설명이다.

'하이퍼클로바 스튜디오'를 통해 '노 코드 AI' 등 초대규모 AI가 가져올 AI 서비스 개발 방법론에 대한 혁신적인 변화와 같은 내용도 포함됐다.

AI 기반 번역으로 대표되는 NLU 분야 논문 1편도 메인세션에 초대됐다. 논문 이름은 ‘다국어 뉴럴 기계 번역을 위한 효율적인 추론(Efficient Inference for Multilingual Neural Machine Translation)’.

해당 논문 집필에 네이버 AI 번역기인 파파고가 네이버랩스 유럽과 함께 참여했다는 점도 주목할 만하다.

하정우 연구소장은 “네이버랩스 유럽과 파파고는 오랫동안 번역기 성능 향상을 위해 공동 연구를 진행해왔다. 이번에 소개한 논문이 그 결과물”이라고 말했다.

네이버 클로바 관계자는 “이번 EMNLP 파인딩스에는 저희 클로바가 주도하는 베트남 AI 연구센터인 HUST-NAVER AI Center 연구도 포함되어 있다. 동남아로의 AI 연구 저변 확대 성과가 나왔다는 측면에서 큰 의미가 있다”고 전했다.
 

◆총 3건 논문 발표한 카카오...서울대와의 공동 연구 성과 오럴 세션 채택

카카오에서는 총 3건 논문을 올해 EMNLP에 발표했다. 이 중 2건은 카카오엔터프라이즈, 1건은 카카오브레인 연구 성과다.

특히 카카오엔터프라이즈가 이번 학회에 발표한 논문 중 1편은 서울대 윤성로 교수팀과의 공동 연구 성과로 공개 발표를 진행하는 오럴 세션(oral session)에 초대됐다.

해당 논문 제목은 ‘얼라인먼트 추정과 번역을 위한 연계학습 활용 비자기회귀 뉴럴 기계 번역(AligNART: Non-autoregressive Neural Machine Translation by Jointly Learning to Estimate Alignment and Translate)’다.

신경망 기계 번역 방법론에 대한 내용으로, 단어의 얼라인먼트(alignment) 정보를 활용해 비자기회귀(Non-autoregressive) 모델이 가진 멀티모달리티(multi-modality) 문제를 개선했다.

한편, 카카오는 올해 EMNLP 워크샵으로 진행된 국제 기계 번역 대회 ‘WMT21’에서 수상하는 성과를 거두기도 했다.

카카오엔터프라이즈 관계자는 “이번 WMT21 terminology task의 영어-프랑스어(English-French) 분야에서 공동 1위를 달성했다”고 밝혔다.

이어 “해당 태스크는 번역에서 특정 도메인의 단어와 구문 단위 용어를 잘 반영하기 위한 과제다. 이 중 가장 많은 시스템이 참가한 영어-프랑스어 분야에서 공동 1위를 한 것”이라고 전했다.
 

◆12편 논문 발표한 KAIST, 국내 대학·기업 중 최다...서울대 5편 논문 소개

국내 대학 중에서는 KAIST가 올해 EMNLP에 가장 많은 논문을 발표했다. KAIST 전체에서 학회에 소개한 논문은 12편. 이는 국내 대학과 기업을 통틀어 가장 많은 수다.

연구의 질에 대해서도 전반적으로 좋은 평가를 받았다. EMNLP 2021에 채택된 KAIST 논문 12편 가운데 9편은 메인 세션에, 2편은 파인딩스에 소개됐다.

KAIST 내에서는 전산학과가 8편 논문을 이번 학회에 발표하면서 가장 많은 기여를 했다. 특히 오혜연 교수 연구팀은 5개 논문을, 맹성현 교수팀의 경우 3편 논문을 올해 EMNLP에 소개했다.

이 중 오럴 세션 채택 논문은 오혜연 교수팀 연구 논문이 2편, 맹성현 교수팀 성과가 1편이다.

오혜연 교수팀이 이번 EMNLP 오럴 세션에서 발표한 논문 제목은 ▲'범주형 감정으로부터의 차원적 감정 감지(Dimensional Emotion Detection from Categorical Emotion)' ▲'새로운 데이터 확대 및 커리큘럼 학습을 통한 효율적인 대조 학습(Efficient Contrastive Learning via Novel Data Augmentation and Curriculum Learning)'이다.

맹성현 교수의 오럴 세션 논문은 '효율적인 텍스트 검색어를 위한 이진화를 통한 초고차원 희소 표현(Ultra-High Dimensional Sparse Representations with Binarization for Efficient Text Retrieval)'이다. 해당 논문은 네이버 서치 엔진팀과 함께 연구한 성과다.

성과 의미에 대해 맹성현 교수는 "뉴럴 네트워크를 쓰는 서치 엔진 기술의 검색 시간을 줄이는 방법을 고안했다. 시간이 많이 걸리는 만큼 기존에는 기업에서 쓰기 어려웠던 기술이다. 우리 연구에서는 벡터 길이를 많이 늘려서 밀도를 낮춰 검색 효율을 높이면서 실질적으로 검색 신뢰도도 향상시켰다"고 전했다.

KAIST 김재철AI대학원의 성과는 KAIST 전체 채택 논문 12편 중 4편이다. AI대학원 소속 주재걸 교수팀은 이번 EMNLP에서 2편 논문을 발표했다. 이외 서민준, 양은호 교수 연구팀에서 각기 나온 연구 논문이 학회에 채택됐다.

주재걸 교수팀이 발표한 논문 제목은 ▲‘다중 입력 표현을 통한 프로그램 코드의 새로운 자연어 요약(Novel Natural Language Summarization of Program Code via Leveraging Multiple Input Representations)’ ▲‘다운스트림 영역에 어휘를 적용하기 위한 전략(AVocaDo: Strategy for Adapting Vocabulary to Downstream Domain)’이다.

서울대 AI연구원에서는 5편 연구 논문을 올해 EMNLP에 선보였다.

서울대에서는 앞서 언급한 카카오엔터프라이즈와 윤성로 교수팀의 공동 연구 논문이 오럴 세션에 초대됐다. 이외 김건희, 장병탁, 정교민, 황승원 교수 연구팀에서 각기 나온 연구 논문이 이번 EMNLP에 소개됐다.

김건희 교수팀 논문 제목은 ▲'정서적 원인에 대한 공감반응 생성을 위한 관점 수집과 화용론(Perspective-taking and Pragmatics for Generating Empathetic Responses Focused on Emotion Causes)'이며, 장병탁 교수팀 논문은 ▲'희소 그래프 학습 및 지식 전달을 통한 추론 시각 다이얼로그(Reasoning Visual Dialog with Sparse Graph Learning and Knowledge Transfer)'다.

정교민 교수 연구팀은 ▲'이미지 캡션 평가를 위한 질의응답(QACE: Asking Questions to Evaluate an Image Caption)', 황승원 교수팀의 경우 ▲'구조 증강 키프레이즈 생성(Structure-Augmented Keyphrase Generation)' 논문을 발표했다.

AI타임스 박성은 기자 sage@aitimes.com

[관련기사]네이버, 한글 및 한국어 정보처리 학술대회서 15개 논문 채택...초거대AI 연구 포함

[관련기사]인공지능의 눈, 컴퓨터 비전 국내 강자는 누구? ICCV 2021 총결산

키워드 관련기사
  • "언어학자는 초거대 AI 개발 비용 줄이는 법을 알고 있다"...서울대 박진호 교수 인터뷰
  • [박규병 칼럼] 인공지능 연구자/개발자가 되려면 어떤 역량이 필요할까?
  • 네이버, 'NeurIPS 2021'서 8개 논문 채택...산학협력과 R&D 투자가 비결