2024-04-19 18:25 (금)
한국말 더 잘 알아듣는 AI 나온다… 구글보다 성능 우선
한국말 더 잘 알아듣는 AI 나온다… 구글보다 성능 우선
  • 연합뉴스
  • 승인 2019.06.11 23:00
  • 댓글 0
이 기사를 공유합니다

인공지능 ‘엑소브레인’ 로고.
인공지능 ‘엑소브레인’ 로고.

한국전자통신연구원 개발 첨단 언어모델 ‘로버트’ 공개

형태ㆍ교착어 특성까지 반영 45억개 형태소 기반 언어모델

내 몸 밖의 인공두뇌 엑소브레인 2016년 장학퀴즈 4명 대결 이겨

 한국말을 더 잘 알아듣는 인공지능(AI) 서비스 기술이 개발됐다.

 한국전자통신연구원(ETRI)은 최첨단 한국어 언어모델 ‘코버트’(KorBERT)를 만들어 온라인(aiopen.aihub.or.kr)에 공개했다고 11일 밝혔다.

 ETRI에서 연구한 모델은 두 종류다.

 구글의 언어표현 방법을 기반으로 더 많은 한국어 데이터를 넣어 만든 형태와 교착어 특성까지 반영해 만든 버전이다.

 언어처리를 위한 딥러닝을 위해서는 어절을 숫자로 표현해야 한다.

 지금까지는 주로 구글의 다국어 언어모델 ‘버트’(BERT)를 활용했다.

 버트는 문장 내 어절을 한 글자씩 나눈 뒤 앞뒤로 자주 만나는 글자끼리 단어로 인식한다.

 구글은 40여만 건의 위키백과 문서 데이터를 사용해 한국어 언어모델을 구현했다.

 ETRI 연구진은 여기에 지난 10년간의 신문기사와 백과사전 정보를 얹었다.

 무려 45억개의 형태소를 더 학습한 건데, 이를 통해 구글보다 많은 한국어 데이터를 기반으로 하는 언어모델을 내놨다.

 기술 고도화를 위해 한국어의 교착어 특성까지 반영했다.

 첨가어라고도 하는 교착어는 체언 앞뒤에 다양한 조사를 붙일 수 있는 언어 유형이다.

코버트 작동 원리 살피는 임준호 선임연구원(오른쪽)과 배용진 연구원.
코버트 작동 원리 살피는 임준호 선임연구원(오른쪽)과 배용진 연구원.

 연구진은 한국어 의미 최소 단위인 형태소까지 고려해 모델을 완성했다.

 구체적으로는 전처리 과정에서 형태소를 분석한 언어모델, 한국어에 최적화한 학습 파라미터, 방대한 데이터 기반 등이 구글과 차별성 있는 특징이라고 연구진은 설명했다.

 실제 성능 확인 결과 구글이 배포한 한국어 모델보다 4.5%가량 우수했다. 단락 순위화(Passage Ranking) 기준에서는 7.4%가 높았다.

 코버트는 대표적인 딥러닝 프레임워크 파이토치(PyTorch)와 텐서플로(Tensorflow) 환경 모두에서 쓸 수 있다.

 ETRI 김현기 박사는 “언어 분석, 지식 추론, 질의응답 등 다양한 한국어 딥러닝 기술의 고도화를 기대할 수 있을 것”이라고 말했다.

 이번 성과 근간에는 과학기술정보통신부와 정보통신기획평가원(IITP) 혁신성장동력 프로젝트인 엑소브레인(Exobrain) 사업이 있다고 ETRI 측은 덧붙였다.

 ‘내 몸 밖의 인공두뇌’라는 뜻을 담은 엑소브레인은 자연어 이해를 바탕으로 지식을 학습해 사람과 질의응답할 수 있는 인공지능 기술이다.

 2016년 EBS 장학퀴즈에서는 인간 퀴즈왕 4명과 대결을 펼쳐 압도적 우승했다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.