본문 바로가기
ETC/IT 소식

완벽해지려 하는 구글의 자연어 처리 (NLP)

by 코딩의성지 2019. 12. 1.

대학교 4학년 때, 졸업프로젝트라는 걸 다들 해본 적 있을 것이다.

 

당시에 많은 팀들이 챗봇을 만들겠다면서 도전을 했다. 하지만 다들 1프로 부족했다. 

 

그이유는 한글에 대한 자연어처리에 실패했기 때문이었다.

 

자연어 처리를 하는 많은 서비스가 있지만 한국어를 처리하는 건 대부분 부족했다.

 

보통 NLP 알고리즘은 단어의 순서, 구문 구조가 큰 영향을 미친다. 즉 단어의 순서가 하나만 바껴도 의미가 달라진다는 말이다. 한국어와 영어는 굉장히 다른 구조를 가지고 있기 때문에 이를 처리하는게 어려웠다.

 

이러한 문제를 드디어 !!! 구글이 해결했다고 하는 소식이다. 구글은 기존 알고리즘의 약점이 '의역'에 있다는 것을 파악하고 이를 극복할 수 있는 데이터 셋을 공개했다. 구글에서 새롭게 내놓은 기계학습 모델은 분류 정확도가 기존 50%에서 85~ 89%까지 향상해준다고한다.

 

PAWS (Paraphrase Adversaries from Word Scrambling)

 

<출처 - 구글 블로그>

 

PAWS 는 구글이 이 문제를 해결하기 위해 내놓은 Corpus ( 언어 연구를 위해 컴퓨터가 읽을 수 있는 형태로 모아놓은 텍스트 자료) 다.

 

한국어, 일본어, 중국어, 프랑스어, 독일어, 스페인어에 대응한 PAWS-X 역시 공개 됐다. 

 

구글 블로그에 기재된 내용에 따르면 PAWS 데이터 셋은 QQP(Quora Question Pairs) 이나 Wikipedia에서 제공되는 영어로 된 108,463 쌍의 단어가 포함되어 있고, PAWS-X는 사람이 번역한 23,659 쌍과 기계번역 의 의한 296,406 쌍의 단어가 포함되어 있다고 한다. 

 

구글 연구원의 말에 따르면 이 새로운 데이터 셋은 기계학습 모델이 가진 단어의 순서나 구조에 대한 민감도를 측정할 수 있는 효과적인 수단을 제공할 것이라고 한다.

 

이 PAWS/PAWS-X와 비교할 만한 모델로는 BERT 모델이 있는데 , BERT 모델의 정확도가 33.5%에 불과 했지만 PAWS/PAWS-X는 정확도가 80%이상인 것을 보면 엄청난 개선이라고 볼 수 있다.

 

이러한 개선은 한국의 챗봇 시장에 큰 영향을 줄 것이라고 생각한다. 이 모델을 이용해 다양한 스타트업 팀이 챗봇 연구에 시간을 투자할 것이고, 이는 곧 한국의 디지털 사업이 한단계 진화하는 걸 의미하기 때문이다.

 

내가 다니는 회사에서도 챗봇을 개발하고 실용화하고 있지만 아직 부족한 것은 사실이다. 하지만 PAWS/ PAWS-X 모델을 이용한다면 더 고객지향적인 서비스를 제공할 수 있지 않을까 하는 생각이든다.

반응형

댓글