Blog

Blog

기계번역, 자동번역기의 현주소

컴퓨터가 발전해 가면서 예전에는 상상도 하지 못했던 일들이 점차 실현 가능해지고 있다. 이제 언제 어디에서 든 사람들은 원하는 정보를 얻을 수 있다. 예전에는 신문이나 티비를 통해서만 접할 수 있는 기사들을 이제는 실시간으로 트위터(Twitter), 페이스북(Facebook) 또는 구글과 같은 검색 사이트를 통해서 바로 알 수 있게 되었다. 이제 우리는 국내뿐만 아니라 지구 반대편에 있는 나라의 사건들도 마찬로 관심을 가질 수 있다. 세계는 점점 더 좁아지고 있다. 하지만 아직 하나로 통합되지 못했다. 통합을 방해하는 요소는 정보 불균형, 무관심 등 여러 가지가 있지만 나는 가장 큰 문제는 언어 장벽이라고 생각한다.

기존에 우리는 언어 장벽이 허물어진 세상을 상상했었다. 조지 루카스(George Walton Lucas)의 영화 스타워즈(Star Wars)에 나오는 로봇 C3PO나 더글러스 애덤스(Douglas Adams)의 은하수를 여행하는 히치하이커를 위한 안내서(The Hitchhiker's Guide to the Galaxy)의 바벨 피쉬(Babel Fish)등이 모든 언어를 번역할 수 있는 능력의 가지고 등장했음을 기억하고 있을 것이다. 하지만 현실에서 이런 일은 아직 불가능하다. 과연 언제쯤 어떻게 언어의 세계가 하나로 통합될 수 있을까?

세상의 언어가 하나였던 시기가 있었다. 바로 고대 바벨탑(Tower of Babel)[1]이 있었던 시기이다. 바벨탑의 정확한 위치는 현재 알려지지 않지만 전승된 기록에 따르면 보시파(Borsippa, 'Tongue Tower”)에 바벨탑의 잔해가 있다는 기록도 있고 에트멘안키(Etemen-an-ki) 즉, 하늘과 땅의 기초가 되는 사원인 현재 유프라테스 강 오른쪽 강둑 근처 남쪽 도시에 위치한다는 기록도 있다. 현재 폐허가 된 이곳 들은 정확히 바벨탑이 어디였는지 알려주지는 않고 있지만 남아있는 기록들로써 바벨탑의 존재는 고고학을 기초로 함을 확신할 수 있다. 언제쯤 창세기(11:1)에 나와 있던 바벨탑 이전의 온 땅의 언어가 하나였던 시절로 돌아갈 수는 없을까? 과연 가능한 일일까?

컴퓨터 공학의 번역 시스템이야 말도 이것을 설명해 줄 수 있는 바로미터(Barometer)라고 생각한다. 하나의 언어로 세계를 통합해 줄 번역 시스템 발전의 현주소를 살펴봄으로 써 시기를 예상해보고자 한다.

자동번역 시스템은 많은 다른 뛰어난 기술들이 그렇듯 처음에는 미국과 러시아의 군사 정보를 수집할 목적으로 개발되었다. 하지만 1966년 ALPAC Report에서 "자동번역 기술은 결코 인간의 번역 능력을 따라잡을 수 없으며, 인간 번역가에 의해 결국 다시 재 작업이 되어야 하므로, 궁극적으로는 인간 번역가에 의해 번역하는 것이 이득이 된다." 라는 보고가 발표된 이후 자동번역의 발전은 침체하였다. 하지만 이후 1980년대 유럽과 일본에서 다시 개발이 시작되었고 도시바(Toshiba), 후지쓰(Fujitsu) 등과 같은 기업들을 중심으로 연구가 진행되었으며 현재 일본은 미국과 함께 세계 수준의 자동번역 기술을 보유하고 있다[2].

자동 번역(Machine Translation)은 크게 통계기반 자동 번역(Statistics-Based Approach)과 규칙기반 자동 번역(Rule-Based Approach)으로 나눌 수 있다. 통계기반 자동 번역은 통계적 분석을 통해 모델의 파라미터를 학습하고 그 모델에 근거하여 입력된 문장을 번역한다. 통계기반 자동 번역은 1949년 Warren Weaver[3]에 처음 소개되었고, 1991년 IBM의 Thomas J. Watson[4]에 의하여 연구가 진행되어 현재 가장 활발히 연구되고 있다. 통계기반 자동 번역은 각 언어의 번역된 결과 통계를 사용하므로 규칙 기반 자동 번역보다 개발 시간을 단축할 수는 있고 특정 언어에 국한되지 않는 시스템을 개발할 수 있다. 하지만 통계 데이터가 충분히 축적돼야 하고 이종 어족언어에 대해서는 규칙기반 자동 번역보다 번역률이 떨어지는 단점이 있다.

규칙기반 자동 번역은 직접 번역 방식(Direct Translation Approach), 간접 변환 방식(Indirect Transfer Approach), 중간 언어 방식(Interlingua Approach) 등으로 세분할 수 있다. 이는 분석 깊이에 기반을 두는 분류 방식이다. 직접 번역 방식은 형태소 분석 등 낮은 단계의 변환을 시작하여 번역하는 방식으로 언어학적으로 유사한 언어에 많이 사용되고 있다. 간접 변환 방식은 문법과 의미 구조를 분석한 후 번역한다. 이는 적은 수의 규칙만으로도 높은 성능을 낼 수 있기 때문에 국내 상용화되고 있는 대부분 번역 시스템이 이 방식을 채택하고 있다. 중간 언어 방식은 언어를 분석하여 언어 독립적인 새로운 언어에 대입하는 방법을 이용한다. 모든 언어가 중간 언어로 새롭게 번역되기 때문에 다국어 번역 시스템에 적합하다는 장점이 있다.

상용화된 프로그램은 대표적으로 SYSTRAN[5]과 구글 번역(Google Translate)[6]이 있다. 규칙기반 번역시스템인 SYSTRAN은 피터 토마(Peter Toma)[7]가 설립한 회사 이름이자 제품 이름이기도 하다. 야후(Yahoo!), 윈도우 라이브, AOL 그리고 예전에 알타비스타(AltaVista)의 바벨피쉬(Babel Fish)같은 서비스들이 이 번역 시스템을 기초로 하고 있다. 2007년에 출시한 구글 번역은 구글 자신이 직접 만든 알고리즘을 통해 통계기반 번역시스템을 사용한다. 실제 통계 데이터가 많이 축적되지 못한 한-영 상호 간 번역보다 한-일, 일-영 데이터가 많이 축적되어 있기 때문에 한-영 번역 품질을 높이기 위해서는 일문을 한번 거치는 것이 품질이 더 좋다고 말하기도 한다.

여러 언어가 속해있는 유럽연합은 이런 번역 시스템의 도입이 절실했다. 유럽연합의 공식 문서는 각기 다른 언어를 가지고 있는 자국의 언어로 다시 발행되고 있는데 이때 SYSTRAN의 번역을 1차로 사용하고 매끄럽지 않은 부분은 이후 사람이 교정해가고 있다. 우리나라와 일본도 출원되는 특허를 영어권의 사용자들이 검색할 수 있는 자동번역 시스템을 제공하고 있다.

자동 번역의 분류 및 현재 발전 상황을 살펴본 결과 완벽한 번역 시스템이 나오기는 더 많은 연구 결과가 필요해 보인다. 아직 완벽하지 않다고 해서 자동번역의 필요성이 없어진 것은 아니다. 최근 소프트웨어 개발 주기가 짧아지고 고객의 대상이 글로벌로 넓어지고 있기 때문에 소프트웨어의 다국어화에서 자동번역 기능을 도입한다면 빠른 개발에 도움이 될 수 있을 것이다. 번역에 높은 품질을 유지하고 위해서 소프트웨어 제품에서 많이 사용하는 단어 또는 문장들 등을 데이터베이스화하는 것도 필요하다. 정부에서는 소프트웨어를 육성하고자 실제 도움이 될지 의심스러운 대책들을 내놓기 보다는 글로벌화(Globalization)을 위해 번역 데이터를 주도적으로 구축해 주는 것이 더 실질적인 도움이 될 것으로 생각한다.


References

[1] (2003). Tower of Babel - Wikipedia, the free encyclopedia. Retrieved September 28, 2013, from http://en.wikipedia.org/wiki/Tower_of_Babel.
[2] (2005). 다국어 자동번역 기술 - ETRI 전자통신동향분석 - 한국전자통신연구원. Retrieved September 28, 2013, from http://ettrends.etri.re.kr/PDFData/20-5_016_027.pdf.
[3] (2004). Warren Weaver - Wikipedia, the free encyclopedia. Retrieved September 28, 2013, from http://en.wikipedia.org/wiki/Warren_Weaver.
[4] (2003). Thomas J. Watson - Wikipedia, the free encyclopedia. Retrieved September 28, 2013, from http://en.wikipedia.org/wiki/Thomas_J._Watson.
[5] SYSTRAN - Online translation, translation software and tools. Retrieved September 28, 2013, from http://www.systransoft.com/.
[6] Google Translate. Retrieved September 28, 2013, from http://translate.google.com/.
[7] (2005). Peter Toma - Wikipedia, the free encyclopedia. Retrieved September 28, 2013, from http://en.wikipedia.org/wiki/Peter_Toma.