기계번역이란 말 그대로 기계가 번역하는 것을 의미한다.
이상적으로는 처음부터 끝까지 사람의 손을 거치지 않았어도 마치 사람이 한 것과 같은 산출물을 내는 것이겠지만, 현실적으로는 아직도 많이 부족함을 경험하고 있다. 그럼에도 기계번역에 관심을 갖고 투자와 개발을 지속하는 이유는 무엇일까? 산업과 문화의 발전에 따라 가속화된 커뮤니케이션 증가로부터 자연스럽게 발생하는 요구사항 때문일 것이다.
기업에서는 이러한 수요를 충족시키고 이윤을 내기 위해 아래 방법을 사용해왔다.
1) 완전 인간번역: 기계의 도움 없이 사람이 모두 번역함
2) 완전 기계번역: 사람이 일체 손을 대지 않고 기계가 모두 번역함
3) 기계원조형 인간번역: 기계의 도움을 받아 인간이 번역함
4) 인간원조형 기계번역: 인간이 참여하여 기계가 번역함
각각의 특징을 나열하면 아래와 같다.
1) 완전 인간번역은 사람이 모두 하는 만큼 시간과 비용이 가장 크게 소요되어, 급변하는 환경에서 적절한 수익을 위해 활용할 수 있는 분야가 매우 한정적이다.
2) 완전 기계번역은 빠르지만 산출물을 그대로 사용하기에는 품질이 아직 많이 부족하다.
3) 기계원조형 인간번역은 기계, 즉 번역지원 소프트웨어를 통해 기존 산출물을 활용함으로써 시간과 비용을 절감하는, 현재 업계에서 보편적으로 사용하는 방법이다.
4) 인간원조형 기계번역은 기본적으로는 기계가 번역하되 인간이 참여함으로써 적정 수준의 산출물을 내는 방법이다.
기업 입장에서 가장 중요한 요소는 시간과 비용이다.
이를 최소화 하면서 수요를 충족시킬 수 있는 최선의 방법은 무엇일까?
시간은 기계로 벌고, 비용 즉, 품질은 사람이 개입하는 인간원조형 기계번역일 것이다. 실제로 소수의 기업들은 이미 이를 실용화 하였고, 유럽 등 일부 국가에서는 이를 위한 포스트에디터(Post-editor) 같은 직업군도 발생하였다.
그렇다면 기업에서 인간원조형 기계번역을 취하려면 어떻게 해야 할까?
기본적으로 기계번역 엔진(이하 ‘엔진’)을 구축하기 위한 제반 공정이 필요할 것이다. 그리고 사람을 투입하는 최적의 시점을 공정화 하며, 다시 사람의 산출물을 엔진에 수정 반영하는 순환 구조를 만든다. 그럼으로써 시간과 비용을 점차 감소시켜 나간다면, 완전 기계번역이 가능한 수준에 다다를 수 있을 것이라는 가능성까지 기대할 수 있다.
예로 한 기업의 공정과 간략한 설명은 아래와 같다.
1) 데이터 수집: 엔진의 기본 데이터로서, 소스-타겟의 이중 언어(Bilingual), 단일 언어(Monolingual), 용어 사전과 같은 참고(Reference) 데이터를 수집함
2) 데이터 정리/가공: 수집된 데이터의 품질을 간이 체크하여 부적절한 데이터를 제거하고, 엔진 트레이닝에 사용할 수 있는 형태로 가공함
3) 트레이닝: 엔진에 데이터를 반영하여 패턴화하는 등 실질적으로 엔진을 생성함
4) 진단/파인튜닝: 오류 패턴 및 모르는 용어를 분석하고 수정함
5) 기계번역: 별도의 번역 소프트웨어로 문서를 번역함
6) 포스트 에디팅: 기계번역 산출물의 오류를 사람이 직접 수정함
물론 각 공정에는 크고 작은 세부 공정들이 포함되어 있지만, 이를 포괄하는 매우 중요한 요소는 엔진의 사용 대상을 특정 분야로 국한하고, 양호한 품질의 소스를 대량 투입하는 것이다.
이미 특허, 의료와 같은 매우 전문적이고 한정적인 분야에서는 해당 기계번역 산출물이 매우 만족스럽고 어느 정도 상용화되어 있는 상태이다. 반대로 일부에서는 대상 카테고리를 다소 넓게 설정함으로써 결국 해당 엔진의 활용률이 낮아지는 사례를 겪고 있다. 그 만큼 사용 대상을 특정 산업이나 분야로 매우 좁게 설정해야 하지만, 해당 분야에서 수집할 수 있는 소스 데이터의 분량이 어느 정도 되는지는 분명히 확인해야 한다.
한정되고 반복적이며 매우 많은 산출물이 발생하는 분야라면, 현재의 기술력만으로도 많은 이윤을 남길 수 있는 가능성들이 무척 높아지고 있다. 점차 보편화 되고 있는 방법론이지만 아직은 성공 사례가 많지 않은 이 시점에서 투자와 개발에 뛰어드는 선구자로서의 기업이 있다면 눈 여겨 보아야 할 것이다.
[솔트룩스 TC사업본부 Global팀 이승환 팀장 ]