机器翻译(简称“机译”)一直是科技领域的一大难题。目前基于统计机译方法的在线工具如谷歌翻译、必应翻译、脸谱翻译、宝贝鱼翻译、巴比伦翻译等,其翻译结果勉强可用,但离完美还相去甚远。
为提高在线翻译质量,美国谷歌(Google)公司的三名工程师最近提出一种崭新的机译方法:将语言翻译变成向量空间数学问题,利用数据挖掘技术建模一种语 言的结构,然后与另一种语言的结构进行对比,从而扩充和完善现有的双语语料库。该研究成果的论文预印本于9月17日在著名网站arXiv.org公开后, 引起了学术界的广泛关注。
机器翻译示意图 新的方法依赖于一个概念,即每一种语言都有一套相似的想法,因而使用单词的方式也存在相似性。例如,大多数语言中都有描述相同动物的单词,如“狗”、“猫”和“牛”,这些单词很可能以相同的方式在句子中使用,如“猫是一种比狗小的动物”。英语与西班牙语的数字向量空间图 数字也一样;上图显示了在英语和西班牙语中数字(一至五)的向量表示法以及它们是如何相似的。 语言中单词之间的关系集合被称为“语言空间”(language space),可类比为一个点到另一个点的向量集合,能以数学的方式进行处理,例如“国王”减去“男性”加上“女性”等于“女王”(“king”–“man”+“woman”=“queen”)。 在向量空间中,许多语言都有共通之处,可以利用向量空间线性变换将一种语言翻译成另一种语言。工程师们说,“尽管它很简单,我们的方法出奇有效;在翻译英语和西班牙语之间的单词和短语时,准确率可以达到几乎90%。”
|