机器翻译的崭新方法:将语言变成向量空间

[复制链接]
查看: 595   回复: 0
抢楼 抢楼 查看抢中楼层 本帖为抢楼帖,T币大于1可以抢楼   截止楼层:666  奖励楼层: 666 
发表于 2013-10-8 23:14:15 | 显示全部楼层 |阅读模式
机器翻译(简称“机译”)一直是科技领域的一大难题。目前基于统计机译方法的在线工具如谷歌翻译、必应翻译、脸谱翻译、宝贝鱼翻译、巴比伦翻译等,其翻译结果勉强可用,但离完美还相去甚远。
为提高在线翻译质量,美国谷歌(Google)公司的三名工程师最近提出一种崭新的机译方法:将语言翻译变成向量空间数学问题,利用数据挖掘技术建模一种语 言的结构,然后与另一种语言的结构进行对比,从而扩充和完善现有的双语语料库。该研究成果的论文预印本于9月17日在著名网站arXiv.org公开后, 引起了学术界的广泛关注。

机器翻译的崭新方法:将语言变成向量空间
机器翻译示意图
新的方法依赖于一个概念,即每一种语言都有一套相似的想法,因而使用单词的方式也存在相似性。例如,大多数语言中都有描述相同动物的单词,如“狗”、“猫”和“牛”,这些单词很可能以相同的方式在句子中使用,如“猫是一种比狗小的动物”。
机器翻译的崭新方法:将语言变成向量空间
英语与西班牙语的数字向量空间图
数字也一样;上图显示了在英语和西班牙语中数字(一至五)的向量表示法以及它们是如何相似的。
语言中单词之间的关系集合被称为“语言空间”(language space),可类比为一个点到另一个点的向量集合,能以数学的方式进行处理,例如“国王”减去“男性”加上“女性”等于“女王”(“king”–“man”+“woman”=“queen”)。
在向量空间中,许多语言都有共通之处,可以利用向量空间线性变换将一种语言翻译成另一种语言。工程师们说,“尽管它很简单,我们的方法出奇有效;在翻译英语和西班牙语之间的单词和短语时,准确率可以达到几乎90%。”


评分

参与人数 1T币 +1 收起 理由
吼吼哈哈 + 1 这个方法不行,2006年我就实践过了.

查看全部评分

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则