您的位置：首页 > 新闻 > 时事焦点 > 新闻详情

机器翻译的崭新方法：将语言变成向量空间

时间：2013-10-08 22:30:37

机器翻译(简称“机译”)一直是科技领域的一大难题。目前基于统计机译方法的在线工具如Google翻译、Bing翻译、Facebook翻译、宝贝鱼翻译、巴比伦翻译等，其翻译结果勉强可用，但离完美还相去甚远。

为提高在线翻译质量，Google公司的三名工程师最近提出一种崭新的机译方法：将语言翻译变成向量空间数学问题，利用数据挖掘技术建模一种语言的结构，然后与另一种语言的结构进行对比，从而扩充和完善现有的双语语料库。

该研究成果的论文预印本于9月17日在著名网站arXiv.org公开后，引起了学术界的广泛关注。

新的方法依赖于一个概念，即每一种语言都有一套相似的想法，因而使用单词的方式也存在相似性。例如，大多数语言中都有描述相同动物的单词，如“狗”、“猫”和“牛”，这些单词很可能以相同的方式在句子中使用，如“猫是一种比狗小的动物”。

数字也一样。上图显示了在英语和西班牙语中数字(一至五)的向量表示法以及它们是如何相似的。

语言中单词之间的关系集合被称为“语言空间”(language space)，可类比为一个点到另一个点的向量集合，能以数学的方式进行处理，例如“国王”减去“男性”加上“女性”等于“女王”(“king”–“man”+“woman”=“queen”)。

在向量空间中，许多语言都有共通之处，可以利用向量空间线性变换将一种语言翻译成另一种语言。工程师们说：“尽管它很简单，我们的方法出奇有效。在翻译英语和西班牙语之间的单词和短语时，准确率可以达到几乎90%。”

中国数学家和语言学家周海中认为，这种基于线性代数的机译方法很有新意也有实效。不过，他对不同语系的自然语言(如英语和汉语)在线翻译是否也有那么高的准确率表示怀疑。他强调,不管用什么方法来提高机译质量，首先要解决的是自然语言的本身问题，尤其是语义表达和语用功能，而不是计算机编程问题或数学建模问题。

周海中说：“在人类尚未明了大脑是如何进行自然语言的模糊识别和逻辑判断的情况下，机译质量要想达到‘信、达、雅’的程度是不可能的。”

他们都在说再看看

专栏文章更多+

2025年的国产游戏预告，我们还能信几分？

电脑里有一款Demo就让我狂玩二十小时的忍者游戏

《仁王3》制作人柴田刚平访谈：还是玩家们熟悉的那个“仁王”

《PUBG》重拳打击外挂，抖音大主播瞬间封号下播

单机发售更多+

四海兄弟：故乡 act 2025年8月8日

鬼灭之刃火之神血风谭2 act 2025-08-05

忍者外传：怒之羁绊 act 2025-07-31

禁闭求生2 act 2025-07-30

狂野之心S act 2025-07-25

杀戮空间3 stg 2025-07-24

明末：渊虚之羽 act 2025年7月24日

完蛋！我被美女包围了！2 avg 2025-07-17

3DM自运营游戏推荐更多+

搞笑球探足球比分更多+