谷歌娘新技能:谷歌將語言變成向量空間

2013-10-14 21:22 來源:電子信息網 作者:和靜

機器翻譯(簡稱“機譯”)一直是科技領域的一大難題。目前基于統(tǒng)計機譯方法的在線工具如谷歌翻譯、必應翻譯、臉譜翻譯、寶貝魚翻譯、巴比倫翻譯等,其翻譯結果勉強可用,但離完美還相去甚遠。

為提高在線翻譯質量,美國谷歌(Google)公司的三名工程師最近提出一種嶄新的機譯方法:將語言翻譯變成向量空間數學問題,利用數據挖掘技術建模一種語言的結構,然后與另一種語言的結構進行對比,從而擴充和完善現有的雙語語料庫。該研究成果的論文預印本于9月17日在著名網站arXiv.org公開后,引起了學術界的廣泛關注。

新的方法依賴于一個概念,即每一種語言都有一套相似的想法,因而使用單詞的方式也存在相似性。例如,大多數語言中都有描述相同動物的單詞,如“狗”、“貓”和“?!?,這些單詞很可能以相同的方式在句子中使用,如“貓是一種比狗小的動物”。

125495597_71n

英語與西班牙語的數字向量空間圖

數字也一樣;上圖顯示了在英語和西班牙語中數字(一至五)的向量表示法以及它們是如何相似的。

語言中單詞之間的關系集合被稱為“語言空間”(language space),可類比為一個點到另一個點的向量集合,能以數學的方式進行處理,例如“國王”減去“男性”加上“女性”等于“女王”(“king”–“man”+“woman”=“queen”)。

在向量空間中,許多語言都有共通之處,可以利用向量空間線性變換將一種語言翻譯成另一種語言。工程師們說,“盡管它很簡單,我們的方法出奇有效;在翻譯英語和西班牙語之間的單詞和短語時,準確率可以達到幾乎90%。”

中國數學家和語言學家周海中認為,這種基于線性代數的機譯方法很有新意也有實效。不過,他對不同語系的自然語言(如英語和漢語)在線翻譯是否也有那么高的準確率表示懷疑。他強調:不管用什么方法來提高機譯質量,首先要解決的是自然語言的本身問題,尤其是語義表達和語用功能,而不是計算機編程問題或數學建模問題?!霸谌祟惿形疵髁舜竽X是如何進行自然語言的模糊識別和邏輯判斷的情況下,機譯質量要想達到‘信、達、雅’的程度是不可能的?!敝芎V姓f。

谷歌 向量空間

相關閱讀

暫無數據

一周熱門