
導(dǎo)語(yǔ):彭博社今天撰文稱(chēng),谷歌正在語(yǔ)音識(shí)別領(lǐng)域展開(kāi)野心勃勃的嘗試,希望通過(guò)技術(shù)手段實(shí)現(xiàn)超越人類(lèi)的語(yǔ)音識(shí). . .
谷歌語(yǔ)音識(shí)別Google Now
導(dǎo)語(yǔ):彭博社今天撰文稱(chēng),谷歌正在語(yǔ)音識(shí)別領(lǐng)域展開(kāi)野心勃勃的嘗試,希望通過(guò)技術(shù)手段實(shí)現(xiàn)超越人類(lèi)的語(yǔ)音識(shí)別能力。
以下為文章全文:
與數(shù)字助理交流是一件有趣的事情,它給人的感覺(jué)就像固執(zhí)的孩童。如果你曾經(jīng)對(duì)著Xbox或Siri大喊大叫,你或許已經(jīng)失去希望。
但研究人員表示,語(yǔ)音識(shí)別和人工智能領(lǐng)域最近取得的突破,很快就能大幅提升這些電子產(chǎn)品的理解力,使之更好地與我們展開(kāi)溝通。谷歌工程師約翰·沙爾克維克(Johan Schalkwyk)表示,這種全新的設(shè)備不僅能聽(tīng)懂我們的意思,還能結(jié)合上下文和語(yǔ)調(diào)的細(xì)微差別理解深層含義。
沙爾克維克正在谷歌從事一項(xiàng)野心勃勃的研究項(xiàng)目,希望創(chuàng)造一套能夠利用該公司海量數(shù)據(jù)的語(yǔ)音系統(tǒng)。他表示,他們目前正在實(shí)驗(yàn)室里測(cè)試的一個(gè)項(xiàng)目,使得電腦可以聽(tīng)懂并“思考”人們的語(yǔ)言。
最近在語(yǔ)音識(shí)別和機(jī)器學(xué)習(xí)領(lǐng)域的各種發(fā)明,將給語(yǔ)音識(shí)別帶來(lái)巨大變化。Siri的一位主要發(fā)明人表示,工程師都在狂熱地開(kāi)發(fā)語(yǔ)音識(shí)別技術(shù),使之具備足夠的智能,與用戶(hù)展開(kāi)真正的對(duì)話(huà)。“語(yǔ)音識(shí)別的所有領(lǐng)域都已經(jīng)實(shí)現(xiàn)了很大進(jìn)步?!盨iri底層技術(shù)開(kāi)發(fā)公司SRI International副總裁威廉·馬克(William Mark)說(shuō),“這種對(duì)話(huà)互動(dòng)目前已經(jīng)成為前沿技術(shù)?!?/span>
蒂姆·圖塔爾(Tim Tuttle)等待這一天已經(jīng)很久了。他1997年獲得了麻省理工學(xué)院的博士學(xué)位,并任職于該校的人工智能實(shí)驗(yàn)室。10年來(lái),他先后在硅谷多家公司任職,最終于2010年創(chuàng)辦了自己的Except Labs公司。圖塔爾的公司去年開(kāi)始設(shè)計(jì)一套系統(tǒng),向移動(dòng)應(yīng)用中增加復(fù)雜的語(yǔ)音指令。例如,當(dāng)用戶(hù)走進(jìn)超市時(shí),可以通過(guò)這項(xiàng)功能獲知他要買(mǎi)的掃帚位于哪條走廊。
“一年前,我們?cè)谧龌鶞?zhǔn),我們當(dāng)時(shí)認(rèn)為這不可能實(shí)現(xiàn)。但一切都變了。我們的公司已經(jīng)對(duì)語(yǔ)音加倍下注,主要是因?yàn)榻谒吹降母鞣N技術(shù)進(jìn)步。”圖塔爾說(shuō),“與人類(lèi)水平相當(dāng)或高于人類(lèi)水平的語(yǔ)音識(shí)別系統(tǒng)將實(shí)現(xiàn)商業(yè)化?!?/span>
但首先,還是先來(lái)回顧一下歷史:兩年半以前,谷歌和多倫多大學(xué)的研究人員發(fā)表了一篇頗有影響力的論文,內(nèi)容是用“深度神經(jīng)網(wǎng)絡(luò)”來(lái)指導(dǎo)計(jì)算機(jī)語(yǔ)音技術(shù)。幾個(gè)月后,微軟與IBM也合作發(fā)表了另外一篇論文,被谷歌工程師杰夫·迪恩(Jeff Dean)稱(chēng)作“語(yǔ)音研究領(lǐng)域20年來(lái)的最大進(jìn)步”。
這些研究使得一項(xiàng)數(shù)十年前誕生的數(shù)字神經(jīng)網(wǎng)絡(luò)發(fā)明再度復(fù)活。這項(xiàng)技術(shù)1980年代就在大數(shù)據(jù)預(yù)測(cè)和分析領(lǐng)域?qū)崿F(xiàn)了不俗的表現(xiàn),但當(dāng)時(shí)卻受到計(jì)算機(jī)速度的制約。神經(jīng)網(wǎng)絡(luò)直到最近才變成可行的方案,這主要得益于計(jì)算機(jī)處理速度的加快,以及新型軟件模式的發(fā)展。
谷歌實(shí)驗(yàn)室也開(kāi)展了類(lèi)似的研究。6個(gè)月前,該團(tuán)隊(duì)從這種名為“前饋神經(jīng)網(wǎng)絡(luò)”的古老方法入手,推動(dòng)了神經(jīng)網(wǎng)絡(luò)技術(shù)的復(fù)活。這項(xiàng)技術(shù)使得系統(tǒng)可以?xún)?chǔ)存更多信息,并處理更長(zhǎng)、更復(fù)雜的序列。谷歌這項(xiàng)突破源自對(duì)底層代碼的簡(jiǎn)化,可以在同一套系統(tǒng)中保留更多觀點(diǎn)和觀念,從而讓用戶(hù)更容易問(wèn)出復(fù)雜的問(wèn)題,獲得有意義的答案?!跋到y(tǒng)復(fù)雜性可能對(duì)長(zhǎng)期發(fā)展構(gòu)成傷害?!鄙碃柨司S克說(shuō)。
谷歌的系統(tǒng)目前使用上下文、物理位置和其他因素進(jìn)行假設(shè),以此判斷語(yǔ)音的真正含義——整個(gè)過(guò)程與人類(lèi)大腦的思維模式相仿。谷歌的最新網(wǎng)絡(luò)技術(shù)可以提升這一過(guò)程的效率,從而處理比以往更大的數(shù)據(jù)量,回答更復(fù)雜的問(wèn)題。
為了解釋語(yǔ)音識(shí)別技術(shù)在未來(lái)的工作方式,沙爾克維克提到了谷歌山景城總部幾公里之外的一間高級(jí)越南餐廳。這家名為Xanh Restaurant的餐廳對(duì)典型的語(yǔ)音識(shí)別構(gòu)成了挑戰(zhàn),因?yàn)閄anh這個(gè)名字(發(fā)音為“扎恩”)很難識(shí)別。“如果我能找到它在地圖上的位置,然后說(shuō),‘這是一家餐館,它位于加州?!敲捶秶蜁?huì)立刻縮小?!鄙碃柨司S克說(shuō),“借助語(yǔ)義技術(shù),我們便可大幅改善質(zhì)量?!?/span>
這聽(tīng)起來(lái)似乎很簡(jiǎn)單,但對(duì)電腦來(lái)說(shuō),聽(tīng)到一個(gè)單詞,然后把它放到句子上下文中去辨識(shí),再與地理信息相結(jié)合,是十分困難而且耗費(fèi)時(shí)間的。如今,谷歌語(yǔ)音搜索已經(jīng)可以正確識(shí)別餐館。沙爾克維克表示,谷歌今后將可以處理其他一些同樣野心勃勃的問(wèn)題。
沙爾克維克表示,在谷歌內(nèi)部,語(yǔ)音識(shí)別技術(shù)已經(jīng)實(shí)現(xiàn)了空前的進(jìn)步。雖然谷歌的重大進(jìn)步還要再等一兩年才能應(yīng)用到用戶(hù)的手機(jī)中,但這個(gè)項(xiàng)目已經(jīng)催生了很多可以應(yīng)用于谷歌其他項(xiàng)目的技術(shù)?!伴_(kāi)發(fā)登月項(xiàng)目的同時(shí),還會(huì)同時(shí)設(shè)計(jì)出另外一百項(xiàng)有用的技術(shù)。”沙爾克維克說(shuō)。
沙爾克維克表示,谷歌語(yǔ)音識(shí)別技術(shù)3年前只能認(rèn)出3/4的口語(yǔ)單詞。但得益于創(chuàng)新速度的加快,谷歌手機(jī)應(yīng)用現(xiàn)在可以正確識(shí)別12/13的單詞。據(jù)圖塔爾介紹,要不了多久,“我們就將生活在一個(gè)沒(méi)有鍵盤(pán)的世界里。”(鼎宏)
轉(zhuǎn)自 新浪科技
詳細(xì)內(nèi)容,請(qǐng)登錄九思官方網(wǎng)站:http://m.xtdgjx.com
歡迎關(guān)注九思新浪微博:http://weibo.com/wanghaibo100
更多精彩內(nèi)容,請(qǐng)關(guān)注九思OA官方微信