應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點(diǎn)新聞
企業(yè)注冊(cè)個(gè)人注冊(cè)登錄

深度學(xué)習(xí)是如何顛覆Siri們的?

2018-01-12 16:01 微信公眾號(hào) OReillyData

導(dǎo)讀:語(yǔ)音識(shí)別的夢(mèng)想是一個(gè)能在不同的環(huán)境下、能應(yīng)對(duì)多種口音和語(yǔ)言的、真正理解人類語(yǔ)言的系統(tǒng)。幾十年來(lái),對(duì)這個(gè)問(wèn)題的嘗試都沒(méi)有成功。尋找一個(gè)能有效地創(chuàng)建這樣的系統(tǒng)的策略看起來(lái)是不可能完成的任務(wù)。

  語(yǔ)音識(shí)別的夢(mèng)想是一個(gè)能在不同的環(huán)境下、能應(yīng)對(duì)多種口音和語(yǔ)言的、真正理解人類語(yǔ)言的系統(tǒng)。幾十年來(lái),對(duì)這個(gè)問(wèn)題的嘗試都沒(méi)有成功。尋找一個(gè)能有效地創(chuàng)建這樣的系統(tǒng)的策略看起來(lái)是不可能完成的任務(wù)。

  然而,在過(guò)去的幾年間,人工智能和深度學(xué)習(xí)領(lǐng)域的突破已經(jīng)顛覆了對(duì)語(yǔ)音識(shí)別探索的一切。深度學(xué)習(xí)技術(shù)在語(yǔ)音識(shí)別領(lǐng)域的運(yùn)用已經(jīng)取得了顯著的進(jìn)步?,F(xiàn)在我們已經(jīng)在非常多樣的產(chǎn)品(比如Amazon Echo、Apple Siri等)里面看到了展示出來(lái)的發(fā)展的躍升。在這篇博文里,我會(huì)回顧一下近期語(yǔ)音識(shí)別的發(fā)展,檢視帶來(lái)這些快速進(jìn)步的因素,并會(huì)討論一下未來(lái)的發(fā)展以及我們離完全解決這個(gè)問(wèn)題還有多遠(yuǎn)。

  一點(diǎn)背景知識(shí)

  多年以來(lái),人工智能的主要任務(wù)之一就是去理解人類。人們希望機(jī)器不僅能理解人說(shuō)了什么,還能理解他們說(shuō)的是什么意思,并基于這些理解的信息采取相應(yīng)的動(dòng)作。這個(gè)目標(biāo)就是對(duì)話人工智能的精髓。

  對(duì)話人工智能包括兩個(gè)主要類別:人機(jī)交互界面和人與人交互界面。在人機(jī)界面里,人類主要是通過(guò)語(yǔ)音和文字與機(jī)器交互。機(jī)器能理解人類的意思(即使只是在一個(gè)有限的形式下)并采取某個(gè)動(dòng)作,這個(gè)機(jī)器可以是個(gè)人助理(比如Siri、Alexa等),或是某種聊天機(jī)器人。

  在人和人交互里,人工智能形成了兩個(gè)或多個(gè)人之間對(duì)話的橋梁,進(jìn)行交互或是創(chuàng)造一些洞察。一個(gè)這樣的例子可能是人工智能參與一個(gè)電話會(huì)議,然后產(chǎn)生一個(gè)會(huì)議的紀(jì)要,并交付給相關(guān)的人。

  機(jī)器感知和認(rèn)知

  為了能更好地理解對(duì)話人工智能所面臨的挑戰(zhàn)和背后的技術(shù),我們必須先看看人工智能里的基本概念:機(jī)器感知和機(jī)器認(rèn)知。

  機(jī)器感知是機(jī)器所具有和人類使用他們的感官去感知世界所類似的形式來(lái)分析數(shù)據(jù)的能力。換句話說(shuō),就是給予機(jī)器類似人的感官。很多使用計(jì)算機(jī)相機(jī)(例如目標(biāo)檢測(cè)和識(shí)別)的人工智能算法都可以歸到計(jì)算機(jī)感知這一類里,他們關(guān)注的是視覺(jué)。語(yǔ)音識(shí)別和畫(huà)像是機(jī)器使用聽(tīng)覺(jué)的感知技術(shù)。

  機(jī)器認(rèn)知是在機(jī)器感知產(chǎn)生的元數(shù)據(jù)上的推理能力。機(jī)器認(rèn)知包括決策、專家系統(tǒng)、采取行動(dòng)、用戶傾向等。通常如果沒(méi)有機(jī)器認(rèn)知不會(huì)對(duì)機(jī)器感知的輸出產(chǎn)生影響。機(jī)器感知為決策和采用什么動(dòng)作提供合適的元數(shù)據(jù)信息。

  在對(duì)話人工智能里,機(jī)器感知包括所有的語(yǔ)音分析技術(shù),比如識(shí)別和畫(huà)像;機(jī)器認(rèn)知包括所有和理解語(yǔ)言相關(guān)的技術(shù),它們是自然語(yǔ)言處理(Natural Language Processing, NLP)技術(shù)的一部分。

  語(yǔ)音識(shí)別領(lǐng)域的演進(jìn)

  語(yǔ)音識(shí)別技術(shù)的研究和發(fā)展主要包括三個(gè)時(shí)期:

  2011年之前

  語(yǔ)音識(shí)別的研究已經(jīng)有幾十年了。實(shí)際上,甚至是在上世紀(jì)50和60年代,就已經(jīng)有了構(gòu)建語(yǔ)音識(shí)別系統(tǒng)的嘗試了。不過(guò),在2011年前,深度學(xué)習(xí)、大數(shù)據(jù)、云計(jì)算的進(jìn)步尚未發(fā)生,這個(gè)時(shí)期的系統(tǒng)離能被廣泛采用和商業(yè)化都很遠(yuǎn)。本質(zhì)上,算法都不夠好、沒(méi)有足夠的數(shù)據(jù)來(lái)訓(xùn)練算法、缺少必要的高性能計(jì)算機(jī)硬件都在妨礙研究人員嘗試更復(fù)雜的試驗(yàn)。

  2011-2014年

  深度學(xué)習(xí)(在語(yǔ)音識(shí)別里)的第一個(gè)主要影響發(fā)生在2011年。一組來(lái)自微軟的研究人員——Li Deng、Dong Yu和Alex Acero——與Geoffrey Hinton和他的學(xué)生George Dahl創(chuàng)造了第一個(gè)基于深度學(xué)習(xí)的語(yǔ)音識(shí)別系統(tǒng),并立刻就產(chǎn)生了影響:錯(cuò)誤率降低了25%多。這個(gè)系統(tǒng)是語(yǔ)音識(shí)別領(lǐng)域繁盛發(fā)展和提升的起點(diǎn)。憑借更多的數(shù)據(jù)、可用的云計(jì)算資源以及被諸如Apple(Siri)、Amazon(Alexa)和Google這樣的公司重視,語(yǔ)音識(shí)別的性能得到了顯著的提升,并伴隨著不少商業(yè)化產(chǎn)品被投放到市場(chǎng)。

  2015年至今

  到2014年底,循環(huán)神經(jīng)網(wǎng)絡(luò)獲得了更多的關(guān)注。它與關(guān)注模型、記憶網(wǎng)絡(luò)和其他的技術(shù)一起,形成了第三波的進(jìn)展?,F(xiàn)在,幾乎每種類型的算法和解決方案都使用某種類型的神經(jīng)網(wǎng)絡(luò)模型。實(shí)際上,幾乎所有的語(yǔ)音研究都在轉(zhuǎn)向使用深度學(xué)習(xí)。

  近期語(yǔ)音領(lǐng)域里神經(jīng)網(wǎng)絡(luò)模型的進(jìn)展

  語(yǔ)音識(shí)別領(lǐng)域在過(guò)去6年里的突破比之前40多年加起來(lái)還要多。這些非凡的進(jìn)展主要是來(lái)源于神經(jīng)網(wǎng)絡(luò)。為了更好地理解深度學(xué)習(xí)的影響和它的作用,我們需要先理解一下語(yǔ)音識(shí)別是如何工作的。

  雖然語(yǔ)音識(shí)別作為一個(gè)活躍的研究領(lǐng)域已經(jīng)存在幾乎50年了,構(gòu)建可以理解人類語(yǔ)言的機(jī)器依然是最具挑戰(zhàn)的任務(wù)之一。它比看起來(lái)要困難得多。語(yǔ)音識(shí)別有一個(gè)清晰明確定義的任務(wù):對(duì)于一些人類的語(yǔ)言,盡量把語(yǔ)音轉(zhuǎn)化成文字。然而,語(yǔ)音可能是一個(gè)噪聲信號(hào)的一部分,這就需要先把語(yǔ)音從噪音里面抽取出來(lái),然后再轉(zhuǎn)化成相應(yīng)的有意義的文字。

  語(yǔ)音識(shí)別系統(tǒng)的基本構(gòu)造模塊

  基本上語(yǔ)音識(shí)別可以被分為三個(gè)層面:

  信號(hào)層面:信號(hào)層面的目標(biāo)是從信號(hào)里抽取出語(yǔ)音,增強(qiáng)它(如果需要),進(jìn)行適當(dāng)?shù)念A(yù)處理和清理,再提取出特征。這一層面的內(nèi)容與其他機(jī)器學(xué)習(xí)任務(wù)很類似。換句話說(shuō)就是對(duì)于一些數(shù)據(jù),我們需要進(jìn)行預(yù)處理和特征提取。

  聲音層面:聲音層面的主要目標(biāo)是把特性分到不同的聲音類。另外一種說(shuō)法就是,聲音自身并沒(méi)能提供足夠精確的標(biāo)準(zhǔn),而是有時(shí)被稱為聲音狀態(tài)的音素來(lái)提供。

  語(yǔ)言層面:因?yàn)槲覀兗俣ㄟ@些不同類型的音是由人類產(chǎn)生的并有意義,我們需要把音組合成字和詞,再把詞組合成句子。這些語(yǔ)言層面的技術(shù)通常是一些不同類型的NLP技術(shù)。

  深度學(xué)習(xí)帶來(lái)的提升

  深度學(xué)習(xí)對(duì)語(yǔ)音識(shí)別領(lǐng)域帶來(lái)了顯著的影響。這一影響是如此深遠(yuǎn),以至于語(yǔ)音識(shí)別領(lǐng)域的幾乎每個(gè)解決方案里都可能有一個(gè)或多個(gè)基于神經(jīng)網(wǎng)絡(luò)的算法嵌在其中。

  通常,對(duì)語(yǔ)音識(shí)別系統(tǒng)進(jìn)行的評(píng)估都是基于一個(gè)叫做Swithboard(SWBD)的行業(yè)標(biāo)準(zhǔn)。SWDB是一套語(yǔ)音庫(kù),由一些電話通話的內(nèi)容所組成。SWDB包括語(yǔ)音和人工生成的文字記錄。

  語(yǔ)音識(shí)別系統(tǒng)的評(píng)估是基于一個(gè)叫詞錯(cuò)誤率(WER)的指標(biāo)。WER是指識(shí)別系統(tǒng)錯(cuò)誤地識(shí)別出來(lái)的詞的數(shù)量。

  從2008年到2011年,WER處于一個(gè)比較穩(wěn)定的狀態(tài),在23%到24%左右。深度學(xué)習(xí)在2011年出現(xiàn),把WER從23.6%降到5.5%。這一改進(jìn)是顛覆性的,取得了77%的提升。現(xiàn)在語(yǔ)音識(shí)別已經(jīng)有了非常廣泛的應(yīng)用,比如Apple的Siri、Amazon的Alexa、微軟的Cortana和Google的Now。我們也看到了由語(yǔ)音識(shí)別所激活的種類繁多的應(yīng)用設(shè)備的出現(xiàn),比如Amazon的Echo和谷歌的Home。

  秘方

  是什么帶來(lái)了系統(tǒng)性能的顯著提升?是某個(gè)技術(shù)把WER從23.6%降到5.5%嗎?不幸的是,并不是一個(gè)單一的技術(shù)。深度學(xué)習(xí)和語(yǔ)音識(shí)別交織得非常緊密,它創(chuàng)造了一個(gè)涉及非常多種、不同的技術(shù)和方法的先進(jìn)系統(tǒng)。

  例如在信號(hào)層面,有不同的基于神經(jīng)網(wǎng)絡(luò)的模型來(lái)提取和增強(qiáng)語(yǔ)音里面的信號(hào)。而且,還有使用復(fù)雜和高效的基于神經(jīng)網(wǎng)絡(luò)的方法替換掉經(jīng)典的特征抽取的方法。  

  語(yǔ)音層面和語(yǔ)言層面也包括了多種深度學(xué)習(xí)技術(shù),從使用不同的神經(jīng)網(wǎng)絡(luò)架構(gòu)的聲音狀態(tài)分類,到語(yǔ)言層面的基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型。

  創(chuàng)造一個(gè)最前沿的系統(tǒng)并不是件容易的事情,包括實(shí)現(xiàn)和集成上面所說(shuō)的不同的技術(shù)。

  最前沿的研究

  看到語(yǔ)音識(shí)別領(lǐng)域在近期有如此多的突破,讀者可能會(huì)很自然地問(wèn):下一步會(huì)發(fā)生什么?下面三個(gè)領(lǐng)域看起來(lái)會(huì)是近期主要受關(guān)注的研究領(lǐng)域:算法、數(shù)據(jù)和可擴(kuò)展性。

  算法

  隨著Amazon的Echo和Google的Home的成功,很多公司都在開(kāi)發(fā)和投放能理解語(yǔ)音的智能音箱和家用設(shè)備。然而這些設(shè)備帶來(lái)了一個(gè)新的問(wèn)題,即用戶不會(huì)像和手機(jī)通話那樣靠近麥克風(fēng),而是離的比較遠(yuǎn)。應(yīng)對(duì)遠(yuǎn)距離語(yǔ)音已經(jīng)成為很多研究組正在挑戰(zhàn)的一個(gè)問(wèn)題了?,F(xiàn)在,創(chuàng)新性的深度學(xué)習(xí)和信號(hào)處理技術(shù)已經(jīng)能提升識(shí)別的質(zhì)量了。

  當(dāng)前最有趣的研究主題之一就是找到新的、奇特的神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。我們已經(jīng)在應(yīng)用語(yǔ)言和語(yǔ)音模型方面看到一些有希望的結(jié)果。其中的兩個(gè)例子是語(yǔ)音模型里的Grid-LSTM和基于注意力的記憶網(wǎng)絡(luò)的語(yǔ)言模型。

  數(shù)據(jù)

  語(yǔ)音識(shí)別系統(tǒng)的一個(gè)關(guān)鍵問(wèn)題就是缺乏真實(shí)世界的數(shù)據(jù)。例如,很難獲得高質(zhì)量的遠(yuǎn)距離語(yǔ)音數(shù)據(jù)。不過(guò)有很多其他來(lái)源的數(shù)據(jù)可用。一個(gè)問(wèn)題就是,我們能創(chuàng)造合適的合成器來(lái)生成訓(xùn)練數(shù)據(jù)嗎?產(chǎn)生合成的數(shù)據(jù)并用它來(lái)訓(xùn)練系統(tǒng)目前正在獲得很多的關(guān)注。

  為了訓(xùn)練一個(gè)語(yǔ)言識(shí)別系統(tǒng),語(yǔ)音和標(biāo)注數(shù)據(jù)我們都需要。人工標(biāo)注是一項(xiàng)繁瑣的工作,對(duì)于海量語(yǔ)音數(shù)據(jù)進(jìn)行標(biāo)注有時(shí)候會(huì)帶來(lái)問(wèn)題。相應(yīng)的,使用半監(jiān)督訓(xùn)練和構(gòu)建恰當(dāng)?shù)淖R(shí)別器的置信測(cè)量就成為了一個(gè)活躍的研究主題。

  可擴(kuò)展性

  由于深度學(xué)習(xí)和語(yǔ)音識(shí)別是高度交織的,它會(huì)使用非常多的計(jì)算資源(CPU和內(nèi)存)。當(dāng)用戶廣泛采用了語(yǔ)音識(shí)別系統(tǒng)后,如何構(gòu)造一個(gè)高效的云端解決方案就成為一個(gè)有挑戰(zhàn)性的重要問(wèn)題。正在進(jìn)行的研究就包括如何降低計(jì)算花銷和開(kāi)發(fā)更有效的解決方案?,F(xiàn)在大部分的語(yǔ)音識(shí)別系統(tǒng)都是基于云端的,這就帶來(lái)兩個(gè)需要解決的主要問(wèn)題:網(wǎng)絡(luò)延遲和長(zhǎng)時(shí)間連接。網(wǎng)絡(luò)延遲是那些需要立刻反應(yīng)的設(shè)備(比如機(jī)器人)面對(duì)的關(guān)鍵問(wèn)題。對(duì)于一個(gè)需要持續(xù)監(jiān)聽(tīng)的系統(tǒng),因?yàn)閹挼馁M(fèi)用,長(zhǎng)時(shí)間連接就是一個(gè)問(wèn)題。對(duì)此,已經(jīng)有研究關(guān)注面向邊緣設(shè)備的、和云端系統(tǒng)有一樣質(zhì)量的語(yǔ)音識(shí)別能力的系統(tǒng)。

  完全解決語(yǔ)音識(shí)別問(wèn)題

  近幾年,語(yǔ)音識(shí)別領(lǐng)域無(wú)論是性能還是商用都取得了跨越式的提升。那么離完全解決這個(gè)問(wèn)題還有多遠(yuǎn)?我們能在5年或許10年內(nèi)宣布最終勝利?答案是:有可能,不過(guò)還是有不少挑戰(zhàn)性的問(wèn)題需要時(shí)間來(lái)解決。

  第一個(gè)問(wèn)題是對(duì)于噪音的敏感性。語(yǔ)音識(shí)別系統(tǒng)對(duì)于靠近麥克風(fēng)的無(wú)噪音環(huán)境可以工作的很好。但是遠(yuǎn)距離語(yǔ)音加上噪音數(shù)據(jù)會(huì)很快地降低系統(tǒng)性能。第二個(gè)問(wèn)題是語(yǔ)言的擴(kuò)展問(wèn)題。人類世界有大約7000種語(yǔ)言,目前的大部分語(yǔ)音識(shí)別系統(tǒng)支持了大概80種。擴(kuò)展到更多的語(yǔ)言帶來(lái)了大量的挑戰(zhàn)。另外,對(duì)很多語(yǔ)言我們?nèi)狈?shù)據(jù),而語(yǔ)音識(shí)別系統(tǒng)在數(shù)據(jù)源很少的情況下很難被構(gòu)建出來(lái)。

  結(jié)論

  深度學(xué)習(xí)已經(jīng)在語(yǔ)音識(shí)別和對(duì)話式人工智能領(lǐng)域留下了烙印。因?yàn)榻诘耐黄?,我們已?jīng)處在革命的前沿?,F(xiàn)在最大的問(wèn)題就是,我們能取得最終的勝利,解決語(yǔ)音識(shí)別的問(wèn)題,從而可以像其他很多商業(yè)化的技術(shù)那樣使用語(yǔ)音識(shí)別嗎?或者是還有一個(gè)新的解決方案在等待被發(fā)現(xiàn)?畢竟,語(yǔ)音識(shí)別近期的進(jìn)步僅僅只是整個(gè)問(wèn)題的一個(gè)部分的答案。這個(gè)問(wèn)題就是理解語(yǔ)言,它本身是一個(gè)復(fù)雜的謎題,甚至是一個(gè)更大的問(wèn)題。