應用

技術

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點新聞
企業(yè)注冊個人注冊登錄

這顆芯片或讓手勢交互進入主流

2019-10-23 09:11 半導體行業(yè)觀察

導讀:上周,谷歌在其Made by Google發(fā)布會上一口氣發(fā)布了數(shù)款新硬件,包括最新的Pixel 4手機,Pixel Bud 2智能耳機,Nest Mini智能音箱等。

芯片,硬件形態(tài),語音交互,隔空手勢操作,超聲波

圖片來自“Unsplash”

上周,谷歌在其Made by Google發(fā)布會上一口氣發(fā)布了數(shù)款新硬件,包括最新的Pixel 4手機,Pixel Bud 2智能耳機,Nest Mini智能音箱等。這些新硬件除了形態(tài)上與傳統(tǒng)硬件的不同之外,在用戶交互上也有創(chuàng)新之處,而這些新的用戶交互特性也讓相關芯片進入我們的視野。

新硬件形態(tài)需要新的交互方式

上周谷歌的硬件發(fā)布會是近來一系列互聯(lián)網(wǎng)公司硬件發(fā)布會的延續(xù)。在谷歌之前,亞馬遜和微軟也發(fā)布了其新硬件。

如果我們仔細分析這些互聯(lián)網(wǎng)公司發(fā)布的硬件,我們首先看到的是互聯(lián)網(wǎng)公司希望從傳統(tǒng)智能硬件格局中突圍的決心。這些互聯(lián)網(wǎng)公司發(fā)布的新硬件更注重智能化,往往會使用一些非傳統(tǒng)的硬件形態(tài)(例如亞馬遜的智能眼鏡)配合人工智能來實現(xiàn)讓用戶耳目一新的效果。互聯(lián)網(wǎng)公司做硬件的最終目標還是希望用戶能通過硬件作為入口來使用自己的互聯(lián)網(wǎng)服務,因此即使每個硬件的出貨量都不大,但是只要能帶來一定的流量就算成功。因此,我們會看到亞馬遜和谷歌都采用了類似散彈槍的打法,即一次發(fā)布許多款不同的硬件,而并非集中所有資源去開發(fā)一兩款重點硬件。

如前所述,這類互聯(lián)網(wǎng)公司開發(fā)的新硬件擁有全新的形態(tài),而其最終目的是希望和用戶做交互并且把用戶接入到互聯(lián)網(wǎng)公司的服務中去。那么,如何在這些新的硬件形態(tài)上搭配新的用戶交互界面就變得非常重要。目前主流的觸摸屏交互方案已經(jīng)無法滿足新形態(tài)智能硬件的需求,因此探索下一代用戶接口以及相關的硬件芯片就勢在必行。

終端語音交互

在新的用戶接口中,目前最廣為接受的是語音交互。語音交互正式進入大規(guī)模消費應用始于蘋果推出Siri,之后亞馬遜的Echo系列智能音箱的發(fā)布則真正點燃了整個消費語音交互市場。谷歌也不甘落后,在推出Google Home系列智能音箱之后,這次發(fā)布會上發(fā)布的Pixel 4手機、Pixel Bud 2智能耳塞和Nest Mini都擁有最新的語音交互接口,同時擁有相關的機器學習芯片支持。

那么,谷歌最新發(fā)布的硬件中的語音交互與之前的語音接口有什么不同呢?我們認為,其最大的不同就是強調(diào)終端計算,將語音交互的計算盡可能都放在終端完成,而無需傳輸?shù)皆贫?。從功能上來說,使用終端計算的語音交互接口可以滿足在無網(wǎng)絡連接的時候也能完成基本的交互,從而大大拓寬了實用的場景。

從性能上來說,網(wǎng)絡傳輸會引入很大的能量消耗和延遲,因此如果能在本地做大部分語音交互運算,則可以大大延長智能設備的電池使用時間并在更短時間內(nèi)就完成用戶需求響應以提升用戶體驗。最后,從合規(guī)角度來看,目前對于互聯(lián)網(wǎng)公司對于用戶數(shù)據(jù)的監(jiān)管越來越多,因此把語音交互運算在本地完成而非上傳到云端就可以盡可能避免侵犯用戶隱私的嫌疑。

從計算復雜度來說,本地語音交互接口可以分成兩類,一類是低復雜度計算(例如關鍵詞識別),這類計算的復雜度不高,但是需要能消耗盡可能低的能量,且延遲需要盡可能小。另一類計算復雜度較高(例如實時語音轉(zhuǎn)錄成文字以及Assistant類需要對用戶的語音輸入做一定語義理解的任務)。

在這次發(fā)布會中,Pixel Bud 2的語音交互接口就屬于前一種。Pixel Bud 2語音交互的主要特性是可以根據(jù)用戶的指令去完成發(fā)送短信、閱讀短信、播放音樂等功能。根據(jù)谷歌的說法,Pixel Bud 2內(nèi)部包含了一塊專用的機器學習芯片以完成這類語音接口。

仔細分析Pixel Bud 2這些智能助手的實現(xiàn)方式后我們認為Pixel Bud 2的語音助手主要作用是識別用戶的語音指令,并且通過藍牙連接的手機來完成相關指令的需求。

例如,如果用戶通過語音給出“閱讀短信”的指令,則智能耳機里的語音助手首先需要識別出用戶是在下語音指令,其次需要識別出語音指令的大致內(nèi)容(“閱讀短信”)并且將指令發(fā)送給手機,之后手機端的TTS算法把短信轉(zhuǎn)換成聲音再通過藍牙傳送給耳機并播放。在這樣一個過程中,耳機端的語音接口關鍵詞識別算法需要完成較傳統(tǒng)單一關鍵詞喚醒更復雜的功能。

除了Pixel Bud 2之外,谷歌在Nest Mini和Pixel 4上也使用了離線語音模型來支持語音接口。按照谷歌官方的說法,在Nest Mini上的專用機器學習加速芯片可以讓Google Assistant更快完成相應,而在Pixel 4手機上的離線語音模型則可以完成更復雜的語音交互,例如離線語音轉(zhuǎn)錄成文字,復雜的多輪語音指令等等(例如可以讓assistant去查找一張圖片,并且把它發(fā)送給某個聯(lián)系人)。

從技術上來說,第一類低復雜度的語音關鍵詞識別算法目前通常會使用卷積神經(jīng)網(wǎng)絡來實現(xiàn)。相較于使用在計算機視覺應用中的卷積神經(jīng)網(wǎng)絡,語音接口中的卷積神經(jīng)網(wǎng)絡對于性能的需求較低,然而由于應用場景對于硬件的限制(例如耳機中的芯片不太可能搭配DRAM),如何在硬件成本最低、功耗最小的條件下完成高精準度的關鍵詞識別仍然具有挑戰(zhàn)性。

例如,為了最小化功耗,會需要芯片中的相關模組工作在非常低的電源電壓下,甚至比Fab提供的最低電壓還要低,這就給低功耗設計流程帶來了挑戰(zhàn)。此外,由于這類應用中無法搭載DRAM,因此對于神經(jīng)網(wǎng)絡模型帶來了不少挑戰(zhàn),如何在模型尺寸和精確度之間達成一個較好的平衡需要很多工作。

總體而言,這類設計需要做軟硬件結合設計以保證合理的精確度和盡可能低的功耗。根據(jù)現(xiàn)有的消息,我們估計Pixel Bud 2中使用的機器學習專用芯片很可能是在傳統(tǒng)TWS無線耳機芯片上再集成了一塊DSP或者谷歌自己的IP來完成這樣的低功耗計算。由于對于成本和硬件尺寸的限制,我們認為未來針對該方向的超低功耗語音關鍵詞交互芯片方案最有可能是以IP的形式存在,或者集成在耳機的主控芯片中,或者和前端麥克風集成在一起。

而Pixel 4手機上的語音交互屬于典型的高復雜度語音模型(第二類計算),這類模型往往會需要使用循環(huán)神經(jīng)網(wǎng)絡而非卷積神經(jīng)網(wǎng)絡。雖然循環(huán)神經(jīng)網(wǎng)絡的計算主要還是矩陣計算,但是如何優(yōu)化模型和片上內(nèi)存以盡量減少內(nèi)存訪問帶來的消耗仍然是最關鍵的設計要點。

與卷積神經(jīng)網(wǎng)絡不同,循環(huán)神經(jīng)網(wǎng)絡中的數(shù)據(jù)復用程度并不高,因此如何開發(fā)和優(yōu)化相應的模型/硬件必須要使用和卷積神經(jīng)網(wǎng)絡不同的方法,這也是目前循環(huán)神經(jīng)網(wǎng)絡計算硬件的主要挑戰(zhàn)。相較于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡,循環(huán)神經(jīng)網(wǎng)絡的硬件支持在業(yè)界目前還處于較早期的研發(fā)階段,但是相信隨著這類復雜離線語音交互應用的普及,會有越來越多的設計方案和芯片解決方案出現(xiàn)。

我們估計未來可能的解決方案有幾種形態(tài):首先是對于功耗和性能要求并不嚴格的場合,通過把循環(huán)神經(jīng)網(wǎng)絡的模型設計成非常小的尺寸,可以通過類似DSP或者NEON這類支持矩陣加速的IP模塊去做計算。這種方法的好處是可以快速部署,只需要設計軟件即可,硬件上不用做太大改動,但是問題是沒法優(yōu)化循環(huán)神經(jīng)網(wǎng)絡對于內(nèi)存訪問。在對于性能和功耗有更高需求的場合,則可望會出現(xiàn)更專用的硬件架構以完成加速。例如,目前用于語音應用的循環(huán)神經(jīng)網(wǎng)絡往往稀疏度較高,因此通過設計支持稀疏矩陣存取和運算的專用加速器可望能實現(xiàn)更高的性能和更低的功耗。

總而言之,隨著語音接口的普及,我們可望在更多語音相關的硬件上看到DSP類IP的出現(xiàn),同時隨著離線語音復雜交互的普及,我們可望會看到專用的語音加速芯片/IP。

隔空手勢操作

除了語音交互之外,谷歌此次發(fā)布的Pixel 4手機上的另一個亮點是使用毫米波雷達來實現(xiàn)隔空手勢交互。

Pixel 4上的毫米波雷達芯片系原谷歌先進研究項目(ATAP)project soli的商業(yè)化,該毫米波芯片使用60GHz頻段,并且可以用雷達的方法去檢測到目標與手機之間的距離變化,從而實現(xiàn)隔空手勢操作。

具體來說,雷達傳感器芯片的技術原理是首先發(fā)射出電磁波,而發(fā)射的電磁波經(jīng)過用戶手的反射回到傳感器端,就能根據(jù)回波來檢測用戶手的位置和動態(tài),并借此完成三維非接觸手勢檢測。

Pixel 4上雷達芯片使用的是57-64GHz的頻段,理論上可以實現(xiàn)毫米級別的分辨精度。根據(jù)之前Project Soli發(fā)布的毫米波雷達傳感芯片(屬于此次使用在Pixel 4中雷達芯片的原型版本),芯片大小約為8mm x 10mm, 芯片上還有天線陣列(綠色框內(nèi))用來實現(xiàn)波束成型,根據(jù)官方信息該芯片上集成了四個發(fā)射機和兩個接收機,使用波束成形來提升分辨率。

使用毫米波雷達也有局限性。主要問題就是硬件對于尺寸和功耗的需求——毫米波雷達如果需要做高精度高分辨率檢測需要使用復雜的天線和/或多個雷達收發(fā)陣列。在60GHz頻段上,復雜的天線陣列的體積很大,而如果使用多個雷達收發(fā)陣列則會大大增加系統(tǒng)功耗。本次媒體對于Pixel 4中毫米波雷達的測評中分辨率并不高,據(jù)說也是因為Pixel 4硬件設計中留給雷達的空間過小以至于無法安放下能實現(xiàn)高分辨精度的雷達收發(fā)機陣列和天線陣列。當然,這個問題可望在之后能通過優(yōu)化硬件設計來解決。

事實上,使用手勢操作智能設備一直是業(yè)界開發(fā)的方向。傳統(tǒng)的方法是使用攝像頭結合機器視覺的方法。2D攝像頭難以檢測到手勢在深度方向的變化,因此限制了交互。微軟 Xbox的Kinect使用ToF 3D攝像頭的方法來支持手勢操作,但是3D攝像頭的使用環(huán)境會受到限制:機遇結構光的方案速度太慢,而基于ToF的方案在明亮的環(huán)境中性能會打折扣。

除了視覺方案之外,超聲波也是一個可行的方案。超聲波方案與毫米波方案原理相似,只是超聲波方案使用的是超聲波而不是電磁波。超聲波方案的優(yōu)勢是功耗較小(可以小于1mW而毫米波方案的功耗在10-100mW),缺點是必須使用CMOS工藝無法實現(xiàn)的超聲波元件,而毫米波方案可以完全使用CMOS電路實現(xiàn),集成度較高。因此,在智能設備的隔空交互領域,毫米波雷達和超聲波在具體技術指標上可以說是各有千秋。

如果把視角拉遠一些,我們則認為基于電磁波和毫米波的方案有更大的可擴展性。我們認為,在手機中加入毫米波雷達只是這類交互的第一步?;陔姶挪?包括毫米波)的交互將在未來幾年內(nèi)出現(xiàn)在更多的智能電器中。除了手勢交互之外,電磁波還可以檢測房間內(nèi)的人員情況和物體識別,并且有望能無縫與WiFi設備相銜接,因此省去了安裝攝像頭的麻煩和對于隱私問題。因此,用于交互應用的射頻芯片有望成為未來幾年內(nèi)的一個新品類。

展望未來,用于人機交互的毫米波雷達主要需要克服模組尺寸和功耗的瓶頸,為此必須優(yōu)化雷達本身設計提高信噪比,從而可以在減少天線尺寸/陣列中收發(fā)機數(shù)量的情況下仍然能實現(xiàn)分辨精度;或者優(yōu)化天線設計,以滿足在小尺寸下仍然能提供很低的衰減。我們認為,隨著這些技術瓶頸被逐漸突破,我們有望看到更多基于毫米波的交互方案出現(xiàn)在智能設備中。