Allion Labs / Greg Tsai
語音識別,量測環(huán)境與技術(shù)是關(guān)鍵?
為了評估語音識別的有效性及指向范圍,環(huán)境的聲學(xué)條件必須盡量和日常生活環(huán)境一致。因此需要建立一套聲學(xué)量測環(huán)境,用以評估語音識別性能,為求量測的可靠性,這套量測系統(tǒng)與工具本身的一致性與重復(fù)性也必須獲得確認(rèn)。
就我們的經(jīng)驗(yàn),評估量測環(huán)境架設(shè)是否穩(wěn)定,最可行的做法是:「評估每次重復(fù)量測到的延遲時(shí)間是否一致」。因此我們需要量測各個揚(yáng)聲器延遲時(shí)間的具體偏移量,如此一來,我們就可以找出量測環(huán)境潛在的不確定因素。
對于智慧音箱的語音識別量測環(huán)境,我們需要兩個揚(yáng)聲器,一個揚(yáng)聲器用來仿真人員講出語音指令,另一個用來模擬背景聲音。將前述兩個揚(yáng)聲器及智慧音箱,依據(jù)測試情境擺放,再放置一支量測用的自由場麥克風(fēng)在這三個音箱約略等距的位置上,當(dāng)這些都設(shè)置好就可以開始進(jìn)行延遲時(shí)間的評估。
圖1: 揚(yáng)聲器及麥克風(fēng)連接示意圖
圖2:實(shí)際布置場景
智慧音箱 時(shí)間延遲量測 大不易?
或許一般人以為測量揚(yáng)聲器的延遲似乎不難,只要量S揚(yáng)聲器到M麥克風(fēng)從激發(fā)到接收到的時(shí)間就可以了!這對于傳統(tǒng)的模擬揚(yáng)聲器來說,的確如此;但對于智慧音箱的揚(yáng)聲器來說,就有點(diǎn)挑戰(zhàn)了!
智慧揚(yáng)聲器沒有模擬輸入端子可以直接饋入信號,必須要從網(wǎng)絡(luò)上播放測試音;因此如何精準(zhǔn)地控制播放測試音是個難題,收音后又很難以人工方式找到測試音的精確起始時(shí)間。
因此,百佳泰的聲學(xué)團(tuán)隊(duì)及軟件開發(fā)團(tuán)隊(duì)共同合作,開發(fā)了一套量測方法,可以自動化并高效地起始智慧音箱播放,并且運(yùn)用數(shù)字信號處理技術(shù)來精確判斷各個揚(yáng)聲器聲音信號的起始時(shí)間
時(shí)間延遲量測示范與結(jié)果分享
我們以Audio Precision APx500 來確認(rèn)基本架設(shè),首先在揚(yáng)聲器與麥克風(fēng)相距2.5m的條件下,我們量測到 7.35ms的時(shí)間差, 當(dāng)時(shí)的溫度大約25度C. 透過公式C=331+0.6T可以求得聲速346 m/s.
換算距離Distance = Speed * Time = 346 * 0.00735 ≈ 2.54 m.
可知該量測系統(tǒng)可以測出聲音延遲。
圖說 – 聲延遲量測之驗(yàn)證 – 揚(yáng)聲器與麥克風(fēng)相距約2.5 公尺
為了比較人工手動與自動化量測所產(chǎn)生的差異,我們同時(shí)進(jìn)行了手動量測與自動化量測,人工完成的結(jié)果如下:
表1:人工量測數(shù)據(jù)-逐次誤差
折線圖比較如下:
圖表:人工量測數(shù)據(jù)折線圖 – 逐次誤差
可以看到Speaker A、Speaker B 以及Smart Speaker 在重復(fù)量測之后,每次的差異量都很明顯。這些差異較大的來源:包含了人為觸發(fā)時(shí)間的差異、也有可能是來自人工對齊的差異…等。在這種人工手動量測的作法下,難以有效發(fā)掘量測系統(tǒng)環(huán)境的不穩(wěn)定因素,因?yàn)槎急蝗斯ち繙y的誤差給淹沒了。
接著,我們以百佳泰開發(fā)的量測系統(tǒng)來完成圖2的架設(shè),實(shí)測結(jié)果如下:
表2:自動化量測數(shù)據(jù)
圖表:自動化量測數(shù)據(jù)折線圖-逐次誤差
從結(jié)果中可以看到,播放語音的揚(yáng)聲器A及播放環(huán)境音的揚(yáng)聲器B,其延遲時(shí)間在經(jīng)歷20次的測試后皆相當(dāng)一致,其變化范圍分別在0.0024s 與0.001s左右。
而播放背景聲音的智慧音箱揚(yáng)聲器,存在著類似 “抖動(Jitter)” 的現(xiàn)象,即每一次量測到的延遲時(shí)間,都有一點(diǎn)點(diǎn)變化,這個變化量大約有 0.15秒之間,主要是無線網(wǎng)絡(luò)聯(lián)機(jī)與來源內(nèi)容的變動性所引起。
如此比較我們可以了解,聲音延遲量測的自動化,排除了人工量測所引入的不確定性,讓Smart Speaker 播放路徑的延遲特性可以真正呈現(xiàn)出來,為后續(xù)的語音辨認(rèn)測試奠定良好的基礎(chǔ)。
由此可知,百佳泰的電聲延遲評估工具,其精確度可以量測出人力所不能及的程度!除一方面達(dá)到品牌大廠所要求的質(zhì)量精度與可重復(fù)性,屏除人為誤差與不確定性,另一方面也做到全自動化,大量節(jié)省量測及分析時(shí)間!