Allion Labs / Greg Tsai
語(yǔ)音識(shí)別,量測(cè)環(huán)境與技術(shù)是關(guān)鍵?
為了評(píng)估語(yǔ)音識(shí)別的有效性及指向范圍,環(huán)境的聲學(xué)條件必須盡量和日常生活環(huán)境一致。因此需要建立一套聲學(xué)量測(cè)環(huán)境,用以評(píng)估語(yǔ)音識(shí)別性能,為求量測(cè)的可靠性,這套量測(cè)系統(tǒng)與工具本身的一致性與重復(fù)性也必須獲得確認(rèn)。
就我們的經(jīng)驗(yàn),評(píng)估量測(cè)環(huán)境架設(shè)是否穩(wěn)定,最可行的做法是:「評(píng)估每次重復(fù)量測(cè)到的延遲時(shí)間是否一致」。因此我們需要量測(cè)各個(gè)揚(yáng)聲器延遲時(shí)間的具體偏移量,如此一來(lái),我們就可以找出量測(cè)環(huán)境潛在的不確定因素。
對(duì)于智慧音箱的語(yǔ)音識(shí)別量測(cè)環(huán)境,我們需要兩個(gè)揚(yáng)聲器,一個(gè)揚(yáng)聲器用來(lái)仿真人員講出語(yǔ)音指令,另一個(gè)用來(lái)模擬背景聲音。將前述兩個(gè)揚(yáng)聲器及智慧音箱,依據(jù)測(cè)試情境擺放,再放置一支量測(cè)用的自由場(chǎng)麥克風(fēng)在這三個(gè)音箱約略等距的位置上,當(dāng)這些都設(shè)置好就可以開(kāi)始進(jìn)行延遲時(shí)間的評(píng)估。
圖1: 揚(yáng)聲器及麥克風(fēng)連接示意圖
圖2:實(shí)際布置場(chǎng)景
智慧音箱 時(shí)間延遲量測(cè) 大不易?
或許一般人以為測(cè)量揚(yáng)聲器的延遲似乎不難,只要量S揚(yáng)聲器到M麥克風(fēng)從激發(fā)到接收到的時(shí)間就可以了!這對(duì)于傳統(tǒng)的模擬揚(yáng)聲器來(lái)說(shuō),的確如此;但對(duì)于智慧音箱的揚(yáng)聲器來(lái)說(shuō),就有點(diǎn)挑戰(zhàn)了!
智慧揚(yáng)聲器沒(méi)有模擬輸入端子可以直接饋入信號(hào),必須要從網(wǎng)絡(luò)上播放測(cè)試音;因此如何精準(zhǔn)地控制播放測(cè)試音是個(gè)難題,收音后又很難以人工方式找到測(cè)試音的精確起始時(shí)間。
因此,百佳泰的聲學(xué)團(tuán)隊(duì)及軟件開(kāi)發(fā)團(tuán)隊(duì)共同合作,開(kāi)發(fā)了一套量測(cè)方法,可以自動(dòng)化并高效地起始智慧音箱播放,并且運(yùn)用數(shù)字信號(hào)處理技術(shù)來(lái)精確判斷各個(gè)揚(yáng)聲器聲音信號(hào)的起始時(shí)間
時(shí)間延遲量測(cè)示范與結(jié)果分享
我們以Audio Precision APx500 來(lái)確認(rèn)基本架設(shè),首先在揚(yáng)聲器與麥克風(fēng)相距2.5m的條件下,我們量測(cè)到 7.35ms的時(shí)間差, 當(dāng)時(shí)的溫度大約25度C. 透過(guò)公式C=331+0.6T可以求得聲速346 m/s.
換算距離Distance = Speed * Time = 346 * 0.00735 ≈ 2.54 m.
可知該量測(cè)系統(tǒng)可以測(cè)出聲音延遲。
圖說(shuō) – 聲延遲量測(cè)之驗(yàn)證 – 揚(yáng)聲器與麥克風(fēng)相距約2.5 公尺
為了比較人工手動(dòng)與自動(dòng)化量測(cè)所產(chǎn)生的差異,我們同時(shí)進(jìn)行了手動(dòng)量測(cè)與自動(dòng)化量測(cè),人工完成的結(jié)果如下:
表1:人工量測(cè)數(shù)據(jù)-逐次誤差
折線圖比較如下:
圖表:人工量測(cè)數(shù)據(jù)折線圖 – 逐次誤差
可以看到Speaker A、Speaker B 以及Smart Speaker 在重復(fù)量測(cè)之后,每次的差異量都很明顯。這些差異較大的來(lái)源:包含了人為觸發(fā)時(shí)間的差異、也有可能是來(lái)自人工對(duì)齊的差異…等。在這種人工手動(dòng)量測(cè)的作法下,難以有效發(fā)掘量測(cè)系統(tǒng)環(huán)境的不穩(wěn)定因素,因?yàn)槎急蝗斯ち繙y(cè)的誤差給淹沒(méi)了。
接著,我們以百佳泰開(kāi)發(fā)的量測(cè)系統(tǒng)來(lái)完成圖2的架設(shè),實(shí)測(cè)結(jié)果如下:
表2:自動(dòng)化量測(cè)數(shù)據(jù)
圖表:自動(dòng)化量測(cè)數(shù)據(jù)折線圖-逐次誤差
從結(jié)果中可以看到,播放語(yǔ)音的揚(yáng)聲器A及播放環(huán)境音的揚(yáng)聲器B,其延遲時(shí)間在經(jīng)歷20次的測(cè)試后皆相當(dāng)一致,其變化范圍分別在0.0024s 與0.001s左右。
而播放背景聲音的智慧音箱揚(yáng)聲器,存在著類似 “抖動(dòng)(Jitter)” 的現(xiàn)象,即每一次量測(cè)到的延遲時(shí)間,都有一點(diǎn)點(diǎn)變化,這個(gè)變化量大約有 0.15秒之間,主要是無(wú)線網(wǎng)絡(luò)聯(lián)機(jī)與來(lái)源內(nèi)容的變動(dòng)性所引起。
如此比較我們可以了解,聲音延遲量測(cè)的自動(dòng)化,排除了人工量測(cè)所引入的不確定性,讓Smart Speaker 播放路徑的延遲特性可以真正呈現(xiàn)出來(lái),為后續(xù)的語(yǔ)音辨認(rèn)測(cè)試奠定良好的基礎(chǔ)。
由此可知,百佳泰的電聲延遲評(píng)估工具,其精確度可以量測(cè)出人力所不能及的程度!除一方面達(dá)到品牌大廠所要求的質(zhì)量精度與可重復(fù)性,屏除人為誤差與不確定性,另一方面也做到全自動(dòng)化,大量節(jié)省量測(cè)及分析時(shí)間!