Allion Labs / Franck Chen
在上一篇文章中,我們大致介紹了目前主要的語(yǔ)音助理應(yīng)用、未來(lái)發(fā)展趨勢(shì)、潛在風(fēng)險(xiǎn)以及百佳泰的測(cè)試能量。本篇將分享評(píng)測(cè)結(jié)果與分析。
如同上篇所提到的測(cè)試規(guī)劃如下:
- 語(yǔ)音助理響應(yīng)速度與穩(wěn)定度測(cè)試
- 語(yǔ)音助理執(zhí)行率與正確率測(cè)試 – 簡(jiǎn)單情境
- 語(yǔ)音助理執(zhí)行率與正確率測(cè)試 – 普通情境
[Test-1] 語(yǔ)音助理響應(yīng)速度與穩(wěn)定度測(cè)試
?測(cè)試情境?
– [Step-1] 在電視主畫面(Home Screen)下,按下<語(yǔ)音按鍵>。
– [Step-2] 電視顯示語(yǔ)音助理接口。
?測(cè)試項(xiàng)目?
從 [Step-1] “按下<語(yǔ)音按鍵>” 到 [Step-2] “電視顯示完整語(yǔ)音助理接口” 之時(shí)間。反復(fù)執(zhí)行操作,總計(jì)執(zhí)行300次。
?量測(cè)結(jié)果?
?結(jié)果分析?
- 平均響應(yīng)速度:
?表現(xiàn)最佳為?Amazon TV – Alexa,是唯一低于反應(yīng)靈敏建議值(1,000 ms)以內(nèi)的組別,整體反應(yīng)含UI呈現(xiàn)都相當(dāng)靈敏與直覺。
?表現(xiàn)最差為?LG TV – AI ThinQ,許多數(shù)據(jù)已貼近或大于1,500 ms,達(dá)到足以令人察覺到有點(diǎn)延遲的臨界值,其整體流暢度有待提升。
- 相同語(yǔ)音助理在不同電視操作系統(tǒng)之比較:
以Alexa為例,在Samsung TV上平均1,234 ms的表現(xiàn)遠(yuǎn)不及于在Amazon TV上平均446ms的表現(xiàn),因此可以推斷整體響應(yīng)速度主要還是受到該電視效能與設(shè)計(jì)上的影響,并非同一個(gè)語(yǔ)音助理系統(tǒng)在不同系統(tǒng)上的表現(xiàn)都會(huì)一樣,消費(fèi)者在選購(gòu)時(shí)應(yīng)特別留意。
[Test-2] 語(yǔ)音助理執(zhí)行率與正確率測(cè)試 – 簡(jiǎn)單情境
?測(cè)試情境?
– [Step-1] 在電視主畫面(Home Screen)下,按下<語(yǔ)音按鍵>喚醒語(yǔ)音助理。
– [Step-2] 語(yǔ)音輸入“Go to YouTube”后等待10秒
– [Step-3] 按下<Home> key回到電視主畫面Home Screen。
?測(cè)試項(xiàng)目?
– [Step-1] 語(yǔ)音助理是否能正確喚醒。
– [Step-2] YouTube是否能透過(guò)語(yǔ)音助理正確開啟。
?量測(cè)結(jié)果?(300次)?
在使用百佳泰開發(fā)的ACSTS測(cè)試套件執(zhí)行測(cè)試下輕松得到測(cè)試結(jié)果,若是透過(guò)一般人工檢測(cè)難以發(fā)現(xiàn)此潛在問(wèn)題,更遑論取得關(guān)鍵log進(jìn)行分析與改善。
?結(jié)果分析?
- 表現(xiàn)總評(píng)
?表現(xiàn)最佳為Samsung TV-Bixby/Alexa。每一個(gè)組別的語(yǔ)音助理執(zhí)行率與正確率皆有達(dá)到要求95%以上,其中又以Samsung TV-Bixby/Alexa表現(xiàn)最佳,沒有出現(xiàn)任何錯(cuò)誤。
?表現(xiàn)最差為?Amazon TV-Alexa,總計(jì)出現(xiàn)了最多錯(cuò)誤(6次),并且有連續(xù)4次發(fā)生“語(yǔ)音助理沒有喚醒”的嚴(yán)重問(wèn)題,絕對(duì)會(huì)讓消費(fèi)者有不好的使用體驗(yàn)。
- 相同語(yǔ)音助理在不同電視操作系統(tǒng)之比較
?以Alexa為例,在Samsung TV上的表現(xiàn)優(yōu)于在Amazon TV上的表現(xiàn),同樣呼應(yīng)[Test-1]之結(jié)果,并非同一個(gè)語(yǔ)音助理在不同電視系統(tǒng)上的表現(xiàn)都會(huì)一樣。
?可能影響的因素包含各家遙控器的收音能力、語(yǔ)音數(shù)據(jù)傳輸能力、電視系統(tǒng)/UI設(shè)計(jì)、抗干擾能力….等等因素而造成語(yǔ)音助理整體表現(xiàn)上的落差。廠商在開發(fā)時(shí)不能只依賴語(yǔ)音助理本身的能力,而是要搭配使用者實(shí)際的情境應(yīng)用做全方位的模擬測(cè)試。
?問(wèn)題摘要?
- Sony TV-Google Assistant
數(shù)次出現(xiàn)辨識(shí)到語(yǔ)音指令”go to YouTube”,但是下一刻卻又無(wú)所適從的窘?jīng)r。
- Amazon TV-Alexa
出現(xiàn)幾次語(yǔ)音助理啟動(dòng)后,卻執(zhí)行錯(cuò)誤的問(wèn)題。
僅執(zhí)行上面簡(jiǎn)單的情境驗(yàn)證便產(chǎn)生了一些問(wèn)題和差異化,以下透過(guò)復(fù)雜一點(diǎn)的使用者情境進(jìn)一步實(shí)測(cè),其結(jié)果會(huì)是如何呢?
[Test-3] 語(yǔ)音助理執(zhí)行率與正確率測(cè)試 – 普通情境
?測(cè)試情境?
– [Step-1] 將電視關(guān)機(jī)后等待5分鐘
– [Step-2] 將電視開機(jī)后等待30秒
– [Step-3] 按下<語(yǔ)音>按鍵,語(yǔ)音輸入“Open Netflix”后等待10秒
– [Step-4] 按下<語(yǔ)音>按鍵,語(yǔ)音輸入“Go to YouTube”后等待30秒 → Go to [Step-1]
?測(cè)試項(xiàng)目?
– [Step-3] : 語(yǔ)音助理能正常喚醒、Netflix能透過(guò)語(yǔ)音助理正確開啟…1st?Accuracy
– [Step-4] : 語(yǔ)音助理能正常喚醒、YouTube能透過(guò)語(yǔ)音助理正確開啟…2nd?Accuracy
?量測(cè)結(jié)果?(100次)?
?結(jié)果分析?
- 表現(xiàn)總評(píng)
?表現(xiàn)最佳為Amazon TV – Alexa、Sony TV – Google Assistant。兩者表現(xiàn)不分軒輊,開機(jī)后第一個(gè)語(yǔ)音執(zhí)行正確率都有達(dá)到標(biāo)準(zhǔn),而第二個(gè)語(yǔ)音執(zhí)行甚至沒有任何錯(cuò)誤發(fā)生。
?表現(xiàn)最差為?LG TV – AI ThinQ、Samsung TV – Bixby
- LG – AI ThinQ
第一個(gè)語(yǔ)音指令執(zhí)行正確率僅有76%,第二個(gè)語(yǔ)音指令執(zhí)行正確率雖有提升至82%,但距離標(biāo)準(zhǔn)95%仍有一大段距離。主要問(wèn)題除了”語(yǔ)音助理沒有喚醒”外,也發(fā)生多次”可進(jìn)行語(yǔ)音識(shí)別,但執(zhí)行結(jié)果錯(cuò)誤”的問(wèn)題:
- Samsung TV – Bixby
第一個(gè)語(yǔ)音指令執(zhí)正確率只有1%,主要原因是即使在電視開機(jī)后等待30秒,喚醒語(yǔ)音助理時(shí)仍然都顯示為loading中的相關(guān)訊息而無(wú)法使用(左下圖),導(dǎo)致第一個(gè)語(yǔ)音指令幾乎全都失敗。有時(shí)候即使已顯示“Go on, I’m ready”的信息接口(右下圖),但實(shí)際上沒有辨識(shí)功能。
第二個(gè)語(yǔ)音指令執(zhí)行正確率有大幅提升至91%,但因?yàn)榘l(fā)生了多次語(yǔ)音助理在有喚起的狀態(tài)下(左下圖),卻發(fā)生無(wú)法辨識(shí)或無(wú)法執(zhí)行的問(wèn)題(右下圖),讓整體執(zhí)行正確率僅剩91%低于需求的95%以上。
測(cè)試總結(jié)與目前排名
目前的排名由Amazon TV-Alexa取得領(lǐng)先,而LG- AI ThinQ則是處于落后局面。
進(jìn)階測(cè)試與分析
由于LG-AI 、SAMSUNG Bixby這三臺(tái)在普通情境出現(xiàn)嚴(yán)重問(wèn)題,基于實(shí)驗(yàn)精神,我們進(jìn)一步將這三臺(tái)做進(jìn)階測(cè)試以利分析原因。我們將[Test-3]當(dāng)中的”[Step-2] 將電視開機(jī)后等待30秒”延長(zhǎng)至40秒及60秒進(jìn)行驗(yàn)證。
?結(jié)果分析?
- LG – AI ThinQ
將開機(jī)后等待時(shí)間延長(zhǎng)至40秒、60秒后,無(wú)論是第一或第二個(gè)語(yǔ)音指令,整體正確率并無(wú)明顯提升仍低于要求的95%。顯示電視關(guān)機(jī)/開機(jī)后整體處理程序影響到了語(yǔ)音助理的功能性。
- Samsung TV – Bixby
- 將開機(jī)后等待時(shí)間延長(zhǎng)至40秒后
?第一個(gè)語(yǔ)音指令:語(yǔ)音助理loading時(shí)間過(guò)久的問(wèn)題大幅減少,然而伴隨而來(lái)的問(wèn)題是語(yǔ)音助理無(wú)法識(shí)別語(yǔ)音,造成整體正確率仍是0%。
?第二個(gè)語(yǔ)音指令:語(yǔ)音助理無(wú)法辨識(shí)的問(wèn)題大幅減少,但整體89%的正確率仍低于要求標(biāo)準(zhǔn)(95%)。
- 將開機(jī)后等待時(shí)間延長(zhǎng)至60秒后
?第一個(gè)語(yǔ)音指令:語(yǔ)音助理loading時(shí)間過(guò)久的問(wèn)題僅剩1次,然而伴隨而來(lái)的是語(yǔ)音助理無(wú)法識(shí)別語(yǔ)音,造成整體正確率仍是0%。
?第二個(gè)語(yǔ)音指令:語(yǔ)音助理無(wú)法辨識(shí)的問(wèn)題僅剩2次,整體正確率提升至97%合乎標(biāo)準(zhǔn)(95%)。
- Samsung TV – Alexa
將開機(jī)后等待時(shí)間延長(zhǎng)至60秒的情境驗(yàn)證在Samsung-Alexa
?第一個(gè)語(yǔ)音指令:發(fā)生了語(yǔ)音助理無(wú)法喚醒或是可進(jìn)行語(yǔ)音識(shí)別,但執(zhí)行結(jié)果錯(cuò)誤的問(wèn)題,造成整體正確率同樣是0%。
?第二個(gè)語(yǔ)音指令:沒有發(fā)生任何問(wèn)題,語(yǔ)音指令執(zhí)行正確率大幅提升至100%
由上述驗(yàn)證幾乎可以得到一個(gè)結(jié)果即是,該Samsung TV無(wú)論是使用Bixby或是Alexa在關(guān)/開機(jī)后的第一次的語(yǔ)音助理功能皆有問(wèn)題,對(duì)比Amazon TV-Alexa的實(shí)測(cè)結(jié)果,再次證明并非同一個(gè)語(yǔ)音助理在不同電視系統(tǒng)上的表現(xiàn)都會(huì)一樣,無(wú)論您是語(yǔ)音助理系統(tǒng)廠商或是電視制造商在開發(fā)階段或是消費(fèi)者在選購(gòu)上都應(yīng)特別留意此部分。
還在為產(chǎn)品負(fù)評(píng)煩惱嗎?
從以上簡(jiǎn)單的實(shí)驗(yàn)案例可以了解到,若要執(zhí)行精確量測(cè)以及提早在產(chǎn)品上市前攔截機(jī)率性嚴(yán)重問(wèn)題,除了需要善用自動(dòng)化工具外,情境設(shè)計(jì)也是至關(guān)重要的一環(huán),兩者缺一不可。語(yǔ)音助理事關(guān)智能電視是否能真正「展現(xiàn)」智慧的重要關(guān)鍵,百佳泰擁有自動(dòng)化工具開發(fā)能力及多年的電視檢測(cè)技術(shù)及經(jīng)驗(yàn),可協(xié)助設(shè)計(jì)及模擬全方位的關(guān)鍵情境,能事半功倍替您的電視質(zhì)量做嚴(yán)格的把關(guān)、提升市場(chǎng)競(jìng)爭(zhēng)力。
若您對(duì)于我們的測(cè)試方案有興趣的話,可直接填寫咨詢窗口,將會(huì)有專人與您聯(lián)系。
延伸閱讀?
預(yù)估2026智能電視普及率高達(dá)51%,四篇案例直擊UX/UI設(shè)計(jì)不可忽略的細(xì)節(jié)
智能電視一點(diǎn)都不智能? 透過(guò)關(guān)鍵情境測(cè)試揪出真正元兇
媲美F1賽事的團(tuán)隊(duì)?wèi)?zhàn)略!百佳泰以「探索性測(cè)試」助你快、狠、準(zhǔn)地找出智能電視潛在的問(wèn)題!
智能電視Wi-Fi聯(lián)機(jī)問(wèn)題千百種,該如何找出潛在問(wèn)題?