老羅曾經(jīng)說(shuō):“語(yǔ)音識(shí)別技術(shù)的使用上,無(wú)論是siri還是它的模仿者,都從根上就犯了錯(cuò),所以都是熱鬧一陣就過(guò)去了,幾乎沒(méi)人認(rèn)真用它(因?yàn)椴缓糜?用起來(lái)顯得巨傻)。”雖然說(shuō)的有些偏激,但是沒(méi)人認(rèn)真用也就是說(shuō)大家不愿意開口說(shuō)話這件事情是值得思考的,語(yǔ)音識(shí)別技術(shù)這個(gè)根正苗紅的太子發(fā)展到現(xiàn)在,試圖滲透著我們生活的同時(shí),我們也發(fā)現(xiàn)這玩意兒看起來(lái)并沒(méi)有傳說(shuō)的那么神乎其神,從語(yǔ)音機(jī)器人到Siri再到Google Glass,每一次相關(guān)產(chǎn)品的問(wèn)世都引起極大的關(guān)注度,但又隨著時(shí)間和了解逐漸平息下來(lái),到底是什么讓我們覺得巨傻而難開金口呢?
市場(chǎng)現(xiàn)狀
首先來(lái)看下目前常見的語(yǔ)音類產(chǎn)品:
一、手機(jī)領(lǐng)域:微信、語(yǔ)音助手、聽歌搜索
二、PC領(lǐng)域:語(yǔ)音聊天、外語(yǔ)教學(xué)軟件、盲人輔助軟件
三、其他設(shè)配領(lǐng)域:Google Glass、車載系統(tǒng)

圖1:寶馬公司旗下車載語(yǔ)音控制系統(tǒng),駕駛員只要按方向盤的控制鍵,激活語(yǔ)音輔助系統(tǒng),通過(guò)聲音就能夠發(fā)送信息、打電話以及使用其他語(yǔ)音指令。
圖2: Google Glass。
圖3:盲人閱讀器。
圖4:Duolingo外語(yǔ)學(xué)習(xí)軟件,通過(guò)語(yǔ)音練習(xí)聽說(shuō)。
使用習(xí)慣分析
他們有的涉及識(shí)別,有的不涉及,但從以上這些產(chǎn)品中,可以發(fā)現(xiàn)幾個(gè)有趣的現(xiàn)象:
1.在手機(jī)這個(gè)領(lǐng)域,聽歌搜索這個(gè)細(xì)分領(lǐng)域的識(shí)別還是很準(zhǔn)確的;
2.由于微信的教育,可以見到越來(lái)越多的人在公共場(chǎng)合對(duì)著手機(jī)說(shuō)話,語(yǔ)音的溝通方式已經(jīng)沒(méi)有顯得那么不自然了,用戶習(xí)慣逐漸形成;
3.外語(yǔ)教學(xué)和盲人輔助類的軟件都有他們的特有的市場(chǎng),競(jìng)爭(zhēng)壁壘高也容易取得了成績(jī);
4.其他設(shè)備領(lǐng)域雖然尚屬新興,但由于其設(shè)備條件和配備場(chǎng)景的特殊性和前瞻性,是發(fā)展?jié)B透的趨勢(shì)。
問(wèn)題和解決方案
通過(guò)以上這些發(fā)現(xiàn),不難看出人們?cè)谑褂谜Z(yǔ)音進(jìn)行人機(jī)交互時(shí)遇到的問(wèn)題,方便我們借助設(shè)計(jì)手段提升用戶開口說(shuō)話的欲望:
識(shí)別的準(zhǔn)確率
環(huán)境噪音、硬件設(shè)備的條件、技術(shù)的限制都會(huì)降低識(shí)別的準(zhǔn)確率,和人們表達(dá)能力的差異性以及人們理解能力的廣泛性相比起來(lái),技術(shù)和人還不能相比,因此在試過(guò)幾次之后,我們說(shuō)話時(shí)會(huì)變得咬文嚼字小心翼翼。
那么從交互的角度,我們將“小心翼翼”的問(wèn)題拆開來(lái)細(xì)看,有一些辦法可以優(yōu)化甚至解決:
1.不知道對(duì)準(zhǔn)哪里說(shuō)——應(yīng)用中最大的call to action語(yǔ)音按鈕置于麥克風(fēng)附近,例如iPhone的麥克風(fēng)在手機(jī)的下部,Siri的按鈕和聲波動(dòng)效反饋也都在手機(jī)下部,用戶自然形成對(duì)準(zhǔn)手機(jī)下部說(shuō)話的條件反射;
2.不知道何時(shí)開始/結(jié)束說(shuō)話——長(zhǎng)按進(jìn)行語(yǔ)音錄入。第一,長(zhǎng)按作為語(yǔ)音錄入方式已經(jīng)形成用戶習(xí)慣,不僅可以應(yīng)用在社交軟件領(lǐng)域,也可以應(yīng)用到語(yǔ)音識(shí)別的場(chǎng)景;第二,長(zhǎng)按對(duì)于語(yǔ)音錄入的開始或者結(jié)尾是由人自己進(jìn)行控制,相比機(jī)器判斷更加準(zhǔn)確,利于屏蔽不必要的噪音;(例如:百度語(yǔ)音助手Android版)
3.識(shí)別語(yǔ)言不清晰——進(jìn)行有效的提示和引導(dǎo)。一種情況下識(shí)別的結(jié)果不唯一,可以通過(guò)置信區(qū)間的判斷給出用戶更多的結(jié)果建議,或者提供可供修改的部分和候選項(xiàng)來(lái)降低用戶心理挫敗感和降低修改成本。(例如:百度地圖語(yǔ)音輸入查找地點(diǎn)“鵬寰大廈”后提供的搜索建議列表)。
情感因素
人機(jī)對(duì)話過(guò)程可以拆分為三個(gè)階段:人的語(yǔ)音輸入→語(yǔ)言識(shí)別、分析→機(jī)器的回答反饋。
從體驗(yàn)設(shè)計(jì)的角度來(lái)思考解決方案,第一階段尤其是在公共場(chǎng)合下,對(duì)著一個(gè)機(jī)器用咬文嚼字的腔調(diào)說(shuō)話略顯奇特,從交互的角度來(lái)看,我們可以:
1. 提供備選輸入方式——鍵盤輸入;
2. 分層收斂——進(jìn)入足夠垂直的場(chǎng)景,減少不必要的干擾因素(例如:百度語(yǔ)音助手“召喚小黃雞”進(jìn)入小黃雞對(duì)話場(chǎng)景,在這里就是打趣,和打趣無(wú)關(guān)的一切事情皆被拋開,發(fā)揮想象力,我們可以把“打趣”換成任意一個(gè)場(chǎng)景);
3. 模擬已有的使用習(xí)慣。例如把電話拿到耳邊這個(gè)行為,它具有足夠的針對(duì)性指向打電話的場(chǎng)景,如錘子系統(tǒng)語(yǔ)音打電話功能,直接把電話拿到耳邊說(shuō)出姓名即可開始撥打電話,省去操作步驟,也免去讓別人覺得自己奇怪的心理顧慮。
在人機(jī)對(duì)話過(guò)程的第三階段機(jī)器的回答中,因機(jī)器固定的語(yǔ)調(diào)、缺乏情感色彩的答案等略顯冰冷,可以采取擬人化的場(chǎng)景設(shè)計(jì)或者豐富的語(yǔ)音播報(bào)類型舒緩緊繃的神經(jīng)。(例如:天氣通提供各種方言或者明星播報(bào)天氣狀況,增加趣味性)

其它
而以上這些都影響著用戶再次使用的行為,還有其他的一些點(diǎn)值得入手:
1.在產(chǎn)品定位的選取上,不論你是從教育的角度入手,還是幫助殘障人士,亦或是完全趣味性的探索,都能找到爭(zhēng)當(dāng)居家旅行殺人滅口必備產(chǎn)品的手段;
2.在某些特殊場(chǎng)合下,肢體或視線被占用時(shí),用語(yǔ)音交流也是較好的方案,如開車時(shí)提供語(yǔ)音對(duì)車內(nèi)功能進(jìn)行操作、做飯時(shí)參考菜譜等;
3.細(xì)分場(chǎng)景進(jìn)行特殊優(yōu)化,如建提醒、聽播報(bào)。
