在進入正式的開發流程前,
先來簡單快速地了解語音對話介面的一些關鍵詞。
語音對話介面 (Voice User Interface,VUI)
依據對話量多寡,可以粗略分為以下兩種對話的分類。
傳統上的對話都是單輪對話,而近日因機器學習的發展使多輪對話漸成主流。
- 單輪對話:一問一答就結束對話 Ex: 單純的一段問答對話
- 多輪對話:一問一答的同時衍生出新的問題和新的回答,從而無限接近用戶的真實訴求 Ex:LaMda
設計工具
示例對話:爲VUI挑選最常見的使用場景,爲這些場景寫一系列最優路徑的示例對話以及異常情況的示例對話。
- 視覺原型圖:視覺原型圖可將用戶體驗可視化,結合VUI,讓用戶產生更完整的視聽體驗。
- 流程圖:設計使用者在與其互動時的操作的可能流程
設計概念
- 確定策略:控制式還是對話式。
- 對話不如預期時的反應會是什麼?
- 系統將以什麼形式進行反饋?
- 以什麼形式來確認用戶的意圖?
命令
- 控制模式:透過特定按鍵呼叫語音助理
- 對話模式:使用更自然的對話技巧進行話語權轉換
置信度閾值
VUI主要通過語音來反饋結果,確認訊息對於對話體驗非常重要,要做到這一點需要使用置信度閾值。
使用三級置信度時,系統將一定的閾值內以明確的形式確認訊息,若是訊息置信度小於45%,則系統會通過顯性確認訊息。若是訊息置信度大於80%,則系統將以隱性置信度來確認。
確認方式
- 顯性確認:需要強制用戶確認訊息
- 隱性確認:用戶只需要接受訊息,但無需強制確認
- 非語言式確認:僅需行動反饋,無需口頭響應。例如:「打開窗簾」
- 通用確認:通用確認並不需要用戶確認具體項目,而是開放式的聊天,從中我們可以瞭解用戶的心情和狀態等。這類反饋需要一些通用性的回答。
- 視覺確認:使用螢幕展示選項,讓用戶快速確認某件事情
異常處理
因環境噪聲或用戶聲音的輕重,導致系統出錯。
出錯的情況有:
- 未檢測到語音訊息;檢測到了語音,但未識別出結果
- 語音被正確識別了,但系統不能處理這些訊息的反饋
- 部分語音訊息識別出錯。