深圳logo設計公司需要做出的第一個明確區分是我們是在談論口語(語音)還是書面語言,即類似 Alexa 的系統上的語音機器人,還是 FB Messenger、網絡聊天或短信上的聊天機器人(文本機器人)。一個比另一個花費更多的時間和精力來構建。(請注意,雖然英文單詞“to chat”并不意味著對話是以書面形式還是口頭形式進行的,但該術語通常用于基于文本的系統,因此我將在這里繼續使用這個含義。)
口語通過聲音信號變得生動起來。要理解用戶在說什么,深圳logo設計公司首先必須將他們的演講轉錄成文本。此過程通常稱為語音識別,縮寫為 ASR(“自動語音識別”)。此步驟的輸出是 text。但這就是事情很容易變得模糊的地方。將語音轉換為文本的過程實際上只是一個轉錄步驟——計算機知道(“識別”)你所說的單詞,但它還不知道如何處理這些單詞。
短暫的繞道。回到大學時代,我學習了兩個學期的韓語。韓語的書寫系統乍一看很復雜,幾乎像中文,但實際上非常簡單,因為它像我們的拉丁語系統一樣由字母組成——準確地說是 24 個。在學習韓語的過程中,我學習了各種詞匯。到現在,15 年過去了,我已經忘記了大部分,但我仍然記得如何讀寫韓語。我們錯過了讓計算機與我們進行有意義的對話的一大步:理解用戶所說的行為。一旦我們進入文本域,我們就需要計算機來理解. 該階段被稱為自然語言理解。此步驟的輸出是所謂的語義表示或語義解釋。雖然消除對語音識別的需求確實讓聊天機器人的工作變得更容易,但構建功能性機器人的主要挑戰在于自然語言理解。理解句子到語義表示沒有 1:1 的映射是很重要的。這與語境、語言知識、世界知識和對話歷史有關。人類語言是高度模棱兩可的。
在構建語音機器人時,您現在可以將語音識別技術視為商品。不管什么花里胡哨,工作很明確:接收語音信號并告訴我說出的話。有很多供應商在做這項工作,而且做得很好。深圳logo設計公司和所有其他產品現在成為大眾市場現象的原因是因為語音識別的準確性已達到可接受的水平。考慮為了構建機器人而解決這個問題。(這可能是我在這篇文章中做出的最具挑釁性的聲明,因為我知道很多人會在這里反對。)
如前所述,機器人成功的關鍵不是語音識別,而是正確理解和解釋用戶話語。這就是深圳logo設計公司仍處于起步階段的地方。在我看來,這里最重要的見解是,構建一個有用的機器人更多是好的設計而非好的技術的結果。如果您真正站在用戶的角度,仔細考慮對話流程并預測機器人給出的每一個響應,用戶接下來會說什么或輸入什么(基于有限的語義可能性集,而不是選擇)的詞!),并為這些中的每一個提供響應或觸發的動作,那么您很可能會成功。沒有什么比機器人回應“對不起,不確定你剛才說的話”更令人沮喪的了。
深圳logo設計公司為自然語言理解任務選擇的技術框架應該支持您對用戶話語進行正確的語義解釋——但作為機器人的設計者,做正確的事情的工作仍然是您的工作。計算機可能會模擬對句子的“理解”,但它是根據你給它的規則來進行的,無論是通過使用機器學習的大量訓練工作,還是大量的規則編碼工作。這兩種方法都有助于最終產生令人滿意的結果。