時間:2023-02-27 11:16:52
引言:易發表網憑借豐富的文秘實踐,為您精心挑選了九篇語音識別技術范例。如需獲取更多原創內容,可隨時聯系我們的客服老師。
關鍵詞:語音識別 應用領域 熱點 難點
中圖分類號:TN912 文獻標識碼:A 文章編號:1007-3973 (2010) 03-062-02
1應用領域
如今,一些語音識別的應用已經應用到實際生活中,如IBM的Viavoice、Microsoft的Speech SDK、Dragon公司的Dragon Dictate系統等。語音識別的應用領域非常廣泛,幾乎涉及到日常生活的方方面面。如語音撥號系統、、家庭服務、訂票系統、聲控智能玩具、醫療服務、銀行服務、聽寫機、計算機控制、工業控制、語音通信系統等。預計在不遠的將來,語音識別技術將在工業、家電、通信、、醫療、家庭服務等各個領域深刻改變人類現有的日常生活方式。語音識別聽寫機在一些領域的應用被美國新聞界評為1997年計算機發展十件大事之一。很多專家都認為語音識別技術是2000年至2010年間信息技術領域十大重要的科技發展技術之一。
2發展歷史
語音識別的研究工作開始于50年代,Bell實驗室實現了第一個可識別十個英文數字的語音識別系統―Audry系統。但真正取得實質性進展,并將其作為一個重要的課題開展研究則是在60年代末70年代初。60年代,提出了動態規劃(DP)和線性預測分析技術(LP),其中后者較好地解決了語音信號產生模型的問題,極大地促進了語音識別的發展。70年代,動態時間歸正技術(DTW)解決了語音特征不等長匹配問題,對特定人孤立詞語音識別十分有效,在語音識別領域取得了突破。在此期間還提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。
80年代語音識別研究進一步深入,HMM模型和人工神經網絡(ANN)在語音識別中成功應用。1988年,FULEE Kai等用VQ/I-IMM方法實現了997個詞匯的非特定人連續語音識別系統SPHINX。這是世界上第1個高性能的非特定人、大詞匯量、連續語音識別系統。人們終于在實驗室突破了大詞匯量、連續語音和非特定人這三大障礙,并以此確定了統計方法和模型在語音識別和語言處理中的主流地位。使得借助人工智能中的啟發式搜索和語音模型自身的特點,高效、快捷的算法使得建立實時的連續語音識別系統成為可能。
90年代,人們開始進一步研究語音識別與自然語言處理的結合,逐步發展到基于自然口語識別和理解的人機對話系統。人工神經元網絡(ANN)也開始應用于語音識別,它和HMM模型建立的語音識別系統性能相當,在很多系統中還被結合在一起使用以提高識別率及系統的魯棒性。小波分析也開始用于特征提取,但目前性能不理想,其研究還在進一步深入中。
現在語音識別系統已經開始從實驗室走向實用,出現了比較成熟的已推向市場的產品。許多發達國家如美國、日本、韓國以及IBM、Apple、Microsoft、AT&T等著名公司都為語音識別系統的實用化開發研究投以巨資。
3研究的熱點與難點
目前語音識別領域的研究熱點包括:穩健語音識別(識別的魯棒性)、語音輸入設備研究 、聲學HMM模型的細化、說話人自適應技術、大詞匯量關鍵詞識別、高效的識別(搜索)算法研究 、可信度評測算法研究、ANN的應用、語言模型及深層次的自然語言理解。
目前研究的難點主要表現在:(1)語音識別系統的適應性差。主要體現在對環境依賴性強。(2)高噪聲環境下語音識別進展困難,因為此時人的發音變化很大,像聲音變高,語速變慢,音調及共振峰變化等等,必須尋找新的信號分析處理方法。(3)如何把語言學、生理學、心理學方面知識量化、建模并有效用于語音識別,目前也是一個難點。(4)由于我們對人類的聽覺理解、知識積累和學習機制以及大腦神經系統的控制機理等方面的認識還很不清楚,這必將阻礙語音識別的進一步發展。
4語音識別系統
一個典型的語音識別系統如圖所示:
輸入的語言信號首先要進行反混疊濾波、采樣、A/D轉換等過程進行數字化,之后要進行預處理,包括預加重、加窗和分幀、端點檢測等。我們稱之為對語音信號進行預處理。
語音信號的特征參數主要有:短時能量En,反映語音振幅或能量隨著時間緩慢變化的規律;短時平均過零率Zn,對于離散信號來講,簡單的說就是樣本改變符號的次數,可以粗略分辨清音和濁音;短時自相關函數;經過FFT或LPC運算得到的功率譜,再經過對數運算和傅里葉反變換以后得到的倒譜參數;根據人耳聽覺特性變換的美爾(MEL);線性預測系數等。通常識別參數可選擇上面的某一種或幾種的組合。
語音識別是語音識別系統最核心的部分。包括語音的聲學模型(訓練學習)與模式匹配(識別算法)以及相應的語言模型與語言處理2大部分。聲學模型用于參數匹配,通常在模型訓練階段按照一定的準則,由用語音特征參數表征的大量已知模式中通過學習算法來獲取代表該模式本質特征的模型參數而產生。在識別(模式匹配)時將輸入的語音特征同聲學模型(模式)根據一定準則進行匹配與比較,使未知模式與模型庫中的某一個模型獲得最佳匹配以得到最佳的識別結果。語言模型一般指在匹配搜索時用于字詞和路徑約束的語言規則,它包括由識別語音命令構成的語法網絡或由統計方法構成的語言模型,語言處理則可以進行語法、語義分析。
聲學模型是語音識別系統中最關鍵的一部分。目前最常用也最有效的幾種聲學識別模型包括動態時間歸整模型(DTW)、隱馬爾可夫模型(HMM)和人工神經網絡模型(ANN)等。
DTW是較早的一種模式匹配和模型訓練技術,它把整個單詞作為識別單元,在訓練階段將詞匯表中每個詞的特征矢量序列作為模板存入模板庫,在識別階段將待識別語音的特征矢量序列依次與庫中的每個模板進行相似度比較,將相似度最高者作為識別結果輸出。DTW應用動態規劃方法成功解決了語音信號特征參數序列比較時時長不等的難題,在小詞匯量、孤立詞語音識別中獲得了良好性能。但因其不適合連續語音大詞匯量語音識別系統,目前已逐漸被HMM和ANN模型替代。
HMM模型是語音信號時變特征的有參表示法。它由相互關聯的兩個隨機過程共同描述信號的統計特性,其中一個是隱蔽的(不可觀測的)具有有限狀態的Markor鏈,另一個是與Markor鏈的每一狀態相關聯的觀察矢量的隨機過程(可觀測的)。HMM很好的模擬了人得語言過程,目前應用十分廣泛。HMM模型的模型參數包括HMM拓撲結構(狀態數目N、狀態之間的轉移方向等)、每個狀態可以觀察到的符號數M(符號集合O)、狀態轉移概率A及描述觀察符號統計特性的一組隨機函數,包括觀察符號的概率分布B和初始狀態概率分布 ,因此一個HMM模型可以由{N,M,A,B, }來確定,對詞匯表中的每一個詞都要建立相應的HMM模型。
模型參數得到后可以用Viterbi算法來確定與觀察序列對應的最佳的狀態序列。建好模型后,在識別階段就是要計算每個模型產生觀察符號序列的輸出概率,輸出概率最大的模型所表示的詞就是我們的識別結果。這個過程計算量很大,有人提出了前向-后向算法,大大減少了計算量,已經被廣泛采用,關于它們的各種改進方法也被大量提出。
ANN在語音識別中的應用是現在研究的又一熱點。ANN本質上是一個自適應非線性動力學系統,是由結點互連組成的計算網絡,模擬了人類大腦神經元活動的基本原理,具有自學習能力、記憶、聯想、推理、概括能力和快速并行實現的特點,同時還具備自組織、自適應的功能。這些能力是HMM模型不具備的,可用于處理一些環境信息十分復雜,背景知識不清楚,推理規則不明確的問題,允許樣品有較大的缺損、畸變,因此對于噪聲環境下非特定人的語音識別問題來說是一種很好的解決方案。目前大部分應用神經網絡的語音識別系統都采用了BP網并取得了較好的識別效果。
將ANN與HMM結合分別利用各自優點進行識別將是今后的一條研究途徑。二者結合的混合語音識別方法的研究開始于上世紀90年代,目前已有一些方法將ANN輔助HMM進行計算和學習概率參數。
語言模型主要分為規則模型和統計模型兩種。統計語言模型是用概率統計的方法來揭示語言單位內在的統計規律,其中N-Gram簡單有效,被廣泛使用。N-Gram模型基于這樣一種假設:第n個詞的出現只與前面N-1個詞相關,而與其它任何詞都不相關,整句的概率就是各個詞出現概率的乘積。這些概率可以通過直接從語料庫中統計N個詞同時出現的次數得到。常用的是二元的Bi-Gram和三元的Tri-Gram。
5總結
盡管語音識別技術已經取得了長足的進步,而語音識別系統也層出不窮,不斷的改變人類現有的生活方式,但其比較成功的應用也只是在某些特定的領域,談不上大規模廣泛的應用。只有建立從聲學、語音學到語言學的知識為基礎、以信息論、模式識別數理統計和人工智能為主要實現手段的語音處理機制,把整個語音識別過程從系統工程的高度進行分析構建,才有可能獲得能與人類相比的高性能的、完整的計算機語音識別系統。
參考文獻:
[1]易克初,田斌.付強.語音信號處理[M].國防工業出版社,2000.
[2]胡航.語音信號處理[M].哈爾濱工業大學出版社,2000.
[3]趙力.語音信號處理[M].機械工業出版社,2003.
關鍵詞: 語音識別; 識別原理; 聲學建模方法; 多維模式識別系統
中圖分類號: TN912.3?34 文獻標識碼: A 文章編號: 1004?373X(2013)13?0043?03
Summary of speech recognition technology and its application
YU Lin?lin
(Naval Aviation Military Representative Office Stationed in Beijing, Beijing 100041, China)
Abstract: As a key technology of human?computer interface in information technology, speech recognition has great research significance and broad application value. the development history of speech recognition technology is introduced, the basic knowledge of speech recognition is expounded, such as concept, basic principle, the acoustic modeling approach. The application of speech recognition technology in various fields are briefly introduced.
Keywords: speech recognition; recognition principle; acoustic modeling approach; multi?dimension pattern recognition system
0 引 言
語言是人類相互交流最常用、最有效、最重要和最方便的通信形式,語音是語言的聲學表現,與機器進行語音交流是人類一直以來的夢想。隨著計算機技術的飛速發展,語音識別技術也取得突破性的成就,人與機器用自然語言進行對話的夢想逐步接近實現。語音識別技術的應用范圍極為廣泛,不僅涉及到日常生活的方方面面,在軍事領域也發揮著極其重要的作用。它是信息社會朝著智能化和自動化發展的關鍵技術,使人們對信息的處理和獲取更加便捷,從而提高人們的工作效率。
1 語音識別技術的發展
語音識別技術起始于20世紀50年代。這一時期,語音識別的研究主要集中在對元音、輔音、數字以及孤立詞的識別。
20世紀60年代,語音識別研究取得實質性進展。線性預測分析和動態規劃的提出較好地解決了語音信號模型的產生和語音信號不等長兩個問題,并通過語音信號的線性預測編碼,有效地解決了語音信號的特征提取。
20世紀70年代,語音識別技術取得突破性進展。基于動態規劃的動態時間規整(Dynamic Time Warping, DTW)技術基本成熟,特別提出了矢量量化(Vector Quantization,VQ)和隱馬爾可夫模型(Hidden Markov Model,HMM)理論[1]。
20世紀80年代,語音識別任務開始從孤立詞、連接詞的識別轉向大詞匯量、非特定人、連續語音的識別,識別算法也從傳統的基于標準模板匹配的方法轉向基于統計模型的方法。在聲學模型方面,由于HMM能夠很好的描述語音時變性和平穩性,開始被廣泛應用于大詞匯量連續語音識別(Large Vocabulary Continous Speech Recognition, LVCSR)的聲學建模[2?3];在語言模型方面,以N元文法為代表的統計語言模型開始廣泛應用于語音識別系統[4]。在這一階段,基于HMM/VQ、HMM/高斯混合模型、HMM/人工神經網絡的語音建模方法開始廣泛應用于LVCSR系統,語音識別技術取得新突破。
20世紀90年代以后,伴隨著語音識別系統走向實用化,語音識別在細化模型的設計、參數提取和優化、系統的自適應方面取得較大進展[5]。同時,人們更多地關注話者自適應、聽覺模型、快速搜索識別算法以及進一步的語言模型的研究等課題[6]。此外,語音識別技術開始與其他領域相關技術進行結合,以提高識別的準確率,便于實現語音識別技術的產品化。
2 語音識別基礎
2.1 語音識別概念
語音識別是將人類的聲音信號轉化為文字或者指令的過程[7]。語音識別以語音為研究對象,它是語音信號處理的一個重要研究方向,是模式識別的一個分支。語音識別的研究涉及微機技術、人工智能、數字信號處理、模式識別、聲學、語言學和認知科學等許多學科領域,是一個多學科綜合性研究領域[8]。
根據在不同限制條件下的研究任務,產生了不同的研究領域。這些領域包括:根據對說話人說話方式的要求,可分為孤立字(詞)、連接詞和連續語音識別系統;根據對說話人的依賴程度,可分為特定人和非特定人語音識別系統;根據詞匯量的大小,可分為小詞匯量、中等詞匯量、大詞匯量以及無限詞匯量語音識別系統。
2.2 語音識別基本原理
從語音識別模型的角度講,主流的語音識別系統理論是建立在統計模式識別基礎之上的。語音識別的目標是利用語音學與語言學信息,把輸入的語音特征向量序列[X=x1,x2,…,xT]轉化成詞序列[W=w1,w2,…,wN]并輸出。基于最大后驗概率的語音識別模型如下式所示:
[W=argmaxW{P(W|X)}=argmaxWP(W|X)P(W)P(X)=argmaxW{P(X|W)P(W)}=argmaxW{logP(X|W)+λlogP(W)}]
上式表明,要尋找的最可能的詞序列[W],應該使[P(X|W)]與[P(W)]的乘積達到最大。其中,[P(X|W)]是特征矢量序列[X]在給定[W]條件下的條件概率,由聲學模型決定。[P(W)]是[W]獨立于語音特征矢量的先驗概率,由語言模型決定。由于將概率取對數不影響[W]的選取,第四個等式成立。[logP(X|W)]與[logP(W)]分別表示聲學得分與語言得分,且分別通過聲學模型與語言模型計算得到。[λ]是平衡聲學模型與語言模型的權重。從語音識別系統構成的角度講,一個完整的語音識別系統包括特征提取、聲學模型、語言模型、搜索算法等模塊。語音識別系統本質上是一種多維模式識別系統,對于不同的語音識別系統,人們所采用的具體識別方法及技術不同,但其基本原理都是相同的,即將采集到的語音信號送到特征提取模塊處理,將所得到的語音特征參數送入模型庫模塊,由聲音模式匹配模塊根據模型庫對該段語音進行識別,最后得出識別結果[9]。
語音識別系統基本原理框圖如圖1所示,其中:預處理模塊濾除原始語音信號中的次要信息及背景噪音等,包括抗混疊濾波、預加重、模/數轉換、自動增益控制等處理過程,將語音信號數字化;特征提取模塊對語音的聲學參數進行分析后提取出語音特征參數,形成特征矢量序列。語音識別系統常用的特征參數有短時平均幅度、短時平均能量、線性預測編碼系數、短時頻譜等。特征提取和選擇是構建系統的關鍵,對識別效果極為重要。
圖1 語音識別基本原理框圖
由于語音信號本質上屬于非平穩信號,目前對語音信號的分析是建立在短時平穩性假設之上的。在對語音信號作短時平穩假設后,通過對語音信號進行加窗,實現短時語音片段上的特征提取。這些短時片段被稱為幀,以幀為單位的特征序列構成語音識別系統的輸入。由于梅爾倒譜系數及感知線性預測系數能夠從人耳聽覺特性的角度準確刻畫語音信號,已經成為目前主流的語音特征。為補償幀間獨立性假設,人們在使用梅爾倒譜系數及感知線性預測系數時,通常加上它們的一階、二階差分,以引入信號特征的動態特征。
聲學模型是語音識別系統中最為重要的部分之一。聲學建模涉及建模單元選取、模型狀態聚類、模型參數估計等很多方面。在目前的LVCSR系統中,普遍采用上下文相關的模型作為基本建模單元,以刻畫連續語音的協同發音現象。在考慮了語境的影響后,聲學模型的數量急劇增加,LVCSR系統通常采用狀態聚類的方法壓縮聲學參數的數量,以簡化模型的訓練。在訓練過程中,系統對若干次訓練語音進行預處理,并通過特征提取得到特征矢量序列,然后由特征建模模塊建立訓練語音的參考模式庫。
搜索是在指定的空間當中,按照一定的優化準則,尋找最優詞序列的過程。搜索的本質是問題求解,廣泛應用于語音識別、機器翻譯等人工智能和模式識別的各個領域。它通過利用已掌握的知識(聲學知識、語音學知識、詞典知識、語言模型知識等),在狀態(從高層至底層依次為詞、聲學模型、HMM狀態)空間中找到最優的狀態序列。最終的詞序列是對輸入的語音信號在一定準則下的一個最優描述。在識別階段,將輸入語音的特征矢量參數同訓練得到的參考模板庫中的模式進行相似性度量比較,將相似度最高的模式所屬的類別作為識別中間候選結果輸出。為了提高識別的正確率,在后處理模塊中對上述得到的候選識別結果繼續處理,包括通過Lattice重打分融合更高元的語言模型、通過置信度度量得到識別結果的可靠程度等。最終通過增加約束,得到更可靠的識別結果。
2.3 聲學建模方法
常用的聲學建模方法包含以下三種:基于模式匹配的動態時間規整法(DTW);隱馬爾可夫模型法(HMM);基于人工神經網絡識別法(ANN)等。
DTW 是較早的一種模式匹配的方法。它基于動態規劃的思想,解決孤立詞語音識別中的語音信號特征參數序列比較時長度不一的模板匹配問題。在實際應用中,DTW通過計算已預處理和分幀的語音信號與參考模板之間的相似度,再按照某種距離測度計算出模板間的相似度并選擇最佳路徑。
HMM是對語音信號的時間序列結構所建立的統計模型,是在馬爾可夫鏈的基礎上發展起來的,它是一種基于參數模型的統計識別方法。HMM可模仿人的言語過程,可視作一個雙重隨機過程:一個是用具有有限狀態數的馬爾可夫鏈來模擬語音信號統計特性變化的隱含的隨機過程,另一個是與馬爾可夫鏈的每一個狀態相關聯的觀測序列的隨機過程[10]。
ANN以數學模型模擬神經元活動,將人工神經網絡中大量神經元并行分布運算的原理、高效的學習算法以及對人的認知系統的模仿能力充分運用到語音識別領域,并結合神經網絡和隱含馬爾可夫模型的識別算法,克服了ANN在描述語音信號時間動態特性方面的缺點,進一步提高了語音識別的魯棒性和準確率。其中成功的方法就是在混合模型中用ANN替代高斯混合模型估計音素或狀態的后驗概率。2011年,微軟以深度神經網絡替代多層感知機形成的混合模型系統大大提高了語音識別的準確率。
3 語音識別的應用
語音識別技術有著非常廣泛的應用領域和市場前景。在語音輸入控制系統中,它使得人們可以甩掉鍵盤,通過識別語音中的要求、請求、命令或詢問來作出正確的響應,這樣既可以克服人工鍵盤輸入速度慢,極易出差錯的缺點,又有利于縮短系統的反應時間,使人機交流變得簡便易行,比如用于聲控語音撥號系統、聲控智能玩具、智能家電等領域。在智能對話查詢系統中,人們通過語音命令,可以方便地從遠端的數據庫系統中查詢與提取有關信息,享受自然、友好的數據庫檢索服務,例如信息網絡查詢、醫療服務、銀行服務等。語音識別技術還可以應用于自動口語翻譯,即通過將口語識別技術、機器翻譯技術、語音合成技術等相結合,可將一種語言的語音輸入翻譯為另一種語言的語音輸出,實現跨語言交流[11]。
語音識別技術在軍事斗爭領域里也有著極為重要的應用價值和極其廣闊的應用空間。一些語音識別技術就是著眼于軍事活動而研發,并在軍事領域首先應用、首獲成效的,軍事應用對語音識別系統的識別精度、響應時間、惡劣環境下的頑健性都提出了更高的要求。目前,語音識別技術已在軍事指揮和控制自動化方面得以應用。比如,將語音識別技術應用于航空飛行控制,可快速提高作戰效率和減輕飛行員的工作負擔,飛行員利用語音輸入來代替傳統的手動操作和控制各種開關和設備,以及重新改編或排列顯示器上的顯示信息等,可使飛行員把時間和精力集中于對攻擊目標的判斷和完成其他操作上來,以便更快獲得信息來發揮戰術優勢。
4 結 語
語音識別的研究工作對于信息化社會的發展,人們生活水平的提高等方面有著深遠的意義。隨著計算機信息技術的不斷發展,語音識別技術將取得更多重大突破,語音識別系統的研究將會更加深入,有著更加廣闊的發展空間。
參考文獻
[1] 馬志欣,王宏,李鑫.語音識別技術綜述[J].昌吉學院學報,2006(3):93?97.
[2] RABINER L R, JUANG B H. An introduction to hidden Markov models [J]. IEEE ASSP Magazine, 1986, 3(1): 4?16.
[3] GALES M, YOUNG S. The application of hidden Markov models in speech recognition [J]. Foundations and Trends in Signal Processing, 2008, 1(3): 195?304.
[4] JELINEK F. Continuous speech recognition by statistical methods [J]. Proceedings of the IEEE, 1976, 64(4): 532?556.
[5] 倪崇嘉,劉文舉,徐波.漢語大詞匯量連續語音識別系統研究進展[J].中文信息學報,2009,23(1):112?123.
[6] 顧亞強.非特定人語音識別關鍵技術研究[D].長沙:國防科學技術大學,2009.
[7] 中華人民共和國國家質量監督檢驗檢疫總局.GB/T21023?2007 中文語音識別系統通用技術規范[S].北京:中國標準出版社,2007.
[8] 王文慧.基于ARM的嵌入式語音識別系統研究[D].天津:天津大學,2008.
[9] 何湘智.語音識別的研究與發展[J].計算機與現代化,2002(3):3?6.
關鍵詞:連續語音識別;關鍵技術;創新
談到語音識別,就不得不提到李開復------前微軟研究院院長,他在哥倫比亞大學時主攻的就是語音識別,即通過機器來識別語音。語音識別是現代社會背景下的一門新興學科,它最主要的功能就是可以讓計算機聽懂人說的話,進而為人們提供更高效且方便的服務。它是人類和計算機之間利用語言進行交流 的橋梁,也是一門與多種學科緊密聯系的實用技術。現階段,人們對連續語音識別的研究已經取得了一定的成就。目前,我們研究語音識別的重點正在向特定應用領域口語的識別和理解方面轉變。在這個研究中,有幾種關鍵技術,下面我們就對其中幾種關鍵技術進行簡單的分析。
1、詞語定位技術
詞語定位技術,在語音識別技術中非常重要的技術。主要通過對關鍵詞進行定位,這種技術跟語言的語法特點有很大關系,是將語句中的關鍵詞語提取出來的一種定位技術。比如主語,謂語,賓語就是關鍵語素,先將這些語素定位對于完善整句話有著非常重要的意義,因為這些語素已經勾勒出了語句的骨架。打個比方,蓋個房子要加鋼筋,來增加建筑物的強度和支撐作用,關鍵語素就是語句意群的鋼筋。通常詞語定位是通過設置并及時更新關鍵詞庫來實現的。
2、關聯搜索技術
在確定完基本語素后,就要根據語素之間的關聯性,進行搜索,那些語素是一個意群,同在一個意群中的語素如何排列。利用相關性確定意群非常重要,因為詞語詞之間不是任意搭配的,而是有規律的,這種規律就是語法,包括書面語語法和口語的語法。語法是語音識別的規則,因此是非常重要的。關聯的方式在語法的約束下主要有以下幾種:1.相關詞語出現的概率;2.相關詞語的詞性;3.相關詞語出現的語境的重復率等等。
連接詞識別就是說,系統中存儲的HMM針對的是孤立詞,但識別的語音是由這些詞組成的詞串。由于這一技術是一個連接序列,即根據給定發音序列來找到與其最匹配的參考模塊詞,所以,下面的問題必須得到解決:(1)在序列中,有些時候即使知道詞長度的大概范圍,也不知道詞的具體數量;(2)除整個序列的首末端點之外,序列之中每個詞的邊界位置并不知道。
3、抗阻礙性
在語音識別系統中,阻礙無處不在,具體說來,阻礙包括以下幾個方面:1.方言帶來的語音識別的阻礙;2.口音帶來的語音識別的阻礙;3.外界干擾(噪聲)帶來的語音識別的阻礙;4.系統設備局限性帶來的語音識別的阻礙等等。
一般情況下,在實驗室(環境相對安靜)中訓練合格的語音識別系統用在實際環境(環境與訓練的實驗室環境不相匹配)的時候性能就會明顯下降。所以,運用頑健語音識別技術就是為了研究一些補償技術借以提高系統在不同環境中的性能。
根據語音系統中噪聲的特點,我們研究出了一些抑制噪聲的方法,如根據信號與噪聲在各個尺度上的小波譜表現不一樣的特點,可以運用小波變換的噪聲抑制;根據含噪語音信號能量譜就是噪聲信號和語音信號能量譜之和這一特點,可以運用EVRC編碼噪聲抑制方法,等等。
4、搜索策略技術
在利用計算機來識別語音的時候,未知的模式,即從輸入語音中求出的特征參數,與事前所定的標準模式是否一致,這個問題必須檢查。目前語音識別的實現主要是通過聲音識別芯片分析聲音的波形來實現的,人的說話聲音有音調、音色的不同,因而所形成的生意的波形也不同,芯片通過比對聲音圖譜來確定語音內容,達到聲音識別的目的,這也就是聲音識別的原理。然而,在實際情況中,由于語音具有許多的不確定的因素,想達到完全一致比較困難。搜索策略是連續語音識別研究中的一個是否重要的課題。它的基本思路是,把幀作為搜索單位,在每一時刻對每一條路徑都假定當前幀有可能是這一路徑的后續,借此進行一個完整的搜索。
總體來說,搜索策略技術受到容量的限制。所以,我們必須確定應該保留哪些路徑,這就要求我們確定一定閥值,這個閥值既不能過嚴也不能過寬。對于這個問題,我們一定要采用合適的算法,如傳統的幀同步算法、基于統計知識的幀同步搜索算法原理和受詞法約束的詞搜索樹等算法都是比較適合這一部分的。
結論:
本文總結了連續語音識別中幾種關鍵技術,并對它們進行了簡單的介紹和分析。目前連續語音識別技術的研究并不成熟,它要向正確的方向健康發展就必須把詞語定位技術、關聯搜索技術、抗阻礙性技術、搜索策略技術等技術都正確運用于實際工作中。
參考文獻:
[1]馮麗娟,吾守爾·斯拉木.維吾爾語連續語音識別技術研究[J].現代計算機:下半月,2010,(1)
語音識別算法雖然還有很多問題沒有解決,但語音識別技術已經開始逐步進入實用階段。在發達國家語音識別技術已經用于信息服務系統和查詢系統,人們可以通過電話網絡查詢有關的信息,并且取得很好的結果。用戶交換機、電話機、手機也包含了語音識別撥號功能。調查統計表明多達80%以上的人對這些服務表示滿意。中小詞匯量的語音識別系統(
語音芯片的應用
近年來語音芯片應用越來越廣泛,主要包括:
1.電話通信中的語音撥號。特別是在中、高檔移動電話上,現已普遍具有語音撥號的功能。隨著語音識別芯片的價格降低,普通電話上也將具備語音撥號的功能。
2. 汽車的語音控制。由于在汽車的行駛過程中,駕駛員的手必須放在方向盤上,因此在汽車上撥打電話,需要使用具有語音撥號功能的免提電話通信方式。此外,對汽車的門、窗、空調、照明以及音響等設備,同樣也可以由語音來方便地進行控制。
3. 工業控制及醫療領域。當操作人員的眼或手已經被占用的情況下,在增加控制操作時,最好的辦法就是增加人與機器的語音交互界面。由語音對機器發出命令,機器用語音做出應答。
4. 個人數字助理(Personal Digital Assistant,PDA)的語音交互界面。PDA的體積很小,人機界面一直是其應用和技術的瓶頸之一。由于在PDA上使用鍵盤非常不便,因此,現多采用手寫體識別的方法輸入和查詢信息。但是,這種方法仍然讓用戶感到很不方便。現在業界一致認為,PDA的最佳人機交互界面是以語音作為傳輸介質的交互方法,并且已有少量應用。隨著語音識別技術的提高,可以預見,在不久的將來,語音將成為PDA主要的人機交互界面。
5. 智能玩具。通過語音識別技術,我們可以與智能娃娃對話,可以用語音對玩具發出命令,讓其完成一些簡單的任務,甚至可以制造具有語音鎖功能的電子看門狗。智能玩具有很大的市場潛力,而其關鍵在于語音芯片價格的降低。
6. 家電遙控。用語音可以控制電視機、VCD、空調、電扇、窗簾的操作,而且一個遙控器就可以把家中的電器皆用語音控制起來,這樣,可以讓令人頭疼的各種電器的操作變得簡單易行。
語音識別專用芯片系統有如下幾個特點: 1. 多為中、小詞匯量的語音識別系統,即只能夠識別10~100詞條。只有近一兩年來,才有連續數碼或連續字母語音識別專用芯片實現。2. 一般僅限于特定人語音識別的實現,即需要讓使用者對所識別的詞條先進行學習或訓練,這一類識別功能對語種、方言和詞條沒有限制。有的芯片也能夠實現非特定人語音識別,即預先將所要識別的語句碼本訓練好而裝入芯片,用戶使用時不需要再進行學習就可直接應用。但這一類識別功能只適用于規定的語種和方言,而且所識別的語句只限于預先已訓練好的語句。3. 由此芯片組成一個完整的語音識別系統。因此,除了語音識別功能以外,為了有一個好的人機界面和識別正確與否的驗證,該系統還必須具備語音提示(語音合成)及語音回放(語音編解碼記錄)功能。4. 多為實時系統,即當用戶說完待識別的詞條后,系統立即完成識別功能并有所回應,這就對電路的運算速度有較高的要求。5. 除了要求有盡可能好的識別性能外,還要求體積盡可能小、可靠性高、耗電省、價錢低等特點。
語音識別技術發展
在發達國家各種各樣基于語音識別技術的產品已經可以買到,如具有聲控撥號電話,語音記事本等等。語音電話服務、數據查詢服務也已經部分實現。基于特定任務和環境的聽寫機也已經進入應用階段。語音識別技術是非常重要的人機交互技術,有著非常廣泛的應用前景。
說話者自適應技術近年在語音識別系統的研究中也備受重視,這是由于與人有關的語音識別系統比與人無關的語音識別系統的識別率要高很多。通過有效的自適應手段可以很快地提高系統的識別能力。實際上說話人自適應技術和穩健語音自適應技術是相通的。由于不同的說話人在聲道長度,說話口音方式都很不一樣。說話者自適應技術也主要是從以下兩方面著手。
靜態處理方法。從特征提取或訓練階段就盡可能減少來自說話人的變化因素對模型的貢獻。可以進行聲道參數的歸一化處理或對說話人進行分類處理,如分男女聲的識別系統就是其中的一個典型,但實際上僅僅從男女聲上對模型分類還是太粗,可以通過有效的聚類方法進行分類。這類方法統稱為聲學歸一化處理方法。
動態處理方法。對預先訓練好的與人無關識別系統,通過臨時得到的特定人語音數據對系統的模板或特征參數進行自適應修正,從而在原有系統基礎上建立一個用于特定任務、特定環境或特定說話人的系統,這類方法統稱為自適應方法。自適應方法可分為: 批模式、累進模式、即時模式; 按自適應學習策略又分為無監督學習和有監督學習。從用戶使用的方便程度來看是由難到易,而算法實現則是由易到難。采用何種策略取決于應用背景,對識別率的要求等因素。對于聽寫機等應用來說,最具吸引力的是累進、無監督的自適應方式,也稱在線自適應。
語言模型也是目前研究的一個重要方面。目前的語言模型是與任務有關的,典型的統計語言模型是通過大量任務特定的語料訓練出來的。通過新聞語料訓練出來的模型不能很好地工作于法律方面的文件語音識別。有幾種方法用于解決這些問題。一種是使用自適應語言模型。在靜態語言模型的基礎上,通過一個高速緩沖存儲器對語言模型進行動態的修正; 另一種是先訓練多領域語言模型,然后通過混合高斯模型將這些模型結合在一起; 還有一種比較好的辦法是使用大顆粒的語言模型,如基于類的語言模型,而不是基于詞的語言模型,類可以是詞性類,詞義類,以及由一定的數據驅動的聚類算法產生的各種類。
由于不同詞可以屬于同一類,這樣類比較大,構成的語言模型就比較穩健。其關鍵的問題是如何決定詞的分類,由于詞的分類比較復雜,同一詞可能屬于不同的類,特別是解決如何通過計算機實現自動分類的算法,即使用數據驅動算法也還沒有很好地解決。基于統計技術的計算語言學已經越來越受到重視,它解決了單獨規則語言模型不能解決的一些問題。當然統計語言模型也不能解決全部問題,因此如何把統計語言模型和基于規則的語言模型結合也是語言模型研究的重點之一。
目前不同快速語音識別算法都在開發中。其中包括對HMM狀態輸出的概率分布進行矢量量化,縮小搜索空間算法,減少計算機的內存需求方法,以及結合計算機結構特點的編程技術的應用。
鏈接:穩健語音識別技術
關鍵詞:語音識別過程;動態時間規整;隱馬爾科夫模型;人工神經網絡;語音識別的應用
中圖分類號:TN912.34
1 語音識別技術基本原理及過程介紹
語音識別系統由語音信號預處理、特征提取、模式匹配三部分構成。第一步預處理,主要有A/D變換、預加重和端點檢測部分。經過預處理之后的語音信號,要進行第二步特征提取,該過程就是在原始語音信號中提取出所需要的特征參數,從而得到特征矢量序列,特征提取完成后,接下來就是語音識別的核心,也就是第三步模式匹配,也就是模式識別。系統框圖如下[1]。
圖1 一般語音識別系統框圖
2 語音識別方法
目前,主要的語音識別方法主要有特征參數匹配法、隱馬爾可夫法和人工神經網絡法。
2.1 動態時間規整
動態時間規整(DTW)是早期的模式匹配方法。由于語音信號是一種隨機性非常大的信號,例如相同的字,不同人說時的發音會不同,時間長短也會不同,即便是同一個人說相同的語句,發音結果也會不同,于是,在模式匹配時,要識別字詞的時間軸將不斷扭曲,以測試模板與參考模板對齊。DTW是一個比較典型的優化問題,它用滿足一定條件的時間規整函數W(n)描述測試模板和參考模板的時間對應關系,求解兩模板匹配時累計距離最小所對應的規整函數。動態時間規整也存在一些問題,它的計算量大,比較適合同一個人說話語音的識別,而且不能對樣本做動態訓練,語音信號的時序動態特性并沒有很好地利用,所以DTW多用于孤立字詞的識別。
2.2 隱馬爾可夫模型
隱馬爾可夫模型(HMM)是一種統計模型,用來描述隨機過程的統計特性。它是由馬爾可夫鏈演變來的。[2]
HMM可用三元組表示:λ=(π,A,B)
A:狀態轉移概率的集合。
B:觀察概率的集合,表示每個狀態輸出相應觀察值的概率。
π:系統初始狀態的集合。
這三個元素π,A,B可以分為由π、A描述的Markov鏈和由B描述的隨機過程。
HMM是一種理想的語音信號模型,如今,連續語音識別,非特定人識別系統大多是基于HMM模型的。HMM是對語音序列的時間序列結構建立統計模型的,HMM是數學上的雙重隨機過程:一個是具有有限狀態數的Markov鏈來模擬語音信號統計特性變化的隱含的隨機過程,另一個是與Markov鏈的每一個狀態相關聯的觀測序列的隨機過程[3]。
盡管馬爾可夫模型是一種理想的語音信號模型,但是它還有很多不足。HMM有三個不現實的重要假設,假設一“狀態轉移的Markov假設”:系統在當前時刻的狀態向下一時刻所處的狀態轉移的狀態轉移概率僅僅與當前時刻的狀態有關,而與以前的狀態無關。假設二“不動性假設”:狀態與具體時間無關。假設三“輸出值的Markov假設”:輸出僅與當前狀態有關。這三個假設之所以不合理,是因為任一時刻出現的觀測值的概率不僅是依賴于系統當前所處的狀態,也可能依賴于系統之前時刻所處的狀態[4]。
2.3 人工神經網絡
人工神經網絡(ANN)是在模擬人腦神經組織的基礎上發展起來的全新計算機系統。ANN是模擬人類思維中“信息的處理是通過神經元之間同時相互作用的動態過程來完成思維”。ANN是一種非線性動力學系統,它的特點在于信息的分布式儲存和并行協同處理。單個神經元的結構簡單,但是大量的神經元所構成的神經網絡卻是一種復雜的網絡。ANN更接近于人的認知過程。人工神經網絡也存在一些不足,它的訓練、識別時間較長、動態時間規整能力較弱并且不容易實現。
3 語音識別的應用和前景
如今的科技領域,幾乎每天都有新的技術,新的研究成果出現,而語音識別也是這科技研究的一熱門領域,也應用到了人類生活的方方面面。
語音識別的應用非常廣泛,語音輸入技術的出現,可以使人們通過說話,而非手動輸入來作出正確的響應,這樣使輸入變的更加簡單,提高了工作學習的效率。語音識別技術可以應用于汽車,可以使駕駛員用語音指令操縱車載設備,提高汽車駕駛的安全性和舒適性。將語音識別、語言理解與大量的數據庫檢索和查詢技術相結合,就能夠實現更輕松的信息查詢方式。比如,圖書館的資料信息將能夠對來自用戶的語音輸入進行理解,并將它轉化為相應的指令,從數據庫中獲取結果并返回給用戶。這種技術同樣可以運用于銀行服務、醫療服務等方面。語音識別技術還可以應用于口語翻譯,例如,可以讓與聾啞人對話的對方帶上一個智能語音識別的微型攝像裝置,或者給聾啞人帶上一種特制的手套,然后,就可以通過語音合成技術和語音識別技術將手語翻譯成聲音語言,同時,系統還能夠完成將正常人的語言翻譯成聾啞人的手語,這種口語翻譯一種語音輸入翻譯為另一種語言的語音輸出。除此之外,語音識別在軍事,航空等領域也有廣闊的應用空間。語音識別將不斷發展,不斷豐富人類的生活。
參考文獻:
[1]趙力.語音信號處理第2版[M].北京.機械工程出版社,2009(05).
[2]何彥斌,楊志義,馬薈.一種基于HMM的場景識別方法[J].計算機科學,2011(04):254-256.
[3]呂云芳,基于模板匹配法的語音識別系統研究與基本實現[D].天津:河北工業大學,2005.
[4]劉云中,林亞平,陳治平.基于隱馬爾可夫模型的文本信息抽取[J].系統仿真學報,2004(03):507-510.
不過一旦我們離開了辦公室,許多人不假思索地向智能手機發出語音命令,無論這意味著語音撥號手機、向谷歌報出搜索詞語,還是詢問Siri今日天氣如何。
市場調研機構Opus Research的高級分析師兼創始人丹?米勒(Dan Miller)表示,提供語音技術的公司已投入巨資,研發“個人數字助理”概念,比如蘋果的Siri以及出現在許多谷歌手機上的谷歌語音操作(Google Voice Actions),它們懂自然語言命令。他表示,實際上最近在語音識別技術方面的突破大多出現在移動設備端的基于云計算的自然語言搜索領域。
主要進展就是,語音工具現在離用戶更近了――出現在我們日常使用的手機和平板電腦上,許多工具在云端使用,這提供了立即處理功能和不斷擴展的語言數據庫。不像老式的桌面端軟件,這些新工具不需要語音訓練,這歸功于算法方面取得的進步。
當然,今天的語音識別技術并非盡善盡美。即使在移動設備上,語音識別軟件也并不適用于每個人。而有些自然語言句子仍然讓智能化程度最高的語音控制系統都犯難,比如“告訴我的老板我開會要遲到”。Nuance、微軟和蘋果等公司已建立了龐大的語言數據庫,供自己的語音識別產品使用。但即使在今天,這類軟件有時還很難懂得牛肉制品“漢堡包”(hamburger)與德國城市“漢堡”(Hamburg)之間的區別。
米勒說,我們需要在云端運行更高程度的人工智能。他說:“我們離目標越來越近。各個層面都面臨挑戰,但正在取得進展――不過可能永遠不會盡善盡美。”
可是,雖然越來越好的結果正在促使移動設備采用語音識別技術,但這項技術在工作場所還沒有產生太大的影響:步入美國的隨便一個企業園區,很難看到有員工在下達語音命令。我們將探討什么因素在阻礙語音識別技術,并介紹這項技術在辦公桌前和辦公室都有望造福員工的幾個方面。
工作站前的語音
對于視力欠佳的用戶或患有重復性勞損(如腕管綜合癥)的那些人來說,通過語音控制電腦大有意義,可用于瀏覽及操控界面和應用程序、進行搜索以及口述內容很長的電子郵件和工作文檔。其他用戶也能從中受益,尤其是打字很慢的人、移動用戶以及想記錄會議紀要的與會人士。
米勒表示,該技術現在就出現在世人面前。基本的語音控制功能多年前就內置到Mac OS X和Windows中。今年夏天,蘋果將為其OS X美洲獅版本添加語音到文本口述功能。去年,谷歌往臺式機和筆記本電腦上的Chrome瀏覽器引入了最初出現在移動設備上的語音發起的搜索這一功能。
至于更高級的口述和個人電腦控制功能,專用的語音識別軟件(如Nuance公司的Dragon NaturallySpeaking)這些年來逐步改進。在美國某雜志的測評人員拉蒙特?伍德(Lamont Wood)進行的測試中,最新版的NaturallySpeaking Premium從語音到文本的轉換準確率超過99%。
伍德表示,對他來說,通過語音寫東西的速度大約2倍于通過打字寫東西。其他用戶獲得的效果有所不同,這取決于他們的打字速度以及使用語音軟件的熟練程度。他還指出,使用最新的降噪耳機意味著這種軟件不會受到背景聲音的困擾,在過去這常常是個問題。
那么,為什么沒有更多的人通過語音與電腦進行交互呢?米勒說,人們往往很怕難為情。在辦公室環境,不是每個人都習慣于脫口說出自己的想法和言語,要是只有少數人在這么做,更是如此。
不過,他認為移動設備語音搜索有助于讓語音技術總體上更受歡迎。他表示,最近的一項調查顯示,11%的調查對象稱自己習慣于將Siri用于語音搜索。目前這個比例并不高,但是隨著越來越多的人采用,而且越來越習慣,在辦公室使用語音應用軟件對許多人來說似乎更加切實可行。這將遵循總體趨勢:人們先在家里或私下使用技術,然后希望在工作場所也能使用。
此外,研發人員在探究語音的新用途,尤其是在游戲和娛樂領域(比如在Xbox上開始播放電影)。語音命令在各個場合似乎都很自然,這只是個時間問題。米勒說:“人們很快會發現,同樣可以通過語音控制CAD軟件、個人電腦及其他個人設備和辦公工具。”
值得關注的是,語音硬件在辦公室已經很普遍。任何一臺新購的辦公筆記本電腦都已經內置了視頻會議功能,帶網絡攝像頭和高品質麥克風。當你步入許多公司的會議室,會看到帶高級麥克風的免提電話。新機型甚至會對準講話的那個人,降低背景噪聲。
J. Markowitz咨詢公司的著名語音技術專家朱迪思?馬科維茨(Judith Markowitz)也認為,硬件不是阻礙語音技術在辦公室流行起來的因素。他表示,問題在于讓自然語言命令得到更廣泛的應用。而自然語言命令只是另一種交互方式,就像我們敲打的鍵盤或點擊的圖標那樣。
她說:“語音無法查明是否存在過熱問題,也無法提醒你有約會。那是后端系統或應用軟件的任務。Siri的語音識別部分也沒有這種功能。自然語言理解能力、人工智能和應用程序的功能共同造就了Siri這款出色的個人助理。語音技術把語音輸入轉換成Siri的后端及其他iPhone應用軟件能使用的一種形式。”
馬科維茨表示,如果開發人員決定為企業應用軟件添加語音命令和聲音提醒,語音在辦公室就派得上用場。米勒贊同這個觀點,不過他指出,這有點像先有雞還是先有蛋的情況。開發人員將語音功能添加到應用軟件之前,希望知道企業環境的用戶習慣使用的語音(而且不會妨礙同事),但是只有這些功能廣泛出現,用戶才有可能習慣使用它們。
米勒表示,想讓語言更被辦公室環境的用戶所熟悉,一個簡單的方法就是為企業應用軟件添加語音提醒。比如說,應用軟件可能告訴你數據中心存在一個問題,而不是顯示文本提醒信息。用戶可以根據需要,將提醒由語音方式改為文本方式。
當然,兩位專家都一致認為,語言并不是在每種計算環境下都是最合適的輸入方法。它給藝術家、攝影師、視頻編輯和程序員帶來的幫助不像給普通的辦公室員工、管理人員和IT人員帶來的幫助一樣大。Photoshop中精細的像素級編輯可能根本無法得益于語音輸入,不過人工智能可能會發展到這個程度:我們說“修復照片的左下角1/4部分”,Photoshop就會進行相應的操作。
辦公室周圍的語音
Nuance公司總經理彼得?馬奧尼(Peter Mahoney)認為,遍地開花的云計算將有助于推動語音技術,從電腦擴大到工作場所的其他地方。比如設想一下:能夠使用內嵌式麥克風在會議室口述電子郵件,或者坐在大廳等待時查閱日程表,哪怕你把移動設備落在辦公桌上。
他表示,這一幕要成為現實,語音系統就要連接到其他辦公室系統。比如說,語音系統可能連接到公司的聯系人和日歷系統,知道你的會議日程表(及其他與會者的日程表)。它還可能連接到建筑物的安全和網絡管理系統,那樣它能告訴你是否在辦公室、登錄到辦公電腦上。
互連系統可以在白天收集關于你的數據,而且正如人的大腦保留短期記憶那樣,它會確定你的具體背景。這可能意味著,語音系統知道你晨會要遲到,因為你沒有登錄到電腦上;它可以查閱你的會議日程表,找到相應的一個或多個聯系人,告知你會遲到。
馬奧尼表示,如今這些信息往往是孤立的。但他預測,在今后一兩年,語音技術會逐漸變得有更強的互連性。“它可能會先聯系日歷程序,知道你要會見約翰,然后日歷程序會通過語音聯絡聯系人數據庫。”
米勒表示,許多公司已經在現有的系統中擁有關于聯系人和角色的信息,比如活動目錄列表和人力資源數據;許多公司還有內部建筑圖。那么,到底是什么因素在阻礙這一切呢?
馬奧尼表示,自然語言命令正在改進,但系統不是足夠清楚地明白信息的上下文。他說:“需要構建數據模型,找到人們可能會問的前100個問題,然后找到合適的信息源,以明白那些問題,比如地圖應用軟件。”畢竟,這與Siri等虛擬助理在移動設備上進行的操作沒什么太大的不同:查詢不同的信息源(基于云和本地),找到相關信息,發送提醒信息,等等。
馬奧尼設想,隨著互連系統在將來擴大語音技術的應用范圍,它們還有望改進語音軟件的準確性和理解能力。借助無處不在的云連接,語音系統可以根據你所在的位置、所做的事情、身邊的人以及接下來要做的事,明白你想表達的意思。“即使你沒有明說,系統也知道你想表達的意思。”
鏈接:語音應用軟件如何知道你說的是什么?
Opus Research公司的丹?米勒表示,今天的語音識別系統使用統計語言建模,這本質上是一種最佳猜測,結合你整個句子的上下文,猜測想要說的意思。比如說,今天的系統借助前后單詞,知道你想說的是“you’re”(你是),而不是“your”(你的)。
要是說話者口音重,或者采用罕見的方言,這些系統還是經常無能為力。為了明白這些人說的話,語言系統必須建立一個發音庫、去除任何背景噪音,并不斷拿所說的單詞與已正確識別的那些單詞進行比對。
據語音技術咨詢公司NewSpeech的總裁比爾?肖爾茨(Bill Scholz)博士聲稱,方言和重口音的主要問題是,語音程序并不分析聲音模型以尋找語音方面的變化。他表示,典型的語音合成器可能有幾百萬個聲音樣本,但這還是不足以應對各種方言、不常用的俚語或含糊的話。不過,隨著系統不斷積累更多的語音數據,模型會日趨改善。
關鍵詞 機器人 語音識別 聲學模型 語音特征參數
中圖分類號:TP242 文獻標識碼:A
1語音識別技術的研究意義
人們使用的聲音語言是一種人在特定高度思維和意識活動下的產品。語言是人類最直接以及最理想的交流方式,也是人機通信是最方便的方式。在機器人發展的高級發展階段中,機器人的智能語音識別與人類的活動是密切相關的,有聲語言的人機交互信息成為重要的手段。例如,語音識別獲取外界信息很自然,沒有特殊的訓練方法,隨著機器人技術的發展和廣泛應用,有越來越多的機會來接觸人類和機器人,所以人們希望通過語音識別和機器人去處理,不管誰能能準確安全,方便地操縱機器人。機器人和人類之間的信息交互,表現在兩個方面,一是對更高層次的機器人操作,方便軟件的設計開發,這種多為教學機器人,另一種是在實際操作的要求下完成信息交互任務的機器人。智能機器人作為機器人技術發展的高級階段,其發展趨勢是:不僅要求機器人具有高度的自治能力,還要使機器人和人類之間的協調也具有一定的智能性。這就要求機器人具有不同的高性能主動做事能力,而不是被動地接受任務,為了實現這一目標,自然語言作為人機信息交換將發揮越來越重要的作用。目前,智能機器人已成為機器人研究領域的一個熱點。工業機器人是智能機器人的一個重要研究領域。當今,工業機器人的發展方興未艾,巨大的市場潛力,使真正的工業機器人的已經在市場上嶄露頭角,以滿足人們日益增長的需求,我們不能沒有一個高性能的語音識別系統。由于工業機器人是面向生產實際的需要,最好的工作方式是讓機器人能顧聽懂最常見的人類語言,完成指定的工作,并能與人交流。機器人語音識別是機器人研究領域中的語音識別應用,最終的目標是讓機器人了解人們的口頭語言,然后按照人們的命令來行動或反應,從而形成一個良好的人機對話系統。為了能夠進一步推動智能機器人的開發應用,因此,在語音識別機器人的研究領域中,機器人語音識別系統是工業機器人的實際推廣應用,具有重要的意義。
語音識別技術在智能機器人中的應用已經有很多年的歷史,作為智能機器人的一個分支,工業機器人得到了迅速發展,工業機器人通過語音識別從工業噪聲中提取有效的語音命令。為了實現機器人在一些特殊工業環境中工作的目的,機器人要能夠識別命令意圖。語音識別技術,可以實現人機對話,從而讓機器能模仿人類完成所有工作的分配,使其在各行各業中能夠得以應用。目前所面臨的實際問題是:噪聲和干擾環境下對大型工業機器人的語音識別有嚴重的影響。在機器人識別領域,工業環境中的實時性是一個非常重要的任務。機器人在工業環境下應用的聽覺識別是使智能機器人發展速率低的瓶頸。
2語音識別系統的發展
2.1語音識別系統的發展方向
語音識別系統是基于一套應用軟件系統的硬件平臺和操作系統的一些。語音識別一般分為兩個步驟。第一步是學習或培訓。這一階段的任務是建立基本單元的聲學模型來進行識別和模型的語音語法分析等。第二步是識別或測試。根據識別系統的類型可以滿足一個識別方法的要求,使用語音分析的方法來分析語音特征參數,并建立了比較和測量系統模型,根據一定的標準,鑒定結果。
語音識別系統的應用可分為兩個發展方向,其中一個是大詞匯連續語音識別系統,主要應用于計算機的聽寫機,以及結合電話網或互聯網的語音信息服務系統,這些系統是在計算機平臺上的一個重要發展方向。其次是應用的小型化,便攜式音頻產品,如無線移動電話的撥號,語音控制車載設備,智能玩具,家用電器和其他方面的應用的遠程控制,這些應用系統大多采用特殊的硬件系統來實現,特別是語音信號處理芯片和語音識別芯片,最近幾年快速發展,為其廣泛應用創造了極為有利的條件。
2.2語音識別系統的模型與模式
語音識別系統的核心是聲學模型和模式分類。首先通過學習算法,訓練語音聲學模型的特點是通過學習過程來生成聲學模型,這是識別潛在的模型的前提,是最關鍵的語音識別系統的一部分。聲學模型的目的是提供一種有效的方法來計算特征向量的聲音序列和每個發音模板之間的距離。人的發音在每一刻發音之前和之后都會受到影響。
為了模仿自然連續的協同發音和識別不同的發音,通常需要使用復雜的聲學模型。聲學模型和語言的發音特點的設計是密切相關的。聲學模型單元大小與單詞發音,音節模式和音位語音訓練數據大小有關,故要求其系統識別具有很大的靈活性。大詞匯量語音識別系統,通常采用較小的單元和少量的計算,該模型只有較小的存儲容量,減少訓練數據的數量,但相應的聲音定位和分割問題就顯得更加困難,規則識別模型變得越來越復雜。通常大型模型中識別單元包括協同發音,這有利于提高系統的識別率,但訓練數據也相對增加。必須根據不同語言的特點來識別詞匯,詞匯量大小決定單位大小。
參考文獻
此外,對于超聲科等醫技科室,由于醫生工作的特殊性,大多通過“一對一”聘請專業錄入員的方式提高檢查報告錄入效率。有些醫院為了節約人力,讓醫生把給病人檢查時的語音通過錄音設備錄制下來,后續通過錄入員測聽音頻文件進行轉錄,實現一個錄入員服務多個醫生,以此在一定程度上節約人力,但同時也延長了輸出檢查報告的時間。 在電子文本的錄入過程中基于模板填寫具體信息工作量還是比較大的。
另外,模板僅能解決一些常規情況的描述,如果完全按照模板填寫,對每位患者的情況記錄就缺少了個性化描述,不利于后續診斷使用。為提高文本錄入效率,有些醫生會使用“復制”、“粘貼”方式,通過在相似患者的病歷上進行修改完成病歷記錄,但有漏改、漏刪情況,這種方式在很大程度上增加了病歷記錄的出錯率,對醫療文本錄入的準確性是一個比較大的挑戰。
語音識別技術在醫療領域的應用越來越多
語音識別技術在歐美國家醫療領域已使用將近10年,主要用于節約醫生電子文本錄入的時間,降低文本錄入工作難度,提高醫生工作滿意度,讓醫生把更多時間和精力用在與患者及家俟低交流、為更多患者診斷等事情上。
美國Nuance公司的英文語音識別技術及電腦輔助病歷抄寫系統,醫生可使用掌上移動型設備將病患看診狀況口述下來,存成語音檔案,直接傳送到語音識別服務器,10小時的語音可在5分鐘內完成轉錄,大大縮短音頻文件轉錄文本的時間。皇家飛利浦電子公司推出的面向醫療領域實時語音識別的專用麥克風,表面采用符合醫療專業要求的防菌抑菌材質,并定制了針對實時語音識別所需的聲學硬件模塊,使醫院工作站實時語音識別實現成功應用,并已在歐美醫院成功推廣。在放射科等文本錄入工作量很大的醫技科室尤其受到歡迎。
從統計資料看,美國臨床中使用語音識別錄入的應用比例已達到10%~20%,主要用于放射科、病理科、急診室等部門,有效控制電子文本記錄及診斷報告生成時間和質量,明顯提高工作效率。
語音識別技術是理想的人機交互方式之一,它能夠讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令。北京協和醫院在國內首先提出使用語音識別技術錄入醫療領域電子文本時,醫生紛紛表示擔憂,在國內的醫療中語音識別技術的使用和推廣面臨以下幾個難點。
目前國內主流的HIS系統已做了大量工作減少醫生輸入病歷、醫囑時的工作量,如提供大量結構化的病歷。醫生已習慣這種工作模式。通過語音識別來錄入電子文本,尤其在超聲科、門診等環節,醫生需要一個熟悉過程。
國內醫生的工作環境較復雜,口音等問題也較國外更加突出,醫療特殊單位特殊符號較多,如何保證識別的準確率,讓醫生用的更加流暢,也是這個項目面臨的重要挑戰之一。國內移動醫療的趨勢越來越明顯,基于移動端小屏幕的文本輸入一直是語音識別應用致力于解決的問題。如何保障醫院復雜環境下移動端的語音識別效果是需要探討的問題之一。
由于醫療行業的專業性較強,每個學科差異較大,所使用的信息化系統也比較分散,如影像科使用PACS,內科使用HIS等。需要錄入文字的工作量較大,但使用的信息化系統較多,要求提供的語音錄入文本解決方案,需同時支持多個信息化系統使用,且最大限度降低與原有系統的耦合性。
以上問題,經過為期1年的醫療領域語音識別應用探索和實踐,都得到較好解決,超過95%的中文醫療垂直領域語音識別準確率已達到實用水平,中文醫療語音識別技術探索應用方案得到北京協和醫院醫生認可。
北京協和醫院語音識別應用探索和實踐
醫療語音識別技術的應用,能將醫生口述的語音轉成準確度高、完全格式化的初步文件,醫生可快速加以核對、編輯,每天可節約1小時左右時間。醫生普遍認為語音錄入病歷可提高文字輸入效率,降低工作難度,從總體上提高醫院收容處理病人的能力,同時縮短病人的無效等待時間,增加病人滿意度。
針對中文醫療語音識別的技術難點,北京協和醫院做了很多探索實踐工作。
一是定制醫療領域語言模型:針對各科室業務進行梳理,整理了超過30G的醫療文本資料,并對這些資料進行分類、檢索等處理。使得定制語音模型覆蓋各個科室常用的病癥、藥品名稱、操作步驟等關鍵信息,使語音識別準確率超過95%的水平。 二是定制個性化語言模型:不同科室的醫生在錄入醫囑時說的話也不同。北京協和醫院語音錄入系統和用戶的賬號系統綁定。醫生登錄HIS時會加載所在科室的語言模型,這樣就可以有效降低模型大小,提高識別準確度。同時醫生也可根據自己的使用習慣,向系統中添加自己常用的詞匯。 三是一體化私有建設:實現一套私有化部署的語音云支持多渠道多終端的一體化建設。除支持HIS、PACS等PC端應用,還支持移動查房等pad端應用,真正實現跨平臺的多渠道互聯互通應用,大大降低醫療信息化建設成本。 醫療語音識別系統采用分布式計算,具有高健壯性、高度靈活性、高性價比等特點,主要包括操作系統層、引擎層、資源包和管理工具4個層次。操作系統層提供開發接口,以及開發人員關注的接口定義、功能和使用方法;引擎層提供核心的語音處理功能,作為應用接口的功能實現者;在引擎層之上提供覆蓋醫療領域的資源包,為科室提供語音識別優化的功能。同時系統完美地支持傳統API調用和手機APP開發,為醫院原有信息化系統提供了相關接口和SDK。
北京協和醫院醫療語音識別應用效果初現
據了解,醫療語音識別已在北京協和醫院病房、醫技科室、手術休息區進行了嘗試使用。為更好地測試語音識別效果,北京協和醫院組織醫生進行了語音識別系統測試和主觀體驗,隨機抽樣了135例樣本進行精確統計。
已上線科室使用醫療語音識別系統的醫生表示,該系統的語音識別效果較好,可以有效提高工作效率,降低工作強度,減輕工作量,尤其對長段信息、自由醫囑錄入的效果明顯。超過50%的大夫認為語音識別技術每天可節約1小時左右時間。超過90%的大夫希望使用語音錄入方式,以提高工作效率。
關鍵詞:英語口語;語音識別;英文朗讀;評分機制
語音識別技術使人與機器的交流成為現實,它開創了口語移動學習的全新教育方式,受到越來越多的關注。借助互聯網,移動學習以其學習時間靈活,學習內容豐富、精煉且片段化等特點,開辟了學習的新理念,讓口語學習真正擺脫了時間和空間的限制,使任何人在任何時間、任何地點根據需要進行自主學習成為可能。目前,已有的基于PC的智能英語學習軟件,能提供基于計算機的輔助技術,讓學習者及時得到發音質量評分的智能化功能,但是基于手機端的口語學習應用不多。
本終端是一款基于Android系統開發的,進行英語口語學習的安卓語音軟件。產品結合Google語音識別技術,使用GPRS或WiFi進行移動終端與Google云服務端之間的數據交流,并通過對語音識別結果的處理,最終設計成一個可以進行英語口語專線訓練和自主訓練的應用Oral Storm。
1 研究基礎
Android平臺自底層向上由四個層次組成:Linux內核層、Android運行時庫與其他庫層、應用框架層、應用程序層。它采用軟件堆層(software stack),又名軟件疊層的構架,主要分為3部分:底層以Linux內核工作為基礎,由C語言開發,只提供基本功能;中間層包括函數庫Library和虛擬機(virtual machine),用C++開發,最上層是各種應用軟件。
2 應用架構及功能說明
專項訓練模塊主要是對英語口語比較重要的四個發音類別進行系統訓練,這4個發音類別分別是清輔音、濁輔音、摩擦音和爆破音。在進入訓練界面之前,有對各類發音方法和技巧的介紹,利于用戶方便快速地學習口語的正確發音。我們將每種發音訓練模式中的單詞都分成10個小組,這些單詞都是由學校專業英語教師挑選的有代表性的詞,適合用于英語口語基礎訓練。用戶在進行完每個小組的單詞訓練后,系統都會對用戶的發音作出評價和打分,對經常出現發音錯誤的單詞,用戶可以選擇保存,用于以后專門的訓練。
自主學習模塊是用戶根據自身實際需求進行訓練的板塊。用戶先輸入想要訓練的單詞或語句,如果不知道如何發音,可以求助于應用中的英文朗讀功能。英文朗讀功能是將文本轉換成語音信號,幫助用戶輕松方便地學習每一個英語發音。用戶還可以選擇性地保存輸入的學習內容,方便以后復習使用。
總之,專項訓練模塊針對學生英語學習中的四大類發音難題設計,通過專題式的學習、測試和智能評分,給用戶提供隨身的英語單詞學習和測試環境;自主訓練模塊則專注于為用戶提供可定制的英語單詞學習專題,通過學習內容的自定義給用戶最大限度的學習自由度。
3 研究技術
應用功能的實現主要使用了兩大技術,獲取語音識別技術和語音合成技術。
3.1 獲取語音識別技術
單詞發音練習需要使用Google語音搜索服務,因此必須判斷當前用戶手機是否支持該服務,所采用的方法是通過queryIntentActivities()方法,查詢Android系統所有具備RecognizerIntent.ACTION_RECOGNIZE_ SPEECH的Intent的應用程序,點擊后能啟動該應用。
在Android語音識別應用研究與開發的同時,Google語音服務需要網絡支持,所以也需要判斷當前用戶的網絡連接狀況,在類中寫一方法check--NetWorkStatus()引用ConnectivityManager cwjManager來判斷網絡是否連接正常。
3.2 語音合成技術
語音合成技術,是一種將文本轉換為語音輸出的技術,其主要工作是將文本按字或詞分解為音素,然后將音素生成的數字音頻用揚聲器播放或者保存為聲音文件,然后通過多媒體軟件播放。
Android手機平臺,綁定了英文語音引擎,對英文語音提供內置的支持。要將文本轉換為語音,首先要檢查TTS數據可用,指令TextToSpeech中的Engine ACTION_CHECK_TTS_DATA就可以完成,返回結果為真,表明TTSEngine可以使用。除此之外,還有語音數據損壞和缺少發音數據等原因導致TTSEngine不能使用,這些因素都要考慮。之后是初始化TTS接口,這部分要設置發音語言引擎setLanguage(Locale.US)、發音音量Len(Volume)等。在這個過程中,還需要檢測設置的發音語言類型是否可用。
4 結束語
我們開發的口語學習軟件Oral Storm,可為訓練單詞發音提供專業、智能及終端化的一體化學習和測試環境,專題分類科學、全面,涵蓋了爆破音、摩擦音等發音難點,可在專題學習后提供智能評分和語音糾正。用戶使用這款應用,可以方便快速地學習英語口語的正確發音。
參考文獻
[1] 邢銘生,朱浩,王宏斌.語音識別技術綜述[J].科協論壇:下半月,2010(3):62-63.
[2] 詹青龍,張靜然,邵銀娟.移動學習的理論研究和實踐探索[J].中國電化教育,2010(3):1-7.
[3] 周麗嫻,梁昌銀,沈澤.Android語音識別應用的研究與開發[J].廣東通信技術,2013,33(4):15-18.
[4] 涂惠燕,陳一寧.基于語音識別和手機平臺的英語口語發音學習系統[J].計算機應用與軟件,2011,28(9):64-66.