本方法屬于模式識別技術(shù)范圍。
利用通用頻譜分析儀對語言進(jìn)行頻譜分析,并進(jìn)行識別,其系統(tǒng)價格昂貴,識別率不高。如俞鐵成,通用實時語音識別系統(tǒng)-RTSRS(01),物理學(xué)報,1978,No.5。清華大學(xué)計算機工程與科學(xué)系語音識別科研組,應(yīng)用微處理機識別語音,清華大學(xué)學(xué)報,第21卷,第3期,1981年。
本發(fā)明提出一種有效地壓縮語譜數(shù)據(jù)的方法,以推動語音輸入的應(yīng)用。
本方法具有如下特點:①識別率高,利用本方法對0-9十個數(shù)字的自然發(fā)音(非電報發(fā)音)進(jìn)行識別,連呼1200次,識別結(jié)果錯2次,識別率達(dá)99.8%;對牡丹江-北京-廣州128個快車站各進(jìn)行識別(無挑選)連呼1152次,錯26次,識別率達(dá)97.7%。②每單詞語音特征所占內(nèi)存少,僅24字節(jié)。③方法簡單,可在一般微處理機上移植本方法。
語音特征的提取和識別方法如圖1所示。各部分簡述如下:
①提取原始語譜矩陣
語音信息經(jīng)頻譜分析儀做予處理后送給計算機,軟件以10ms周期對語音信息采樣,并且自動判定語音開始和結(jié)束:當(dāng)連續(xù)采得10組高于門檻的數(shù)據(jù),即認(rèn)為語音開始。當(dāng)連續(xù)采得10組低于門檻的數(shù)據(jù),即判定語音結(jié)束。
一旦判定語音開始,就將采得的一組16個數(shù)據(jù)做為矩陣的第一行,16個數(shù)據(jù)對應(yīng)240Hz-6500Hz的16個頻道,第二次采得的數(shù)據(jù)做為矩陣的第二行,語音結(jié)束前得到N行,構(gòu)成N×16原始語譜矩陣A:
②數(shù)據(jù)處理與特征抽取
通過非線性分塊,將時間規(guī)劃成m塊,對孤立調(diào)匯,常取m=6,即規(guī)劃成6塊。信息變化激烈的部分該塊取組數(shù)少一些,反之則取組數(shù)多一些,用以反映語音變化緩急情況的是矩陣D:
dH=Σj=116]]>|aH,j-aH+1,j|
dH大者,說明以H時刻到H+1時刻語譜變化激烈,反之則變化緩慢。以下式為分塊尺度(分六塊時):
△D=1/6ΣH=1N-1]]>dH
滿足下式時第一塊從第一行到P1行:
ΣH=1P1-1]]>dH+1/2dP1<△D≤ΣH=1P1]]>+1/2dP1+1
滿足下式時,第二塊從P1+1行到P2行
ΣH=1P2-1]]>+1/2dP2<2·△D≤ΣH=1P2]]>dH+1/2dP2+1
第六塊從P5+1行到N行(P5為第5塊末行),分塊之后進(jìn)而用取平均辦法,使:bi=1/(Pi-Pi-1)Σk=Pi-1Piak,j]]>
式中,Pi為第i塊末行
由bi,j組成的矩陣B,即為分塊處理后所得矩陣:
接著按頻道軸四值化,先由bi,j算得bi:
bi=1/16Σj=116]]>bi,j
并使
由Ci,j組成的矩陣C即為一個單詞語音的特征矩陣:
③特征存貯與識別
矩陣C為6×16的矩陣,每個元素為0或1、2、3,僅占2bit,整個矩陣為24字節(jié)。若是訓(xùn)練,該矩陣做為樣板,存入樣板區(qū)構(gòu)成樣板字表;若是識別,則將該矩陣與樣板區(qū)的每一個樣板一一匹配,進(jìn)行相似性測量,并以歐幾里德和切比雪夫距離為匹配距離,距離最小者即判定為識別結(jié)果,最后用打印機打印或電視屏幕顯示。
三、語音信息的預(yù)處理
語音信息預(yù)處理的硬件框圖和線路如圖2所示稱為頻譜分析器電路各部分原理和作用簡述如下:
①低通濾波器
設(shè)計低通濾波器的目的,其一是為了濾除噪聲和干擾,保留語音中的有用信號;其二是對語音信號進(jìn)行予放大,因話筒輸出的語音信號一般只有幾毫伏~十幾毫伏,通過本級放大了100倍,低通濾波器由兩級一階濾波器串聯(lián)而成,串聯(lián)后的頻率特性如圖3所示。
②高頻補償電路
考慮到漢語語音中的輔音部份頻率高而能量小的特點,為了使系統(tǒng)能接收輔音信息而人為地將高頻部分加以提升。該部分頻率特征如圖4所示。
③自動增益控制電路
考慮到說話聲音大小和離話筒遠(yuǎn)近時有變化,致使輸入信號也隨之變化,對系統(tǒng)工作不利,為使系統(tǒng)工作在合適的動態(tài)范圍內(nèi),特設(shè)置了本級自動增益控制電路。本級輸出與輸入的關(guān)系呈對數(shù)曲線形式,如圖6所示,通常工作在特性曲線拐彎點以上A、B段,使發(fā)音強弱變化對系統(tǒng)性能影響盡可能小。
④16通道濾波器
16個帶通濾波器采用相同的結(jié)構(gòu),不同的電阻參數(shù),每一路的電路如圖5所示。
本級將語音信號按頻率分解成16路送給計算機,16路的中心頻率為(Hz):240、380、530、660、770、900、1080、1280、1470、1620、1900、2120、2520、3250、4550、6500。
⑤16通道檢波器
將16通道濾波器輸出的不同頻率的語音信號分量,變成各自相應(yīng)的直流信號,最后通過A/D轉(zhuǎn)換,變成數(shù)字量送給計算機。
本發(fā)明可與微處理機構(gòu)成語音識別系統(tǒng),如電話聲控查號、漢字語音輸入、聲控郵包分揀系統(tǒng)等等。在組成實際系統(tǒng)時,根據(jù)語音輸入的特點、發(fā)音人、話筒等,仔細(xì)調(diào)整軟、硬件中的參數(shù),以得到最佳識別。必達(dá)到識別率高方法簡單,應(yīng)用范圍廣,取得良好的效果。
一種語音特征分塊提取方法把聲音信息經(jīng)任何頻率相當(dāng)?shù)念l譜分析裝置做譜分析。
圖1是語音特征的提取和識別方法的框圖。首先獲取原始語譜矩陣,再進(jìn)行數(shù)據(jù)壓縮和特征抽取,以獲得樣板數(shù)據(jù)。在識別方式下,還要進(jìn)行相似性測量,比較判決后得出識別結(jié)果。
圖2是語音信息予處理的硬件框圖和原理圖。話筒輸入的語音,依次在各部分中進(jìn)行處理,最后可得到16通道譜的幅度,進(jìn)而送到A/D轉(zhuǎn)換。其中,低通濾波器的頻率特性如圖3,頻率復(fù)蓋范圍是100Hz到7K。
高頻補償電路的頻率特性如圖4,此為設(shè)計特性。信號被提升的起始頻率為880Hz,斜率為6db/倍頻程。
圖5是帶通濾波器電路圖。
圖6表示了自動增益電路的輸出與輸入的關(guān)系。調(diào)整系統(tǒng)參數(shù),使其在有語音輸入時,工作點在A與B之間。
1、一種語音特征分塊識別方法,其特征在于該識別方法是把每一塊內(nèi)各通道的語譜用四值表達(dá)。
2、按照權(quán)利要求1所述的識別方法,其特征在于該識別方法接語音攜帶的信息特點作線性分塊和非線性分塊。
3、按照權(quán)利要求1所述的識別方法,其特征在于該識別方法通過歐幾里德(Euclid)距離和通過求切比雪夫(Chebyshev)距離,對特征樣板做相似測量來判別結(jié)果。
4、一種語音特征分塊提取方法,其特征在于該提取方法把聲音信息經(jīng)任何頻率相當(dāng)?shù)念l譜分析裝置做譜分析。