前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇語音識別系統范文,相信會為您的寫作帶來幫助,發現更多的寫作思路和靈感。
一、引言
語音作為語言的聲學體現,也是人類進行信息交流最自然、和諧的手段。與機械設各進行語音的溝通,讓機器可以明白人類在說什么,并理解這是人類長期的夢想。語音識別技術,也被稱為自動語音識別Automatic Speech Recognition,(ASR),其目標是將人類的語音中的詞匯內容轉換為計算機可讀的輸入,例如按鍵、二進制編碼或者字符序列。語音識別技術的應用包括語音撥號、語音導航、室內設備控制、語音文檔檢索、簡單的聽寫數據錄入等。語音識別技術與其他自然語言處理技術如機器翻譯及語音合成技術相結合,可以構建出更加復雜的應用,語音識別技術所涉及的領域包括:信號處理、模式識別、概率論和信息論、發聲機理和聽覺機理、人工智能等等。
二、語音信號分析與特征提取
1.基于發音模型的語音特征。(1)發音系統及其模型表征。其發聲過程就是由肺部進行收縮,并進行壓縮氣流由支氣管通過聲道和聲門引起的音頻振蕩所發生的。氣流通過聲門時使得聲帶的張力剛好使聲帶發生比較低的頻率的振蕩,從而形成準周期性的空氣脈沖,空氣脈沖激勵聲道便會產生一些濁音;聲道的某處面積比較小,氣流沖過時便會產生湍流,會得到一種相似噪聲的激勵,對應的則是摩擦音;聲道完全閉合并建立起相應的氣壓,突然進行釋放就是爆破音。(2)語音信號線性預測倒譜系數。被廣泛應用的特征參數提取技術的就是線性預測分析技術,很多成功的應用系統都是選用基于線性預測技術進而提取的LPC倒譜系數作為應用系統的特征。LPC倒譜就是復倒譜。復倒譜就是信號通過z進行變換以后再取其對數,求反z變換所得到的譜。線性預測分析方法其實就是一種譜的估計方法,所以其聲道模型系統函數H(z)反映的就是聲道頻率激勵和信號的譜包絡,對IHg(z)作反z變換就可以得出其復倒譜系數。改復倒譜系數是依據線性預測模型直接獲得的,而又被稱為LPC倒譜系數(LPCC)。
2.基于聽覺模型的語音特征。(1)聽覺系統模型。一是人類的聽覺系統對于聲音頻率高低和聲波實際的頻率高低不是線性的關系,它對不同聲音頻率信號的敏感度是不一樣的,也可看成是對數關系。二是關于掩蔽效應指的就是聲音A感知的閉值因為另外的身影的出現出現增大的現象。其生理依據主要是頻率群,對頻率群進行劃分會出現許多的很小的部分,每一個部分都會對應一個頻率群,掩蔽效應就發生在這些部分過程中。所以在進行相應的聲學測量時,頻率刻度一般取非線性刻度。語音識別方面,主要的非線性頻率刻度有Mel刻度、對數刻度和Kon~nig刻度。其中Mel刻度被廣泛的應用,其是最合理的頻率刻度。(2)語音信號Mcl頻率倒譜系數。Mel頻率倒譜系數利用人們耳朵的聽覺特性,在頻域將頻率軸變換為Mcl頻率刻度,再變換到倒譜域得到倒譜系數。MFCC參數的計算過程:
一是對語音信號進行相應的預加重,從而確定了每一幀的語音采樣的長度,語音信號通過離散FFT變換得到其頻譜。二是求頻譜幅度的平方,得到能量譜,并選用一組三角濾波器在頻譜域對能量進行帶通濾波。帶通濾波器中心頻率一般是按照Mcl頻率刻度排列的(間隔為150Mel,帶寬為300Mel),其每個三角形濾波器的兩個底點頻率和相鄰的兩個濾波器的中心頻率相等,頻率響應之和為l。濾波器的個數一般和臨界帶數比較相近,設濾波器數是M,濾波后得到的輸出為:X(k),k=1,2,…,M。
摘 要: 為了提高語音識別的可靠性和高效率性,設計了以“MCU+DSP”的雙CPU結構為核心的語音識別系統,其中以DSP[1]芯片作為硬件平臺的主處理器,完成語音識別所需的計算。MCU用以完成對DSP運算的協助工作,控制機器人各部分動作,其性能達到了實時處理的要求。
關鍵詞: 擬人機器人; 雙CPU; 語音識別系統; 硬件設計
中圖分類號:TP319 文獻標志碼:A 文章編號:1006-8228(2013)01-01-02
Design of hardware of speech recognition system in humanized robot
Liu Renping, Hou Ruizhen, Fang Yinglan, Han Xianfeng
(North China of Technology, Beijing 100144, China)
Abstract: In order to improve the reliability and efficiency of the speech recognition, a speech recognition system based on double CPU of the "MCU+DSP" is designed. The calculations are done by the main processor which takes the digital signal processor (DSP) as the hardware platform. DSP operation is assisted by Micro control unit(MCU), which controls all parts of the robot. Its performance can meet real-time processing's needs.
Key words: humanoid robot; double CPU; speech recognition system; hardware design
0 引言
隨著超大規模集成電路和數字信號處理器(DSP)的快速發展,DSP的應用越來越廣泛,涉及到各個領域如語音處理,圖像處理等方面。現在語音識別中許多復雜算法已經能夠在硬件上實現。最近十多年來,已研發出不少應用于不同領域的便攜式語音識別系統。DSP處理速度快、靈活、精確,滿足了對信號快速、實時、精確處理的要求,所以很適用于語音識別。
1 擬人機器人語音識別方法概述
語音信號分析是語音識別的前提和基礎,只有分析出可表示語音信號本質特征的參數,才可能利用這些參數進行高效的語音通信,才能建立用于識別的模板或知識庫。語音識別率的高低取決于對語音信號分析的準確性和精確性,雖然語音信號具有時變特性,但在一個短時間范圍內其特性相對穩定,因而可以將其看作是一個短時平穩過程。任何對語音的分析和處理均建立在“短時”的基礎上,一般認為語音信號在10-30ms的短時間內是相對平穩的。
擬人機器人語音識別方法如圖1所示,采集到的語音信號輸入后,首先對語音信號進行預處理,預處理主要包括:語音信號電壓放大采樣、反混疊失真濾波、預加重、自動增益控制、分幀、加窗、語音增強、端點檢測以及A/D轉換等環節;然后是信號特征量的提取(本文對信號的特征量進行Mel頻率倒譜系數[2](Mel-Frequency Cestrum Coefficients)處理);最后對建立好的參數模板進行對比,測試的依據是失真度最小準則,如本文用到的動態時間規整DTW[3](Dynamic Time Warping)。
2 系統硬件設計
通過針對擬人機器人的特點,對系統進行分析和方案設計,最終確定本系統的框圖如圖2所示。本系統的硬件基于一個以DSP(TMS320VC5416)為主處理器的硬件平臺,硬件平臺主要包括:語音輸入輸出模塊、主處理器DSP模塊、存儲器模塊、單片機MCU模塊、485串口通信模塊。其中語音輸入輸出模塊實現了語音信號的采集和輸出;主處理器DSP模塊(TMS320VC5416)主要完成語音識別所需的計算,其性能能夠達到實時處理的要求;存儲器模塊包括一片FLASH和兩片SRAM,用FLASH作為DSP的可編程存儲器,SRAM分別作為DSP的數據和程序存儲器;單片機MCU模塊完成對擬人機器人的運動控制;485串口通信模塊實現單片機MCU和PC機之間的通信。
2.1 主處理器DSP模塊介紹
TMS320VC5416(簡稱VC5416)是TI公司的C54X家族的成員之一,它是基于先進的改進哈佛結構的16位定點DSP。它具有C54X的共同特點,高性能低功耗,具有高達160MHz的主頻,核心電壓1.5V,運行于此頻率時功耗僅為90mW;擁有一條程序總線和三條數據總線,片內集成有高度并行性的算術邏輯單元(ALU)、專有硬件邏輯、片內存儲器和片內外設等。
片內可屏蔽ROM中固化有啟動裝載程序(BOOTLOADER)和中斷向量表等。系統上電時,BOOTLOADER自動把用戶代碼從外部存儲器搬移到程序空間。復位以后,中斷向量表可被重新映射到程序空間的任何(128Word)的開始處。為了與慢速的外設通信,VC5416提供了等待狀態發生器,通過軟件設置等待周期的個數,不僅降低了系統硬件設計的復雜性,而且為系統帶來了很大的靈活性。VC5416片內集成了軟件可編程的鎖相環時鐘電路,它只需要一個參考時鐘輸入就可以得到31種不同頻率的輸出時鐘,最大的乘率因子(在寄存器CLKMD中設置)為15,最小的為0.25。這樣,一方面可利用較低頻率的外部時鐘源產生較高頻率的CPU時鐘,另一方面在不工作時可降低CPU時鐘頻率至外部頻率的四分之一,從而降低了CPU的功耗。 2.2 語音輸入輸出模塊介紹
關鍵詞:語音控制;語音識別芯片;單片機;
文章編號:1674-3520(2015)-09-00-03
一、課題背景
學校常會組織我們到貴陽市盲聾啞學校送愛心,與殘障孩子親密互動,今年也不例外。那些殘章的孩子來到這個世界,只能用他們僅存的方式去感知世界萬物,在他們的世界里只有一種顏色,那就是黑色。我不禁想,在學校還有老師的照拂,可他們總有一日要長大,要開啟自己的人生旅程。要是我能為他們做哪怕一點點事,就算只是為他們的家庭生活提供一些幫助也是好的。我想,如果能利用我在機器人社中學到的傳感器、電子電路、單片機等專業知識,對家庭電路進行智能化改造,讓家庭的電路“聰明”起來,使他們能夠聽得懂主人的指令而進行相應的操作,那就可以對有殘障的人和對一些不良于行的病人或老人的家庭生活都能提供很大的便利。于是,有了我的這個設計――基于LD3320的語音識別系統在家庭電路中的模擬應用。
二、模型設計
(一)模塊功能
(二)模型組成
(三)主要電子元件工作原理與功能說明
1、LD3320語音識別芯片
LD3320語音識別芯片采用的是ASR(Auto Speech Recognitio)技術,是YS-LD語音識別模塊的核心。它是對大量的語音數據經語言學家語音模型分析,建立數學模型,并經過反復訓練提取基元語音的細節特征,以及提取各基元間的特征差異,得到在統計概率最優化意義上的各個基元語音特征,最后才由資深工程師將算法以及語音模型轉換成硬件芯片并應用在嵌入式系統中。
LD3320有兩種使用模式,即“觸發識別模式”和“循環識別模式”。可以通過編程,設置兩種不同的使用模式。
觸發識別模式:系統的主控MCU在接收到外界一個觸發后,啟動LD3320芯片的一個定時識別過程,在這個定時過程中說出要識別的語音關鍵詞語。這個過程結束后,需要再次觸發才能再次啟動一個識別過程。
循環識別模式:系統的主控MCU反復啟動識別過程。如果沒有人說話就沒有識別結果,則每次識別過程的定時到時后再啟動一個識別過程;如果有識別結果,則根據識別作相應處理后再啟動一個識別過程。
根據本案模型的設計特點,采用語音觸發識別模式。LD3320芯片最多支持50個識別條目,每個識別條目是標準普通話的漢語拼音(小寫),每2個字(漢語拼音)之間用1個空格間隔。例如表1,只需要把識別的關鍵詞語以漢語拼音字符串的形式傳送進芯片,該芯片已封裝了基于標準普通話的語音模型數據和語音識別算法,無需進行任何語音訓練即可投入開發應用。
2、STM32單片機控制單元
本案模擬系統主控單元采用意法半導體ARM-Cortex架構的STM32F1系列超低功耗單片機作為控制核心。
該單元完成幾大功能:
向LD3320模塊提供時鐘振蕩信號,以驅動片上DSP(數字信號處理器 )工作;
通過SPI(串行外設接口)串行通信方式向LD3320模塊寫入預定義的控制命令拼音串,并讀取語音模塊返回的識別結果編碼;
根據識別結果驅動負載電路(LED單元(發光二極管)、繼電器單元)的動作。
當LD3320模塊完成一次識別過程后,通過中斷請求方式通知主控單元處理,主控單元獲知中斷請求后會暫時中止當前的任務執行,轉而跳轉到中斷服務例程(ISR Route),在該例程中通過SPI總線從LD3320模塊讀取識別編碼,根據識別編碼的不同執行對應控制功能。通過點亮、熄滅指令對應發光二極管或驅動繼電器接通主回路得到運行結果。
3、LED顯示單元
本案模擬系統用六個共陽極發光二極管(LED)來模擬家庭中廚房、工作間、臥室、走廊、衛生間、陽臺的燈泡開關狀況,工作時主控單片機則根據語音命令,采用輸出低電平方式進行驅動點亮。
4、繼電器輸出單元
繼電器輸出單元可接收主控單片機的高低電平控制信號以接通或斷開主回路。主回路根據實際需求可以用于大電壓,交、直流供電的負載驅動。本案模擬系統用繼電器單元實現家庭電扇的通斷控制。
(四)系統軟件開發環境
本案模擬系統的軟件開發只針對STM32F103主控單元進行,軟件代碼完成以下功能:
LD3320底層驅動(對其內部寄存器的讀寫、時序的控制);
STM32F103硬件單元和用戶變量的初始化;
用戶語音命令拼音串的寫入;
中斷服務ISR(完成負載電路的驅動控制)。
軟件開發基于ARM公司的Keil開發環境,完成從代碼編輯到編譯、調試、燒寫一系列過程。
(五)設備成本
三、設備實測
(一)控制命令
LD3320語音識別芯片中最多可以寫入50條語音控制指令,可以根據用戶需要定制個性化的語音控制功能。本案設備的設計初衷是為了探索LD3320語音識別芯片在家庭電路中的模擬應用,故只寫入了比較基本的18條指令。
(二)設備測試
在寫入程序,完成硬件連線并加電復位后,系統即進入運行狀態。向系統說出控制命令(盡可能用普通話, 不過實測時對貴陽本地方言還是有較高識別率),比如說“廚房打開”、“走廊關閉”、“電扇啟動”、“運行流水燈”等命令后,系統會根據識別結果執行對應動作,點亮/熄滅LED或者通/斷電扇運行。
為了更好的檢測語音識別效果,實驗中選擇多個不同音色的人在家庭(比較安靜)環境下分別進行測試,每個詞語測試50遍。部分非特定人的語音命令測試的正確識別數據比例見表4:由上表可知,在家庭(比較安靜)環境下,對于語音命令的平均識別率可達到90%以上。
四、設備優勢與應用展望
(一)設備優勢
1、本案設備成本低、語音辨識率高、響應快速,可以直接安裝于家庭電路中實現語音智能控制。
2、由于LD3320 可以動態編輯的識別關鍵詞語列表,因此其可以應用的范圍大大超過了那些不可以改變識別列表的芯片。
3、可以根據用戶的需求進行控制命令寫入,實現可定制、個性化的智能控制。
(二)應用展望
1、應對家庭生活突發狀況
在本語音識別系統中只是初步嘗試了對用電器通、斷電控制,而在現在社會中有很多的空巢老人,他們獨自生活,如果在家中出現意外或突發疾病,隨時都有可能危及生命。如果在本案系統中可以添加“緊急呼叫”的語音控制,當出現突發狀況時可以使用該功能觸發電話自動撥打物管、救護車、親屬等重要聯系人。或者該控制與小區物管相連,每當有人有緊急呼叫時,物管的終端緊急呼叫燈亮起,并觸發揚聲器發出警報聲,使物管人員迅速到場解決問題。
2、實現家用電器的語音控制
(1)電磁爐/微波爐/智能家電操作
在現在的家電中,各種各樣的設置越來越繁復。用戶在使用過程中,還要不斷地對家電進行功能切換。在引入LD3320 芯片后,可以用語音直接控制這些家電。比如用語音來控制電磁爐把火力調整到“煎炸”或者是“慢燉”。
(2)數碼像框
數碼像框中存放了許多的照片和視頻,同時又具有多種播放的方式。一般是通過按鍵或者遙控器的方式來對其進行操作,但是這樣的操作并不方便。在引入了LD3320 提供的語音識別功能后,用戶可以最自然地用語音去點播想要顯示的照片,或者改變數碼像框的顯示方式。使得這樣的數碼產品更加具有人性化的操作界面。
3、機頂盒/彩電遙控器
隨著數字電視的普及,家庭中可以收看到的電視節目也越來越豐富。大家也就苦于在眾多的頻道中迅速選擇到自己想要看的頻道。在把LD3320 語音識別芯片集成進機頂盒/彩電遙控器后,用戶只需要對著遙控器說出想要看的電視頻道的名字,就可以快速地選擇。比如用戶可以說出“奧運體育”,就可以轉到體育頻道來觀看精彩的體育比賽了。
4、智能玩具/對話玩具
在電視購物中曾經出現過可以人機對話的玩具,比如金福豬,金福狗等。這些玩具采用的語音識別只能支持固定的10 條左右的語音命令,比如“你好”,“我想聽歌”等等。采用LD3320 芯片,可以利用其動態編輯識別關鍵詞語列表的性能,讓玩具實現及其復雜的對話腳本。避免了玩具的嚴重同質化。
(三)公共服務設施的語音控制
1、自動售貨機、地鐵自動售票機等銷售型服務設施
在自動售貨機、地鐵自動售票機等銷售型服務設施中安裝語音操作模塊。人們可以對著售貨機說出要買的商品,比如“可口可樂”或者“面巾紙”投幣后商品就自動售出。在北京、上海等大都市中,外地旅客較多,對地鐵線路不熟悉導致買票時不知道票價也不知道如何購買。有了語音操作界面后,只需要對著售票機說出要去的地方或者想要到達的站點,根據屏幕提示放入紙幣,就可以方便地買到車票。
2、公共照明系統、輔助設施的語音控制
在公共場合幫助殘疾人士、行動不便的老人或小孩非接觸地去控制公共照明系統或輔助設施(地下通道輪椅臺等)的運行。
3、樓宇電視的廣告點播
目前分眾傳媒等公司的樓宇廣告設施,遍布幾乎所有的寫字樓,也在廣告投放上取得了良好的效果。但是目前用戶在接受廣告時,都是被動地去接受信息。對于其中感興趣的廣告,只能是等待下次再看到時進行仔細地了解,沒有辦法進行主動式地廣告查詢。
引入LD3320 語音識別芯片后,用戶可以用語音去方便地查詢想要了解的廣告信息。比如操作樓宇廣告“重新播放”“上一條”來重新觀看一條廣告。或者“汽車”來點播想要看的汽車廣告。
這樣的語音操作,不需要增加額外的鍵盤輸入和觸摸屏輸入,又可以讓用戶與廣告充分互動,取得更佳的效果。
五、結語
使用LD3320 芯片可以在一定程度上完成這樣的語音控制系統,給人們的生活帶來更便利的語音交互界面。作為一種新的人機交互界面,會逐步地走入人們的日常生活,在適合用語音控制的地方給人們提供更多的便利。
參考文獻:
[1]陳喜春.基于LD3320語音識別專用芯片實現的語音控制,[J]. 電子技術設計與應用. 2011年11月
語音識別ASR(Automatic Speech Recognition)系統的實用化研究是近十年語音識別研究的一個主要方向。近年來,消費類電子產品對低成本、高穩健性的語音識別片上系統的需求快速增加,語音識別系統大量地從實驗室的PC平臺轉移到嵌入式設備中。
語音識別技術目前在嵌入式系統中的應用主要為語音命令控制,它使得原本需要手工操作的工作用語音就可以方便地完成。語音命令控制可廣泛用于家電語音遙控、玩具、智能儀器及移動電話等便攜設備中。使用語音作為人機交互的途徑對于使用者來說是最自然的一種方式,同時設備的小型化也要求省略鍵盤以節省體積。
嵌入式設備通常針對特定應用而設計,只需要對幾十個詞的命令進行識別,屬于小詞匯量語音識別系統。因此在語音識別技術的要求不在于大詞匯量和連續語音識別,而在于識別的準確性與穩健性。
對于嵌入式系統而言,還有許多其它因素需要考慮。首先是成本,由于成本的限制,一般使用定點DSP,有時甚至只能考慮使用MPU,這意味著算法的復雜度受到限制;其次,嵌入式系統對體積有嚴格的限制,這就需要一個高度集成的硬件平臺,因此,SoC(System on Chip)開始在語音識別領域嶄露頭角。SoC結構的嵌入式系統大大減少了芯片數量,能夠提供高集成度和相對低成本的解決方案,同時也使得系統的可靠性大為提高。
語音識別片上系統是系統級的集成芯片。它不只是把功能復雜的若干個數字邏輯電路放入同一個芯片,做成一個完整的單片數字系統,而且在芯片中還應包括其它類型的電子功能器件,如模擬器件(如ADC/DAC)和存儲器。
筆者使用SoC芯片實現了一個穩定、可靠、高性能的嵌入式語音識別系統。包括一套全定點的DHMM和CHMM嵌入式語音識別算法和硬件系統。
1 硬件平臺
本識別系統是在與Infineon公司合作開發的芯片UniSpeech上實現的。UniSpeech芯片是為語音信號處理開發的專用芯片,采用0.18μm工藝生產。它將雙核(DSP+MCU)、存儲器、模擬處理單元(ADC與DAC)集成在一個芯片中,構成了一種語音處理SoC芯片。這種芯片的設計思想主要是為語音識別和語音壓縮編碼領域提供一個低成本、高可靠性的硬件平臺。
該芯片為語音識別算法提供了相應的存儲量和運算能力。包括一個內存控制單元MMU(Memory Management Unit)和104KB的片上RAM。其DSP核為16位定點DSP,運算速度可達到約100MIPS.MCU核是8位增強型8051,每兩個時鐘周期為一個指令周期,其時鐘頻率可達到50MHz。
UniSpeech芯片集成了2路8kHz采樣12bit精度的ADC和2路8kHz采樣11bit的DAC,采樣后的數據在芯片內部均按16bit格式保存和處理。對于語音識別領域,這樣精度的ADC/DAC已經可以滿足應用。ADC/DAC既可以由MCU核控制,也可以由DSP核控制。
2 嵌入式語音識別系統比較
以下就目前基于整詞模型的語音識別的主要技術作一比較。
(1)基于DTW(Dynamic Time Warping)和模擬匹配技術的語音識別系統。目前,許多移動電話可以提供簡單的語音識別功能,幾乎都是甚至DTM和模板匹配技術。
DTW和模板匹配技術直接利用提取的語音特征作為模板,能較好地實現孤立詞識別。由于DTW模版匹配的運算量不大,并且限于小詞表,一般的應用領域孤立數碼、簡單命令集、地名或人名集的語音識別。為減少運算量大多數使用的特征是LPCC(Linear Predictive Cepstrum Coefficient)運算。
DTW和模板匹配技術的缺點是只對特定人語音識別有較好的識別性能,并且在使用前需要對所有詞條進行訓練。這一應用從20世紀90年代就進入成熟期。目前的努力方向是進一步降低成本、提高穩健性(采用雙模板)和抗噪性能。
(2)基于隱含馬爾科夫模型HMM(Hidden Markov Model)的識別算法。這是Rabiner等人在20世紀80年代引入語音識別領域的一種語音識別算法。該算法通過對大量語音數據進行數據統計,建立識別條的統計模型,然后從待識別語音中提取特征,與這些模型匹配,通過比較匹配分數以獲得識別結果。通過大量的語音,就能夠獲得一個穩健的統計模型,能夠適應實際語音中的各種突況。因此,HMM算法具有良好的識別性能和抗噪性能。
基于HMM技術的識別系統可用于非特定人,不需要用戶事先訓練。它的缺點在于統計模型的建立需要依賴一個較大的語音庫。這在實際工作中占有很大的工作量。且模型所需要的存儲量和匹配計算(包括特征矢量的輸出概率計算)的運算量相對較大,通常需要具有一定容量SRAM的DSP才能完成。
在嵌入式語音識別系統中,由于成本和算法復雜度的限制,HMM算法特別CHMM(Continuous density HMM)算法尚未得到廣泛的應用。
(3)人工神經網絡ANN(Artificial Neural Network)。ANN在語音識別領域的應用是在20世紀80年代中后期發展起來的。其思想是用大量簡單的處理單元并行連接構成一種信息處理系統。這種系統可以進行自我更新,且有高度的并行處理及容錯能力,因而在認知任務中非常吸引人。但是ANN相對于模式匹配而言,在反映語音的動態特性上存在重大缺陷。單獨使用ANN的系統識別性能不高,所以目前ANN通常在多階段識別中與HMM算法配合使用。
3 基于HMM的語音識別系統
下面詳細介紹基于HMM的語音識別系統。首先在UniSpeech芯片上實現了基于DHMM的識別系統,然后又在同一平臺上實現了基于CHMM的識別系統。
3.1 前端處理
語音的前端處理主要包括對語音的采樣、A/D變換、分幀、特片提取和端點檢測。
模擬語音信號的數字化由A/D變換器實現。ADC集成在片內,它的采樣頻率固定為8kHz。
特征提取基于語音幀,即將語音信號分為有重疊的若干幀,對每一幀提取一次語音特片。由于語音特征的短時平穩性,幀長一般選取20ms左右。在分幀時,前一幀和后一幀的一部分是重疊的,用來體現相鄰兩幀數據之間的相關性,通常幀移為幀長的1/2。對于本片上系統,為了方便做FFT,采用的幀長為256點(32ms),幀移為128點(16ms)。
特征的選擇需要綜合考慮存儲量的限制和識別性能的要求。在DHMM系統中,使用24維特征矢量,包括12維MFCC(Mel Frequency Cepstrum Coefficient)和12維一階差分MFCC;在CHMM系統中,在DHMM系統的基礎上增加了歸一化能量、一階差分能量和二階差分能量3維特征,構成27維特征矢量。對MFCC和能量分別使用了倒譜均值減CMS(Cepstrum Mean Subtraction)和能量歸一化ENM(Energy Normalization)的處理方法提高特征的穩健性。
3.2 聲學模型
在HMM模型中,首先定義了一系列有限的狀態S1…SN,系統在每一個離散時刻n只能處在這些狀態當中的某一個Xn。在時間起點n=0時刻,系統依初始概率矢量π處在某一個狀態中,即:
πi=P{X0=Si},i=1..N
以后的每一個時刻n,系統所處的狀態Xn僅與前一時刻系統的狀態有關,并且依轉移概率矩陣A跳轉,即:
系統在任何時刻n所處的狀態Xn隱藏在系統內部,并不為外界所見,外界只能得到系統在該狀態下提供的一個Rq空間隨機觀察矢量On。On的分布B稱為輸出概率矩陣,只取決于Xn所處狀態:
Pxn=Si{On}=P{On|Si}
因為該系統的狀態不為外界所見,因此稱之為“穩含馬爾科夫模型”,簡稱HMM。
在識別中使用的隨機觀察矢量就是從信號中提取的特征矢量。按照隨機矢量Qn的概率分布形時,其概率密度函數一般使用混合高斯分布擬合。
其中,M為使用的混合高斯分布的階數,Cm為各階高期分布的加權系數。此時的HMM模型為連續HMM模型(Continuous density HMM),簡稱CHMM模型。在本識別系統中,采用整詞模型,每個詞條7個狀態同,包括首尾各一個靜音狀態;每個狀態使用7階混合高斯分布擬合。CHMM識別流程如圖1所示。
由于CHMM模型的復雜性,也可以假定On的分布是離散的。通常采用分裂式K-Mean算法得到碼本,然后對提取的特征矢量根據碼本做一次矢量量化VQ(Vector Quantization)。這樣特征矢量的概率分布上就簡化為一個離散的概率分布矩陣,此時的HMM模型稱為離散HMM模型(Discrete density HMM),簡稱DHMM模型。本DHMM識別系統使用的碼本大小為128。DHMM識別流程如圖2所示。
DHMM雖然增加了矢量量化這一步驟,但是由于簡化了模型的復雜度,從而減少了占用計算量最大的匹配計算。當然,這是以犧牲一定的識別性能為代價。
筆者先后自己的硬件平臺上完成了基于DHMM和CHMM的識別系統。通過比較發現,對于嵌入式平臺而言,實現CHMM識別系統的關鍵在于芯片有足夠運算太多的增加。因為詞條模型存儲在ROM中,在匹配計算時是按條讀取的。
3.3 識別性能
筆者使用自己的識別算法分別對11詞的漢語數碼和一個59詞的命令詞集作了實際識別測試,識別率非常令人滿意,如表1所示。
表1 漢語數碼識別率
DHMMCHMM特征矢量維數2427識別率93.40%98.28%識別速度(11詞)10ms50ms模型大小(1個詞條)1.5KB<5.5KB碼本6KB無對于59詞命令詞集的識別,還增加了靜音模型。由于基線的識別率已經很高,所以靜音模型的加入對于識別率的進一步提高作用不大,如表2所示。但靜音模型的加入可以降低對端點判斷的依賴。這在實際使用中對系統的穩健性有很大的提高。
表2 59詞命令詞集識別率
浮 點定 點無靜音模型98.59%98.28%有靜音模型98.83%98.55%可以看到,在硬件能夠支持的情況下,CHMM的識別率比DHMM有很大的提高,同時識別速度也完全可以滿足使用要求。
關鍵詞:銀行;系統內;差別利率體系;利與弊
銀行實行系統內部的差別利率是有其合理性和重要性的,通過疏通內部的血液循環,才能形成健康的運營機制,從而更好地適應環境,獲得更大的總體效益。
一、銀行實行系統內差別利率的合理性
銀行實行系統內差別利率的必要性體現在以下三個方面:1.大型國有商業銀行擁有的機構是很龐大的,其遍布全國各地,而地區經濟發展是不平衡的,這使得分行或支行之間的存貸情況不平衡。2.各個分行、支行的經營目標和經營裝是不一致的。有的行以經營負債業務為主,有的行以經營資產業務為主,這就需要有一個調節內部資金流動的機制,以滿足各地存款或貸款額度的需求,從而是各行的目標順利達成。3.大型銀行內部各個分行、支行有"貧富差距"的現象,而馬太效應會使經營資金良好的分、支行經營的越來越好,而經營不佳的分、支行會越來越差,這就會形成惡性循環,使大型銀行內部出現嚴重的兩極分化。4.由于信息常常不對稱,總行往往會錯誤地估計銀行總體的資金贏缺情況,從而盲目地在銀行同業拆借市場上進行資金操作,造成資金使用不夠合理,銀行總體效益下降。
二、銀行實行系統內差別利率的基本構成體系
銀行實行系統內差別利率需要各方面的通力配合,形成能夠一個完整的運行體系。
(一)構建網絡基礎平臺
現代化的信息通訊技術可以使得整個銀行系統連成一體,使信息得以及時傳遞、決策者得以有效的決策,大大提高了工作效率。具體而言,即將從總行至支行的一切資金盈余及短缺的情況在銀行內部的網絡中進行和共享,并且隨著各行資金情況的變動隨時變化,使各行可以及時地了解信息,進行資金的調配。同時,也使總行可以通過系統進行調控和監督。
(二)構建銀行內部的拆借市場
在網絡基礎平臺上,各個分、支行可以根據外部資金供求狀況進行內部市場的資金借貸。當分、支行的外部信貸旺盛而內部存款相對不足時,就形成了內部拆借市場的資金短缺方;同理,分、支行的外部信貸不佳而內部存款較多時,就形成了拆借市場的資金盈余方。雙方的資金贏缺情況(包括資金的需求或供給量,相應的貸出利率或可以接受的借入利率區間)在網絡上,雙方可以根據自身情況自行選擇交易對象,并進行磋商,自行確定雙方都滿意的利率(借貸資金價格),完成交易后,實現交割。如果有些分支行還不太了解拆借市場的情況,或是自己的決策能力有限,可以向總行所設立的咨詢建議機構(下面會給出介紹)尋求幫助。該機構會協助相應分、支行提供適合其交易的對象,并一定程度上充當中間人進行幫助磋商。
在市場機制的調節下,資金會自然形成不同的價格,一定程度上形成較為合理的利率。
(三)發揮總行在拆借市場中的參與者和監督者的作用
在市場機制調節為基礎的情況下,還應發揮總行在內部拆借市場中的最大參與者與監督管理者的作用,使市場得以穩定和有序地發展。總行需根據內外部市場的資金供求狀況以及人民銀行的宏觀調控政策,制定內部利率的變動范圍,在靈活的基礎上加以控制。如當國家宏觀經濟政策緊縮時,經營行資金需求不旺,系統內資金市場供大于求,將會導致系統內資金利率水平下降,總行可在市場上大量吸收資金,這樣及抑制了經營行的貸款投放,有一較低的成本充實了總行的資金實力,從而控制信貸風險。反之,當國家采取擴張的經濟政策時,總行可以通過放寬系統內資金拆借權限、增加系統內資金拆借主體、向市場注入資金等手段為資金需求行提供資金,引導資金向高收益領域流動。
(四)構建風險監測系統
通過制定適合自身情況的資金運營指標來對個分、支行以及銀行總體的情況進行監測,并形成一套對于風險指標的客觀的科學的合理的評價體系,使總行和各分、支行應通過指標評價分析及時發現問題并作出反應。
三、銀行系統內差別利率體系的利與弊
實行銀行系統內的差別利率體系有其合理性同時也存在一些弊端。
(一)合理性及其重要意義
1.增強了銀行系統內資金的有效轉移,使資金達到較為合理的利用,同時避免總行盲目向同業拆借市場借款的弊端。
2.使系統內利益分配更加合理,既可以激勵和支持信貸旺盛行的放款業務,也可以使信貸不佳的分、支行優化經營結構,從而使內部貧富差距減小,銀行整體效益提高。
3.此方式增加了總行調控資金的手段,增強了各行適應國家的宏觀調控政策的主動性,從而有利于配合國家的宏觀調控政策的實施。
4.順應市場化的趨勢,內外部機制協調一致,使銀行這類特殊的企業更能適應環境而得以長足有效地發展。
(二)系統內差別利率的弊端
1.資金供給方借此可以得到比單純上存更高的利益,存、借之間的利差減小,這樣會使信貸資源不豐富地區的分、支行更偏重于吸收存款,而信貸資源豐富地區更傾向于放款,使微觀尸體資產負債比例失調,造成業務發展片面。
2.差別利率的可觀收益使得各分、支行更多地從自身利益出發而不及銀行整體的利益。
四、結束語
綜上所述,銀行實行系統內差別利率是有其合理性何必要性的,只有建立系統內差別利率體系才可以疏通內部資金運營,使銀行以一個健康的機體,更加適應環境,從而得以有效地發展。當然,在實踐過程中還會遇到諸多問題,系統內差別利率體系還需要在實踐中逐步地完善。
參考文獻:
[1]戴國強.商業銀行經營學[M],北京:高等教育出版社,1999.