什么是語音識別語音識別的方法
什么是語音識別語音識別的方法
語音識別技術(shù)所涉及的領(lǐng)域包括信號處理、模式識別、概率論和信息論、發(fā)聲機(jī)理和聽覺機(jī)理、人工智能等等。那么你對語音識別了解多少呢?以下是由學(xué)習(xí)啦小編整理關(guān)于什么是語音識別的內(nèi)容,希望大家喜歡!
語音識別的簡介
與機(jī)器進(jìn)行語音交流,讓機(jī)器明白你說什么,這是人們長期以來夢寐以求的事情。中國物聯(lián)網(wǎng)校企聯(lián)盟形象得把語音識別比做為“機(jī)器的聽覺系統(tǒng)”。語音識別技術(shù)就是讓機(jī)器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高技術(shù)?!≌Z音識別技術(shù)主要包括特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)三個方面。語音識別技術(shù)車聯(lián)網(wǎng)也得到了充分的引用,例如在翼卡車聯(lián)網(wǎng)中,只需按一鍵通客服人員口述即可設(shè)置目的地直接導(dǎo)航,安全、便捷。
語音識別的方法
語音識別方法主要是模式匹配法。
在訓(xùn)練階段,用戶將詞匯表中的每一詞依次說一遍,并且將其特征矢量作為模板存入模板庫。
在識別階段,將輸入語音的特征矢量依次與模板庫中的每個模板進(jìn)行相似度比較,將相似度最高者作為識別結(jié)果輸出。
語音識別的主要問題
?、睂ψ匀徽Z言的識別和理解。首先必須將連續(xù)的講話分解為詞、音素等單位,其次要建立一個理解語義的規(guī)則。
⒉語音信息量大。語音模式不僅對不同的說話人不同,對同一說話人也是不同的,例如,一個說話人在隨意說話和認(rèn)真說話時的語音信息是不同的。一個人的說話方式隨著時間變化。
?、痴Z音的模糊性。說話者在講話時,不同的詞可能聽起來是相似的。這在英語和漢語中常見。
⒋單個字母或詞、字的語音特性受上下文的影響,以致改變了重音、音調(diào)、音量和發(fā)音速度等。
?、淡h(huán)境噪聲和干擾對語音識別有嚴(yán)重影響,致使識別率低。
語音識別系統(tǒng)的實現(xiàn)
語音識別系統(tǒng)選擇識別基元的要求是,有準(zhǔn)確的定義,能得到足夠數(shù)據(jù)進(jìn)行訓(xùn)練,具有一般性。英語通常采用上下文相關(guān)的音素建模,漢語的協(xié)同發(fā)音不如英語嚴(yán)重,可以采用音節(jié)建模。系統(tǒng)所需的訓(xùn)練數(shù)據(jù)大小與模型復(fù)雜度有關(guān)。模型設(shè)計得過于復(fù)雜以至于超出了所提供的訓(xùn)練數(shù)據(jù)的能力,會使得性能急劇下降。
聽寫機(jī):大詞匯量、非特定人、連續(xù)語音識別系統(tǒng)通常稱為聽寫機(jī)。其架構(gòu)就是建立在前述聲學(xué)模型和語言模型基礎(chǔ)上的HMM拓?fù)浣Y(jié)構(gòu)。訓(xùn)練時對每個基元用前向后向算法獲得模型參數(shù),識別時,將基元串接成詞,詞間加上靜音模型并引入語言模型作為詞間轉(zhuǎn)移概率,形成循環(huán)結(jié)構(gòu),用Viterbi算法進(jìn)行解碼。針對漢語易于分割的特點(diǎn),先進(jìn)行分割再對每一段進(jìn)行解碼,是用以提高效率的一個簡化方法。
對話系統(tǒng):用于實現(xiàn)人機(jī)口語對話的系統(tǒng)稱為對話系統(tǒng)。受目前技術(shù)所限,對話系統(tǒng)往往是面向一個狹窄領(lǐng)域、詞匯量有限的系統(tǒng),其題材有旅游查詢、訂票、數(shù)據(jù)庫檢索等等。其前端是一個語音識別器,識別產(chǎn)生的N-best候選或詞候選網(wǎng)格,由語法分析器進(jìn)行分析獲取語義信息,再由對話管理器確定應(yīng)答信息,由語音合成器輸出。由于目前的系統(tǒng)往往詞匯量有限,也可以用提取關(guān)鍵詞的方法來獲取語義信息。
看過“語音識別的方法”的人還看了: