多媒體中控系統(tǒng)的語音控制功能準(zhǔn)確性如何提升?
多媒體中控系統(tǒng)的語音控制功能準(zhǔn)確性提升可以從多個方面入手。
首先是技術(shù)融合,將麥克風(fēng)和攝像頭結(jié)合,通過分析視頻中人物特征來判斷語言指令的真實性。在接收語言指令時記錄時間段,調(diào)取對應(yīng)圖像數(shù)據(jù),判斷語言指令與圖像的一致性是否大于 80%,大于就執(zhí)行指令并反饋,否則詢問是否執(zhí)行。
而且要利用車載麥克風(fēng)終端采集指令并記錄時間段,系統(tǒng)控制器端獲取圖像采集實時數(shù)據(jù),分析駕駛員或乘客臉部姿態(tài)和口部變化,識別控制指令信息并判斷與語言指令是否一致。
其次,選擇特定神經(jīng)網(wǎng)絡(luò)模型,對網(wǎng)絡(luò)權(quán)值初始化。監(jiān)控用戶語音控制信號輸入,對輸入信號預(yù)處理,經(jīng)特征提取后送入訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)得到識別結(jié)果。判斷與系統(tǒng)預(yù)存語音控制指令是否匹配,不匹配且準(zhǔn)確率低就重新訓(xùn)練網(wǎng)絡(luò)模型。
在使用技巧方面,要清晰發(fā)音,使用標(biāo)準(zhǔn)普通話,避免方言或口音。使用簡潔指令,熟悉系統(tǒng)支持的指令范圍,保持車內(nèi)安靜。
從技術(shù)層面,要定期更新系統(tǒng)軟件,進(jìn)行個性化設(shè)置,選擇合適麥克風(fēng)位置,避免使用含糊不清詞匯。
在端點檢測上,采用基于短平均過零率和短時間平均幅度的方法,利用短時幅度判斷語音端點,輔以短時過零率校準(zhǔn),兩者結(jié)合更精確判斷語音端點。特征參數(shù)提取使用 mfcc,它具有更強(qiáng)抗干擾能力,更適合車載環(huán)境。
最新問答




