语音识别是什么 语音识别声学特征介绍 语音识别技术百度百科
时间:2023-08-24 06:26:56

语音识别,什么是语音识别

语音识别


(资料图片)

与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。

语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。

语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

通过语音控制各种设备、与电脑进行直接的交流是人类长期以来的梦想。在许多描述未来世界的电影、小说中,语音识别几乎成为了人工智能的代名词。从上世纪四十年代开始,随着数字技术尤其是电脑的飞速发展,语音识别技术成为了科学研究的热点。到八十年代,语音识别技术开始了从实验室到产品的转移。

东芝在语音识别技术领域的研发,开始于上世纪七十年代,目前已经形成了以东京-剑桥-北京为中心的全球研发体系,开发出了包括中、日、英、法、德等十四种以上语言的语音识别系统。东芝中国研发中心,从二零零一年成立以来,致力于中文(包含粤语及各种方言)语音识别技术的研发,开发了高性能的中文语音识别引擎,

语音识别技术支持不同层次的系统要求:

1. 高鲁棒性嵌入式语音识别引擎,可以应用到各种电子设备,从而利用语音来完成电子设备的自动控制等。特别在车载环境下,利用语音来控制各种设备的"hand-free"模式已经成为语音识别技术最重要的应用之一。

东芝的嵌入式语音识别引擎结合了高性能语音端点检测技术、语音增强技术和特征补偿技术,并采用了噪声免疫训练,可以在各种噪声环境下工作;特别针对汽车背景噪声优化,在极低信噪比环境下仍可使用。该引擎无需特别训练即可供不同说话人使用,并特别针对不同地方口音进行优化,可以同时支持不同口音的说话人。除了可以完成高精度的命令词识别,东芝的嵌入式语音识别引擎支持大词汇量的地址识别,结合在线文法生成功能和语音标签功能,使得声控的汽车导航成为现实。此外,该引擎还支持中文数字串识别和人名识别等,可以轻松完成声控拨号/定位任务。引擎采用了高效的搜索算法和声学模型压缩等技术,可以在资源十分有限的条件下工作,目前已经应用到多款汽车导航系统中。

2. 语音对话系统和翻译系统中的语音听写引擎。结合语音识别/合成和机器翻译技术,不同语言间的自动语音翻译已经成为可能。

东芝的语音翻译系统,目前已经支持中、英、日三国语言的互译。作为其中重要的模块之一,我们开发了高性能的中文语音听写引擎(大词表连续语音识别系统)。该系统采用了噪声鲁棒性技术,可以应用到不同环境中。声学模型训练中采用了区分性训练,并针对不同地方口音进行了优化;高性能的自适应技术,可以在无监督的模式下有效提高对不同口音和环境的适应能力。该引擎支持大词汇量的语音听写,并提供了用户词典功能;具有高可移植性,可以为不同领域快速定制识别引擎。

常用的一些声学特征

* 线性预测系数LPC:线性预测分析从人的发声机理入手,通过对声道的短管级联模型的研究,认为系统的传递函数符合全极点数字滤波器的形式,从而n 时刻的信号可以用前若干时刻的信号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之间达到均方差最小LMS,即可得到线性预测系数LPC。对 LPC的计算方法有自相关法(德宾Durbin法)、协方差法、格型法等等。计算上的快速有效保证了这一声学特征的广泛使用。与LPC这种预测参数模型类似的声学特征还有线谱对LSP、反射系数等等。

* 倒谱系数CEP:利用同态处理方法,对语音信号求离散傅立叶变换DFT后取对数,再求反变换iDFT就可得到倒谱系数。对LPC倒谱(LPCCEP),在获得滤波器的线性预测系数后,可以用一个递推公式计算得出。实验表明,使用倒谱可以提高特征参数的稳定性。

* Mel倒谱系数MFCC和感知线性预测PLP:不同于LPC等通过对人的发声机理的研究而得到的声学特征,Mel倒谱系数MFCC和感知线性预测 PLP是受人的听觉系统研究成果推动而导出的声学特征。对人的听觉机理的研究发现,当两个频率相近的音调同时发出时,人只能听到一个音调。临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界,当两个音调的频率差小于临界带宽时,人就会把两个音调听成一个,这称之为屏蔽效应。Mel刻度是对这一临界带宽的度量方法之一。

标签:

最新
  • 语音识别是什么 语音识别声学特征介绍 语音识别技术百度百科

    语音识别,什么是语音识别语音识别与机器进行语音交流,让机器明白你说

  • 江西农大要改名“共产主义劳动大学”?校方回应

    近日,一则网帖称江西农业大学老校门施工,将大学校门上的校名“江西农

  • 华阳集团(002906):客户结构持续改善 加大研发储备长期动能

    华阳集团(002906):客户结构持续改善加大研发储备长期动能

  • 8月22日国内原油期货跌0.16%

    8月22日国内原油期货跌0 16%---中国经济网北京8月22日讯今日,上海国际

  • 深圳:3宗宅地成功出让 成交总金额54.22亿元

    中国质量新闻网讯(高玉婷)近日,深圳公共资源交易公共服务平台发布公

  • 萧然(关于萧然简述)

    ,你们好,今天0471房产来聊聊一篇然,然简述的文章,网友们对这件事情

  • 华为辟谣网传3.2万名科学家正式移籍

    近日,网络上多家平台发布了针对华为公司的系列言论,经证实,该系列言

  • 首艘“绿色甲醇”动力货船开航

    科技日报北京8月21日电据英国《新科学家》网站8月19日报道,世界上第一

  • “深海一号”完成首次超深水海管清管作业

    科技日报北京8月20日电中国海油8月20日宣布,“深海一号”大气田顺利完

  • 要不黄金再跌一周?

    值得注意的是,上周五黄金并没有创造新低。这个信息点应该是今天很多人

  • 葡萄成熟了(关于葡萄成熟了简述)

    ,你们好,今天0471房产来聊聊一篇萄成熟了,萄成熟了简述的文章,网友

  • 张碧晨我是歌手时间有泪(张碧晨我是歌手)

    大家好,小乐来为大家解答以上的问题。张碧晨我是歌手时间有泪,张碧晨

  • 张若昀《庆余年2》截图公布:坐在陈萍萍轮椅上

    8月17日,张若昀在《庆余年2》的新剧照中坐在陈萍萍同款轮椅上,展现出

  • 2023年糠醛概念相关上市公司有哪些?(8月16日)

    2023年糠醛概念相关上市公司有哪些?(8月16日),南方财富网为您整理的

  • 阿尔卡拉斯上演逆转 首进ATP辛辛那提大师赛四强

    原标题:阿尔卡拉斯上演逆转首进ATP辛辛那提大师赛四强央视网消息:北

  • 医疗影像设备龙头迎来超700亿巨额解禁!60只解禁股下周来袭,7股上半年业绩向好,这些个股机构关注度高

    联影医疗下周解禁市值超700亿元。下周A股解禁市值超1770亿元证券时报·

  • 旅游
    • 西安市临潼区举办“文旅对话”活动

    • 男子网恋女友竟是昔日狱友,诈骗案判刑多少年

    • 重庆980多万亩水稻陆续成熟 机械化助力秋收

    • 上半年机械工业增加值同比增长9.7%