电子信息产业发展基金设立了“大规模分布式语音智能处理软件研发及产业化”项目,对“百项共性关键技术”中的面向云计算环境的语音处理技术进行支持,旨在通过本项目的实施,研发云计算环境下的大规模分布式语音合成技术、语音识别技术、语音交互工程技术等;开发具有语音合成、语音识别、声纹识别等处理能力的大规模分布式智能语音处理软件,使得各种设备可以通过网络方便地获得远程语音服务,提升产业竞争力。共安排国拨资金800万元,总投资2570万元,组织了科大讯飞、赛迪牵头的2个团队进行联合技术攻关和产品研发。
突破关键技术
围绕大规模分布式语音智能处理技术,完成了一系列关键技术突破,具体包括:
分布式语音合成技术。研发完成了适合大规模分布式计算的语音合成模型训练、语音生成算法,构建完成了与语种无关的语音合成系统,为3G及移动互联网下分布式的语音应用和服务提供语音合成技术的核心支撑。
分布式语音识别技术研究。本项目从大规模分布式语音应用出发,提出了特征模型域综合噪声补偿的抗噪方法、多流特征的区分性模型训练方法、支持百亿量级超大规模语言模型的实时解码算法,解决了3G及移动互联网下语音识别领域环境噪声鲁棒性、口音适应性、说话内容普适性等技术难题,语音识别系统在实际移动终端应用中准确率达到实用要求并大规模应用推广。
智能语音计算处理工程技术研究。完成了面向网络的分布式环境下进行并行计算、网络计算和高效计算等运算模式等智能语音计算处理工程技术研究,并基于服务器集群的大规模海量数据处理能力对语音合成与识别系统核心模型效果进行了优化。
通过关键技术的攻克,团队开发出了具有高自然度语音合成、高准确度的语音识别及声纹识别等处理能力的大规模分布式智能语音处理软件,具备高稳定性、高效率的语音合成及识别引擎,支持Windows、Linux、UNIX、Android、iOS等不同平台的操作系统,能够提供高效、稳定、易于管理维护的大规模语音服务,并为开发者提供统一的调用界面和应用支撑。支持大规模语音应用环境下的高效率协同,实现高扩展性的网络语音应用接口。该项技术共申请并受理发明专利15项,获得软件著作权4项。
通过该项目的实施,持续提升了项目承担单位的创新能力,加强了自主创新体系布局,加快建立中国特色技术创新体系;加强了人才队伍的建设,通过开展智能语音技术领域的国际交流与合作,将国内外语音及语言技术领域创新资源整合,为国家凝聚和培养一批语音及语言技术创新人才。
提高了企业管理水平,通过将质量管理体系关键指标纳入项目考核等措施,提升项目过程管理水平;开拓了新业务新市场,利用信息技术领域创新产品的推广和应用,推动语音技术改造传统产业、带动相关产业的发展。
三大领域率先应用
截止到2012年9月底,由大规模分布式智能语音平台提供服务的移动应用下载和激活数量已经超过9000万,覆盖移动终端数目超过5700万,并最终为国内上亿移动互联终端用户提供语音交互能力。基于大规模分布式智能语音平台的相关产品已日益广泛地应用于电信、金融、手机、家电、车载等社会生活的方方面面。面向云计算环境的语音处理技术依托项目通过整合我国语音技术的研究资源,攻克了一系列行业技术难题,并通过产业推广应用,实现研究成果更大范围的共享。同时,项目对家电、汽车电子、呼叫中心等传统产业转型升级具有显著的带动作用。
家电领域。语音交互技术可让各种设备实现能听会说的功能,通过大规模分布式语音智能处理技术的应用,提升了家电使用的便捷性和人性化。项目承担单位科大讯飞公司与目前国内六家电视厂商(占市场份额80%)均达成实质合作,包括TCL、海信、长虹、康佳、创维、海尔等;并已经成功地和格兰仕、美的、三洋(合计市场份额超过90%)合作,并推出了业内第一台语音微波炉;不仅如此,和海尔、格力等正在开发第一台智能语音空调,预计年内产品上市。
汽车电子领域。通过大规模分布式语音智能处理软件的使用,实现了移动互联网环境下车载导航设备的路况、地名等信息播报和兴趣点语音查询,解决了车内信息获取的方便性和安全性的刚性需求;讯飞已经和国内主要的汽车电子厂商及车厂包括奇瑞、江淮、上汽、奥迪、德尔福、大陆电子、哈曼等建立了合作,上汽集团已经将语音功能作为荣威新车型的主要卖点。
呼叫中心领域。利用大规模分布式语音智能处理软件,提供了海量语音数据的处理能力,实现了电信级的语音合成、识别与转写服务功能,为中国呼叫中心等行业应用降低运营成本,拉动产业商机,已广泛应用于电信、银行、社保、税务、铁路、电力等众多行业和应用领域,科大讯飞在国内主流行业呼叫中心市场份额超过80%。(中国信息化)
声明:绵阳市场信息网内容版权所有,未经许可不得转载。