智能家居语音控制解决方案

方案设计 |

12-31 09:38:36

阅读4310

在智能家居给人们带来便捷生活的同时，人们的控制习惯逐渐发生改变。语音技术的发展也为控制入口做了一个补充，在抛去了传统遥控器和手机APP之后，通过口令发送让家居环境达到舒适状态，让生活更便捷智能，这是否会成为智能家居行业下一个阶段的普遍应用？今天小编在这里就为大家讲解一下目前语音控制技术存在的问题，以及成熟的语音控制技术应用的解决方案。

智能家居语音控制技术

与机器进行语音交流，让机器明白你说什么，这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。

语音识别是一门交叉学科，语音识别技术与语音合成技术结合使人们能够甩掉键盘，通过语音命令进行操作，语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

目前语音控制技术存在的问题

目前，对于语音控制类的智能硬件产品在很多场景下因语音交互体验不如人意而深受诟病，究其原因主要是受限于空间距离、背景噪音、其他人声干扰、回声、混响等多重复杂因素，进而导致的识别距离近、识别率低等明显痛点。

除此之外，单是中国语系、方言和口音就相当多，加上中文的多语义性，所以不同地区的人使用语音控制识别率差异较大。同时，在语义识别上，也存在上下文的关联带来识别的学习难、定位难和建立模型难等问题。

智能家居语音控制解决方案

科大讯飞作为中国最大的智能语音技术提供商，在智能语音技术领域有着长期的研究积累，并在中文语音合成、语音识别、口语评测等多项技术上拥有国际领先的成果。对于智能家居语音控制的应用，必须解决好距离、效率、个性化、方言、唤醒等问题，科大讯飞在这些方面都有非常成熟的解决方案。

距离：远场识别技术打破距离瓶颈

近场识别技术目前已经比较成熟，现在手机上使用的语音输入功能就属于近场识别技术，用户必须在离手机比较近的距离内说话，但在智能家居环境中，用户和智能终端之间的距离被大大增加了，用户能随意用语音控制智能家居的一个必要条件就是在无论你在客厅哪个角落发出指令，设备都能准确的识别，语音识别技术必须突破距离的障碍。

目前室内的语音交互受到背景噪音、其他人声干扰、回声、混响等多重复杂因素影响，导致识别率低甚至无法使用，只能在相对安静、近距离的环境下使用。而远场识别技术将能够很好的解决这些问题。

科大讯飞于2015年3月发布远场识别技术，是目前唯一支持超过5米的语音识别技术，突破了语音交互距离瓶颈，大幅度改进了语音交互的自由度。该技术利用麦克风阵列的空域滤波特性——在目标说话人方向形成拾音波束（BeamForming），抑制波束之外的噪声，结合独特的去混响算法，最大程度的吸收反射声，从而达到去除混响的目的，用户在客厅的任意角落通过语音操控智能家电已成为现实。

效率：快速反应实现秒懂

近年来，随着深度学习理论的爆发式发展及其在语音识别领域获得的显着效果，同时Kaldi等开源语音识别工具也在工业界和学术界逐渐普及，语音识别的门槛持续降低，许多公司都具备了语音识别的能力及相关产品，但是一些产品反应慢，说出一句话往往要等待很久才能显示结果，另外，准确率也不高，存在识别不出来的情况。

针对语音识别准确率和响应速度的问题，科大讯飞持续在核心技术和产品特性上做出创新，在把国际领先的深度神经网络技术引入语音识别的基础上，基于深度神经网络的语音增强算法对输入语音进行“识别关键信息无损”的降噪，通过海量训练语料基础上的高精度声学模型和语言模型训练，并结合极致的解码引擎工程技术，实现了在很小延迟的情况下，做到将去除原始语音的噪声干扰和识别几乎同时，大大提高了语音输入的响应速度和用户体验，在大词汇连续语音识别率上可以达到95%以上，命令词识别率达到99%以上，解码引擎可以在用户说完话40毫秒之内给出结果，真正实现“秒懂”。

个性化：自动学习适应用户使用习惯

每个人在说话时，口音、语速、口头禅都不一样，那么家里的智能设备只会识别一些基本词句显然是远远不够的，它们必须要更懂你。比如，懂你的口音、方言、口头禅以及时不时蹦出的专业词汇等。

让智能设备适应每个人的使用习惯可能吗？答案是肯定的。这里要用的到就是语音识别的另外一项关键技术——个性化识别技术。个性化识别指的是语音识别系统具备自动学习并适应用户使用习惯的能力，你用的越多，它越懂你。一般来说，个性化识别包括发音和语言两方面。其中发音个性化主要是指系统对用户语速、口音等发音习惯的学习，而语言个性化主要是指系统可以对用户的特定词汇，例如人名、地名、口头禅、专业词汇等，具备更好的辨识性。

目前科大讯飞的个性化识别技术已能针对每个人的兴趣点、知识背景等来进行个性化语言模型建模，从而准确识别出个性化的词汇内容。以后你用的越多，语音识别系统就会越懂你。

方言：无拘束随心控制

众所周知，中国的语音及语言博大精深，虽然国家在推广标准普通话方面不遗余力，但是中国真正掌握标准普通话的人群比例还是比较低的，而中国的口音现象则是纷繁复杂，同城市中不同口音的情况也很常见。因此，当这些带有或轻或重口音的人群在使用语音输入时，如果按通常的方法使用标准普通话数据进行模型的训练，就会产生很严重的适配问题，从而影响语音输入时的识别效果。

“方言”现在也不再是语音识别的障碍，得益于各类方言丰富的音频数据、特殊词汇、发音现象等专业资源以及充分利用深度神经网络的自学习特色，目前，讯飞输入法已经陆续支持四川话、河南话、东北话、天津话等15种方言识别，这些方言识别能力同样适用于智能家居环境中。以后，无论你使用普通话还是方言，无论你说话语速快还是慢，普通话标不标准，在家里都能自由地使用语音控制智能设备。

语音唤醒：真正解放双手

由于功耗等方面的限制，智能设备很难24小时都保持在激活状态。因此，要想在家里自由地控制智能家居设备，我们还需要能即时“唤醒”功能，也就是给智能设备加入“语音唤醒”技术。

语音唤醒，是指通过含有特定唤醒词的语音输入来“触发”语音识别系统以实现后续的语音交互。通过该技术，任何人在任何环境、任何时间，无论是近场还是远场，面向设备直接说出预设的唤醒词，就能激活产品的识别引擎，从而真正实现全程无触控的语音交互。

除了说单个唤醒词实现唤醒外，更自然便捷、在技术上更具有挑战性的交互方式是在连续语流中带上唤醒词，以实现唤醒产品并同时实现操控的效果。目前，语音唤醒方案已在部分产品中取得成功应用，比如在灵犀语音助手中，说出“灵犀灵犀，打电话给张三”就可以唤醒设备并自动完成人名识别与拨打电话。

以上便是小编为各位朋友提供的智能家居语音控制解决方案，希望想要对此了解的朋友能够有一定的参考价值，如果以上信息对您有用，或者您想要了解更多相关信息，请继续关注我们智和家，谢谢！