千家信息网

跟机器语音交互的时候到底发生了什么?

发表于:2025-11-24 作者:千家信息网编辑
千家信息网最后更新 2025年11月24日,智能语音交互是基于语音输入的新一代交互模式,通过说话就可以得到反馈结果。可以理解为人类与机器间通过自然语言完成信息传递的技术。语音交互的完整流程,如下图所示。通常,根据距离远近语音交互场景可分为两种:
千家信息网最后更新 2025年11月24日跟机器语音交互的时候到底发生了什么?

智能语音交互是基于语音输入的新一代交互模式,通过说话就可以得到反馈结果。可以理解为人类与机器间通过自然语言完成信息传递的技术。

语音交互的完整流程,如下图所示。

通常,根据距离远近语音交互场景可分为两种:

近场语音场景:通常通过按键激活,例如智能手机等便携设备。

远场语音场景:通常通过唤醒词激活,例如智能音箱等固定设备。

远场语音场景下,在产品策略上通常会采取两种方案,以提高唤醒的准确率:

将唤醒词的音节长度增加到 4 音节。这是因为音节越长,唤醒的准确率就会越高。比如:"小兴小兴"的唤醒准确率远高于"小兴"。

白天只对唤醒词做本地校验,夜间则再增加云端二次校验。这是唤醒速度和准确率间的平衡策略。

白天用户更看重响应速度,发生偶尔的误唤醒用户能理解或接受,这时候仅由本地的唤醒检测模块进行快速检测,保证 700 ms 内快速响应用户。

晚上睡觉时用户对误唤醒是零容忍的,这时候就要偏重唤醒的准确度,将本地检测过的语音上传到云端进行二次确认,再决定本地是否响应。

语音识别阶段的主要作用是采集用于语音,并将语音转换为文字,该阶段主要做两件事情:

1. 寻向降噪。

寻向的作用就是判断用户方向,由用户方向的麦克风采集语音数据,保证语音的数据是最清晰的。降噪是对环境音进行消除,提高识别准确率。

2. 识别语音并转换成文字。

为提高特定内容的识别率,一般都会提供热词服务,配置的热词内容实时生效,并且会提升 ASR 结果的识别权重,在一定程度上提高 ASR 识别的准确率。

语义理解就是尝试理解人类的语言,即把语音识别的结果转成结构化的、机器能够理解的语言。

NLU 的工作逻辑是将用户的指令进行 Domain(领域)→ Intent(意图)→ Slot(词槽)三级拆分。

例如:"设置一个明早 8 点的闹钟"这样一条指令,经过 NLU 处理,用户的指令则被拆分为如下三级:

领域:"闹钟"

意图:"设置闹钟"

词槽:"明早 8 点"

先决策。机器在对话过程中不断根据当前的状态决策下一步应该采取的最优动作。

再执行。如提供结果,询问特定限制条件,澄清或确认需求,调用各种 Skill 技能(AI 时代的 App),从而最有效的辅助用户完成信息或服务的获取。

NLG 的主要目的是降低人类和机器之间的沟通鸿沟,将非语言格式的数据转换成人类可以理解的语言格式。简单的 NLG 可以将数据进行合并处理,而高级的 NLG 则可以理解数据想要表达的意图,并考虑上下文,呈现出可以轻松阅读的内容。

目前在一些有比较明显规则的领域中,比如体育新闻,已经可以借助 NLG 进行新闻的自动发布了。也许你现在正在看的一篇文章就是由机器生成的~

将文字内容转换成语音输出,让机器跟我们对话。这涉及到两个过程:

将从文字内容转换成语音输出,让机器说话。

合成语音:狭义上专指根据音素序列(以及标注好的起止时间、频率变化等信息)生成语音,广义上它也可以包括文本处理的步骤。

家庭中语音交互的主要应用场景包括:语音查询资讯、语音控制播放、语音免提拨号、语音控制家电等。

缩略语:

ASR:Automatic Speech Recognition,自动语音识别技术

NLU:Natural Language Understanding,自然语言理解

DM:Dialog Management,对话管理

NLG:Natural Language Generation,自然语言生成

TTS:Text To Speech,从文本到语音

NLP:Natural Language Processing,自然语言处理

IPTV:Internet Protocol Television,网际协议电视

OTT:Over The Top,通过互联网向用户提供各种应用服务

IMS:Interactive Multimedia Service,交互式多媒体服务

IOT:Internet of Things,物联网

本文来自微信公众号:中兴文档 (ID:ztedoc)

语音 用户 机器 语言 准确率 内容 场景 数据 文字 结果 自然 自然语言 处理 服务 人类 信息 意图 指令 智能 闹钟 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 网络安全监测公司 哪家的服务器可以搭建代理ip 金盘图书管理软件服务器注册码 远程管理服务器登录密码 软件开发中如何找客户 宏信证券高端版无法连接服务器 注入判断数据库类型 突破行为管理服务器 三级网络技术移民 能成为软件开发人员的专业 完善信息网络安全管理制度 web服务器的工作原理 游戏服务器管理一般是什么岗位 攻城掠地怎么选服务器 网络安全监测中心建设 数据库服务器和磁盘阵列关系 若迁移一个数据库 国家网络安全宣传周汕头 数据库网络通讯原理 上位机软件开发用什么工具 软件开发环境的集成机制 perl 开发数据库实例 网络安全和信息化系 软件开发项目文档怎么写 网络安全宣传周 覆盖 武汉网络安全基地什么时候动工 甘肃网络视频服务器云主机 网络安全应对培训 终端服务器安全层在协议流 魅族4pro音乐服务器
0