当前位置: CompoTech China > 专题 > 专题报道 >
 

双向开讲,"语音互联网"成形

本文作者:任苙萍       点击: 2021-02-22 11:20
前言:
互联网正从指尖走向舌尖 (语音)。Juniper Research 最新报告指出,2024 年语音助理设备的数量将超过地球人口总数,达 84 亿个,移动设备使用量增加是主要推力。语音控制亦是重要的人机接口 (HMI),包括:手机、智能穿戴设备、虚拟个人助理 (VPA)、智能扬声器、智慧家电,乃至汽车、飞机等交通载具都是应用范畴。日前 2021 CES (国际消费电子展) 亦不乏相关产品亮相,例如:乐金 (LG) InstaView 声控冰箱,以及可与 LG ThinQ、亚马逊 (Amazon) Alexa 或谷歌 (Google) Assistant 等智能产品结合使用的进化版 Magic Remote 智能遥控器。

比触控直观&安全!声控跻身 HMI 主流
值得留意的是,基于音频的健康解决方案与生物辨识验证正在崛起,CES 可见多款智能耳机、助听器大举压境,而音频内容的有效性、高传真度及个性化配置是关键指针。当声控跻身 HMI 主流,"语音互联网"隐然成形,亚马逊和苹果 (Apple) 更抢先投入分析语气、判读情感的研发;脸书 (Facebook) 亦不断深耕语音助理,冀与亚马逊和苹果等先进者互别苗头。与此同时,有人主张语音控制是相对安全的车用 HMI,避免因触控选项而分心。研调公司 Research Dive 表示,组合式车载语音有助于维护驾驶安全。
 
图1:德国 Continental 公司 (大陆集团) 的智能和自适应驾驶员辅助系统可实现自然对话,在一句话中理解多个问题并检测逻辑连接

文本语音转换技术和语音识别 (Speech Recognition) 让驾驶员在操控信息娱乐 (infotainment)/导航系统或使用手机时依然可平视显示器,以确保驾驶员将注意力放在道路上。另有研究指出,未来将有 80% 汽车的 HMI 将集成语音识别系统 (不包括 Apple Siri 等手机应用程序),主要用于控制媒体播放器、设置导航目的地和连接智能手机拨打电话。Research Dive 预估到 2026 年,汽车语音命令系统市值将达 49.9 亿美元,谷歌、苹果和纽安斯通信 (Nuance Communications) 正在改变车载语音。

Apple CarPlay 附加在车辆触控屏幕的安全 iOS 版本,按下方向盘语音按钮,Siri 可在导航、播放列表、发送短信和电邮之间切换;未来还可 Skype 打电话、WhatsApp 发信息或用 Apple Maps 预订晚餐。Google Android 用户可通过 Android Auto 连接 USB 电缆,在车辆仪表板使用手机屏幕、驾驶中靠蓝牙通话;手机插入汽车后,Android Auto 将暂时让手机失能而强迫音控。Nuance 结合赛伦斯 (Cerence) 公司的 Dragon Drive 汽车助理和云台,拥有自然语言模式传播与语音生物辨识能力 (注:Cerence 为 Nuance 分拆公司,专责汽车业务)。

机器学习引领,语音识别大跃进
Nuance+Cerence Dragon Drive 可辨识当前说话者,甚至在用户提出要求前就了解其道路行为并根据需求进行更新,还可与 Google Nest 匹配以学习自动调节房屋的最佳温度设置。受惠于机器学习 (ML) 算法的日新月异,语音识别还能控制先进驾驶辅助系统 (ADAS) 和车内环境,噪声消除和个性化音频亦越发受到关注。蔚来汽车 (NIO)、梅赛德斯—奔驰 (Mercedes-Benz) 和飞亚特汽车 (FIAT) 是产业先行者。2017 年,蔚来发布首款旗舰 SUV ES8 所搭载的"NOMI"(取自英文 Know Me 谐音),被视为全球首个"量产"的车载人工智能 (AI) 系统。
 
图2:蔚来 NOMI 集成语音交互系统和智能情感引擎,要求"有礼貌、会倾听、会思考、知冷暖",创造一种全新的人车交互方式

第一代 NOMI Mate 初试啼声后,2018 年第二代 NOMI Halo 采用光晕+声音的简洁形式实现语音互动,包括:播放歌曲、设置空调、语音搜索、模糊语义和亮度控制等。虽然一度濒临破产危机,蔚来日前所推出的首款自驾车 ET7,仍掳获不少关注目光——凭借四个麦克风数组和专用的网络处理器 (NPU) 内核,NOMI 具有语音识别和准确的声音本地化功能,以实现交互而不中断。梅赛德斯第二代用户体验虚拟助理 MBUX2,沿用 Cerence 对话式 AI 平台控制汽车环境、娱乐和其他系统,支持多国自然语言理解和间接命令。

例如,当用户说"很冷",会自动提升驾驶舱内的温度。驱动程序可使用其他命令继续完成对话框,一次给出多个指引并依序执行,包括触控手写;MBUX2 还借助 Cerence 语音生物辨识注入个性化元素以迎合不同驾驶员喜好。汽车制造商可在 Cerence Studio 平台自定义语音域,为驾驶员创造独特品牌体验,甚至扩展到汽车之外——车主可在开车时使用 MBUX 连接、控制智能家居设备。FIAT 亦选择 Cerence 在第首款纯电动车 FIAT 500 提供对话式 AI,只要听到关键词,就能语音连接与 TomTom 合作开发的功能,不必学习特定语言。
 
图3:只要一声"Hey Mercedes",从导航、多媒体选项到座椅位置和理想温度皆可语音识别,做个性化设置

包括:导航、媒体娱乐、电话、短信、温度控制并访问 Amazon Alexa。先进的文本语音转换功能使 New 500 可自然与驾驶员和乘客交流,以回答问题和完成请求。索尼 (Sony) 今年也在 CES 展示了为其 Vision S 概念车开发的语音识别系统,可配合仪表板上的摄影机读取唇形、脸部表情和手势动作,以增强清晰度和驾驶员语音识别能力,几乎可在任何环境或车款使用 (包括敞蓬车)。整合麦克风、放大器、扬声器和先进数字信号处理等技术,有助于降低背景噪音、使乘客之间的语音沟通更清晰,或在紧急状况时能免持语音拨号。

车载语音四大趋势现踪,维护飞安也用得着!
德州仪器 (TI) 谈到车载语音有四大趋势。一是主动降噪 (ANC) 系统。相较传统降噪技术会让车辆笨重且降低燃料效率,ANC 可显著减轻车体重量,且由于跟音效播放的扬声器是同一个,加装 ANC 系统的新增成本相对较低——在整个车厢内部装设 2~6 个麦克风以测量内部噪音、将音效数据传输至音效子系统,再发出反音效信号到内建扬声器;入门车款约 2~4 个麦克风,高阶车种最多有 8 个。二是车内通信系统。策略性装设 2~8 个麦克风接收每位乘客的声音,主动调整并强化每个人发言、降低不必要噪音,再通过车内音效扬声器系统播送。

三是紧急呼叫 (eCall) 与免持语音系统,通常有 1、2 个麦克风,发生紧急状况时汽车和在地紧急救援服务单位可直接语音沟通;内含一个连网模块,能将麦克风信号数字化并传给报案受理者,对方回复内容则会通过车内专用扬声器播放。免持语音则有 1~8 个麦克风或一整个数组的波束成形麦克风,以提供清晰的语音通话和指令功能。最后一个趋势是:整合前述所有功能的"集中式音效中心",将语音信号数字化并传送到各个音效子系统进一步处理。为此满足不同层次需求,TI 已开发出 PCM6260-Q1 多频道语音模拟数字转换器 (ADC) 系列产品。
 
图4:车载集中式音效中心模块
资料来源:TI 提供

另一方面,由欧盟资助的"VOICI"项目意在借助语音识别和 AI 维护飞航安全——侦听驾驶舱内机组员之间、以及与空中交通管制的所有通信,并加以辨识、解释语音内容,包括了解航空术语的嵌入式座舱语音处理系统及一系列经优化数组处理的低噪声光学麦克风;它还具有语音合成功能,适用于航空术语和噪声水平、应对嘈杂座舱的语音撷取和辨识技术以及智能对话系统。经由飞行员的头戴式耳机和周围的麦克风数组撷取语音,所使用的深度神经网络 (DNN) 和对话系统之语音识别是专为座舱环境开发的独立系统,所有算法已经实现并通过测试。

AI 语音互动走进医疗照护领域
Nuance 的 Dragon 系列另有远程医疗方案——Medical One,全球已有逾 550,000 位医师使用。去年第四季,Medical One 再获美国退伍军人事务部 (VA) 采用。带有 PowerMic 移动麦克风应用程序与云语音识别平台,让 VA 医师可利用电话或 VA Video Connect 平台虚拟问诊。早在 2014 年,基于 Nuance 云台的 Dragon Medical 系统就已打入 VA 标准化系统,可与 VA CPRS 和 Cerner Millennium 应用程序 (联邦政府电子病历解决方案要员) 兼容。如今,医师更可将 Dragon Medical One 附加功能和移动灵活性用于远程医疗服务。

不只医疗诊断,语音识别也开始走进健康辅具领域。"全球首个具备 AI DeNoise 技术"的助听器——Orka One,在微型芯片上运行功能强大的 AI 神经网络,在减少背景噪音的同时增强人声。它还具有蓝牙 5.0,可让使用者微调、自定义听力配置文件,并与电话和智能助理集成,轻松接听来电、请求、命令或从 Apple 设备播放音频。今年在 CES 获得创新奖殊荣的 Oticon More 助听器,则利用板载 DNN 进行 1,200 万种现实生活中的声音训练,并身怀应对空间和功率的能力,可提供完整、精确的声音平衡以实现最佳感知。
 
图5:Oticon More 是首个板载 DNN 的助听器,可更自然地呈现所有声音,提供完整且精确平衡的声音场轻松地景,帮助用户理解语音

另两个夺下创新奖的助听器产品,一是 WIDEX MOMENT 天然声音助听器,一是Starkey Livio Edge AI 助听器。WIDEX MOMENT 结合双 AI 引擎——SoundSense Learn 以两种方式调整助听器,Widex PureSound ZeroDelay 并行处理路径将声音延迟从 7~10 毫秒降至 0.5 毫秒,改善实时聆听效果;通过分析设置及一系列 A、B 比较指导用户了解周围环境偏好,再利用存储在云台的数百万个用户设置协助个性化收听体验。Starkey Livio Edge AI 则是借助动态应用增益、输出、噪声管理、定向麦克风和其他功能,通过 AI 模型优化语音的可听性和音质。

边缘模式可确保为每种环境中的每个人优化声音,对配戴口罩的听障者帮助尤大。此外,荣获"无障碍类别之最佳创新奖"的以色列公司 Voiceitt,开发出一款可让语言和运动障碍患者用自己声音交流的应用程序,使用专有的机器学习和自动语音识别 (ASR) 技术来识别、适应个人独特的受损语音模式,例如:呼吸暂停和非语音,且可与 iPhone、iPad 和 Amazon Alexa 集成以通信、控制智能设备。另一方面,远距工作与在线教学风潮,亦让智能语音互动的关注度跳升;为改善 PC-based 设备的音频/视频通话效果,杜比 (Dolby) 特为此发布"语音"工具。

防疫带旺在线会议&远距教学,各路语音技术争锋
杜比语音 (Dolby Voice) 可消除背景噪声和回声,并自动调整安静或远离麦克风的声音电平,以优化麦克风和扬声器性能;若在线会议的应用程序可提供立体声,就能区分多人声音、使声音更清晰自然,联想 (Lenovo) 最新的 ThinkPad X1 Carbon 和 X1 Yoga 笔记本电脑是最早使用杜比语音技术的系统之一,可利用空间音频技术提供出色的会议体验、分离语音并改善语音助理的语音识别能力。其中,YOGA 笔记本电脑旗舰机还藉 Elevoc Vocplus PC 强化语音和通信体验,已通过 Microsoft Teams Certification、Microsoft Cortana 和 Amazon Alexa 测试认证。
 
  
图6:杜比语音 (Dolby Voice) 可提供沉浸式、自然的会议体验

Elevoc Vocplus PC 是运行于英特尔 (Intel) GNA (高斯神经加速器) 的第三方 AI 语音增强方案,利用监督和数据驱动模仿人类听觉处理机制,并结合 DNN 和信号处理技术从背景噪声智能撷取目标音频,可消除 96% 动态噪音;借助深度学习和麦克风数组,即使在嘈杂环境亦可大幅提升 PC-based 语音助理的唤醒和辨识率。Sony 则结合新的 MAS-A100 波束成形麦克风与 Edge Analytic 设备,开发 AI 远程学习方案,支持 Dante 和以太网供电 (PoE),安装容易、接触点少,且可根据任何要求量身打造教学解决方案。

新型 MAS-A100 吊顶麦克风专为演讲和演讲环境而设计,通过将波束赋形技术与"智能反馈减少器"功能完美结合,可为语音增强和录音提供高级清晰的音频质量功能。在撷取语音的同时,利用 Sony 的高性能数字信号处理和独特算法来抑制不需要的反馈,无需手持或随身佩戴的麦克风、也无需管理电池或设备。麦克风具有双信道输出,可同时录制大范围区域,以捕获说话者和学生的声音;捕获语音后,麦克风的自动增益控制功能会自动调整输出音量,使其与演示者所在的位置无关,并使演讲和演示文稿更易于收听。

同样着眼于防疫商机,TDK 的 Chirp CH201 超音波飞时测距 (ToF) 距离传感器结合微机电 (MEMS) 压电微机械超声换能器 (PMUT) 和低功耗混合信号专用芯片上的数字信号处理器 (DSP),可在任何光照条件下 (包括全日照以完全黑暗) 提供最远 5 公尺的"毫米级"精确距离测量,与目标的颜色和光学透明度无关。与 CH101 匹配,CH201 具有可配置视场 (FoV) 和灵活的DSP,能处理多种超音波信号处理算法。Chirp 提供完整传感器应用程序编程接口 (API) 和参考设计,可与支持蓝牙低功耗 (BLE) 的微控制器 (MCU) 集成追踪方案或保持社交距离。