行业动态

Industry Trends

这是一篇从声学系统工程师与蓝牙嵌入式工程师双重视角出发,对“混馈TWS耳机(入耳+半入耳)”的深度技术分析。文章所指的“混馈”包含双重融合:物理声学形态上融合入耳式的声耦合与半入耳式的开放舒适性,降噪架构上采用前馈与反馈的混合设计。

---

### 混馈TWS耳机的声学与系统工程:融合入耳式与半入耳式架构的深度剖析

在TWS耳机形态高度同质化的今天,入耳式与半入耳式各自拥有一套近乎矛盾的优劣清单。入耳式凭借前腔的密闭获得优秀的被动衰减和扎实的低频,却长期受困于闭塞效应、耳压不适和听诊器效应;半入耳式以无感佩戴和自然通透见长,却因严重的声学泄漏导致低频滚降,且主动降噪几乎失效。为了打破这一僵局,一种融合两者优势的“混馈”架构应运而生。它并非简单的折中,而是一场精密的多物理场调控与实时信号处理的系统工程。

#### 1. 物理声学边界:可控泄漏与混合腔体

混馈TWS在结构上的核心,在于构建一个介于“密闭”与“开放”之间的声学边界。

**前腔与导管的浅入耳设计**:扬声器单元的前腔通过一个较短的声导管将能量导入耳道。不同于传统入耳式依赖深入耳道的硅胶套实现完全密封,混馈耳机采用类椭圆形的柔性裙边或浅耳塞,仅对耳道口形成轻度贴合。这产生了非理想的声学密封,其等效电路中的声泄漏质量主要取决于贴合缝隙。这种设计故意引入了从耳道到外界的可控泄漏路径。

**后腔的声顺调节**:扬声器后腔设计有精密阻尼的泄气孔,用以调整系统的声顺比。通过控制后腔泄漏量,可以显著压低扬声器中低频段的谐振频率处的阻抗峰,降低振膜在闭塞环境下的非线性摇摆,从而在物理层面直接抑制闭塞效应。当佩戴者咀嚼或行走时,耳道压力变化可通过前腔泄漏路径和后腔泄气孔被迅速平衡,从根源上消除了“听诊器效应”。

**声学频响特性**:在该混合腔体下,扬声器到耳道参考点的传递函数呈现出鲜明的“半开放”特征。2kHz以上的中高频,由于波长较短,耳道口的不完全密封仍能提供可观的被动隔声。而在200Hz以下的低频段,声短路效应显著,频响曲线存在一个随泄漏量变化的低频滚降拐点。与完全开放的半入耳相比,该拐点频率更低(通常从300Hz下移至80-150Hz),这意味着保留了部分被动低频能量,为后续的主动降噪和动态补偿留出了宝贵的信噪比空间。

#### 2. 混馈降噪系统:鲁棒性与深度之间的博弈

在这种“半开放”声学环境下部署混合式主动降噪,是混馈TWS工程落地最具挑战的部分。

**混合拓扑与反馈路径的限制**:系统的拾音端包含一颗环境前馈麦克风和一颗置于前腔出音口附近的耳内反馈麦克风。反馈回路试图在耳道参考点构建一个负反馈闭环,以抵消残余噪声。然而,由于混馈结构引入的泄漏,次级路径 \( G(z) \)(从扬声器到反馈麦克风的传递函数)在不同佩戴力度下会发生剧烈的幅频与相频变化。在松佩戴导致的高泄漏场景下,低频灵敏度陡降,\( G(z) \) 的相位旋转极易使基于固定反馈滤波器 \( H(z) \) 的 Nyquist 曲线包围临界点,引发高频啸叫。

**反馈鲁棒性设计策略**:为避免振荡,工程师无法按照紧密贴合时的路径设计满幅反馈深度。必须采用“最坏情况设计”原则:在一系列带泄漏的仿真耳(如带可调泄漏夹的IEC711耦合器)上,对次级路径群延迟和增益波动进行蒙特卡洛分析,划定 \( H(z) \) 的模值约束上限。实践中,反馈滤波器主要负责20-800Hz的降噪,且在高泄漏状态下其降噪贡献会被保守削弱,将主要的降噪性能负载转移至前馈通路。

**前馈与反馈的协同解耦**:前馈滤波器 \( W(z) \) 依据初级路径 \( P(z) \) 和次级路径 \( G(z) \) 的相对关系,利用参考信号生成反相噪声。在混馈架构中,系统必须实时感知佩戴泄漏状态。通过反馈麦克风与扬声器在无声片段发射的低频探测序列,DSP可在线估计耳道输入阻抗,从而推断当前泄漏量。根据泄漏等级,系统无缝混合或切换多组预设的 \( W(z) \) 和 \( H(z) \) 系数,实现宽频降噪深度与稳定性裕度的动态最优解。

#### 3. 自适应泄漏补偿与通透模式融合

混馈耳机的半开放属性为听感一致性及环境交互带来了新的可能。

**泄漏感知的动态EQ**:当用户变换佩戴姿势或说话导致耳机轻微松脱时,低频听感会因泄漏变化而忽薄忽厚。基于实时辨识的泄漏等级,DSP触发互补动态EQ:泄漏增加时,低频增益平滑提升;进入密闭状态时,低频增益平缓回落。这种补偿必须严格限制在扬声器振幅和THD的安全区内,避免在大补偿量下产生可闻失真。

**基于自然透传的增强通透**:由于物理结构本身具有空气传导特性,混馈耳机在不开通通透模式时已有接近半入耳的自然听感。当启用增强通透模式时,前馈麦克风拾取的环境声被叠加至音频链路。此时,算法的核心任务是补偿因耳道贴合与麦克风封装导致的高频频响不平坦,通过精细化IIR补偿网络恢复出一个平直、无染色、低时延的声场,同时利用非线性处理器消除扩音环路中的本底噪声。

#### 4. 风噪与通话的挑战

半开放的壳体和额外的麦克风开孔使得混馈TWS对气流噪声异常敏感。

**风噪的物理与算法抑制**:前馈麦克风必须配备迷宫式或网栅式机械湍流抑制结构。在算法层面,利用前馈与反馈麦克风拾取到的次声频段风噪高相关性,结合环境噪声的低相干性,在子带域判别风噪强度。一旦风噪过限,ANC环路会快速降低前馈贡献,同时切换到仅反馈或低降噪模式,防止风噪被反馈回路采样并扩音放大。

**通话降噪**:语音拾取采用双麦波束加骨传导传感器融合方案。由于混馈结构耳道口封堵不严,近端语音有向外泄漏,这对波束成形的回声参考构成污染。需要部署针对泄漏路径的额外自适应回声消除器,将扬声器播放的回声和耳道泄漏出的回声一同抑制,保证上行通话清晰。

#### 5. 蓝牙平台与DSP的系统约束

实现上述复杂实时处理,对蓝牙音频SoC的设计提出了严苛要求。

**算力与时序**:混馈ANC需要并行运行双路麦克风ADC、自适应滤波器更新、多组双二阶IIR滤波、动态EQ和频带分割。滤波器总阶数很容易突破数百阶,且反馈环路的群延迟必须控制在15-20微秒以内才能支撑到2kHz的有效降噪带宽。这迫使ANC处理路径必须脱离主CPU内核,在专用硬件加速器中以极低延迟完成。

**存储与无缝切换**:多组针对不同泄漏级别的降噪滤波器系数、动态EQ曲线和通透模式参数需常驻于高速缓存,以支持场景切换时低于10毫秒的平滑过渡,避免出现可闻的爆音或声场突变。左右耳在独立工作或主从切换时,必须通过蓝牙链路实时交互佩戴状态和自适应参数,保持双耳降噪深度与音色的一致性。

**低延迟编解码的协同**:在游戏或通透模式等场景,系统总延迟极大影响用户体验。结合LE Audio的LC3编解码,可将无线传输延迟压缩至20毫秒级,配合内部低延迟音频通路,使通透模式的环路延迟足够短,避免产生梳状滤波效应或回声感。

#### 6. 测试验证与工程评价

混馈TWS的声学验证远比传统耳机复杂。电声测试必须使用带可调泄漏机构的仿真耳,在多种模拟佩戴工况下逐一测量被动衰减、主动降噪曲线及THD。设计验证的通过标准不仅是单次紧佩戴下的降噪深度,更要在松佩戴、移位、振动等边界条件下,全程无振荡、无负降噪放大。指向性的高频噪声在浅入耳结构下的入射角敏感度,也是声学结构校验的关键指标。

混馈TWS耳机是一个精密的平衡系统,它用复杂的声学结构换取佩戴舒适与降噪性能的并存,用高性能信号处理对抗由此引入的不确定性。它既要求声学工程师对泄漏路径和腔体耦合有微观建模能力,也要求蓝牙算法工程师在有限的硅面积和功耗预算内,设计出能够实时自适应、鲁棒控制的多模态音频流水线。这一架构正在重新定义何种形态的耳机,才能承载下一代无损音频、空间音频与全场景智能交互的使命。


广播音箱正从传统的定压喇叭、公共广播系统,向无线化、个人化、高品质化演进。尤其在蓝牙 LE Audio(低功耗音频)广播功能(Auracast)标准化之后,一对多音频分发拥有了全新的工程实现路径。站在声学工程师和蓝牙工程师的双重角度,广播音箱已不再只是“能响的盒子”,而是一个融合电声换能、信号处理、无线协议栈与射频系统的精密节点。下文将围绕其声学设计逻辑、蓝牙广播协议机理、以及二者在实际工程中的协同展开深入分析。

---

## 一、广播音箱的声学工程目标

传统公共广播关注语音清晰度,背景音乐广播则兼顾频率带宽与主观听感,而基于蓝牙无线广播的音箱还需为近场个人接收设备(如蓝牙耳机、辅听器)提供参考音源,因此声学设计要求更系统。

### 1. 换能器与箱体设计取向

广播音箱通常追求宽水平覆盖、可控垂直指向和高声压级。常见方式有:

- **全频单元+被动辐射器/倒相管**:用于中小型吸顶或壁挂广播箱,利用一个 4~6.5 英寸全频单元覆盖 100 Hz~15 kHz。箱体通过倒相管将低频截止频率下延,同时利用 DSP 对低频做高通滤波,避免单元在谐振频率以下产生大振幅失真。

- **压缩驱动器+恒定指向号角**:在需要长距离投射和严控反射声的大型空间,采用压缩驱动器加载号角。号角轮廓经 BEM 仿真优化,使波束宽度在分频点附近保持恒定,减少声染色。

- **线阵列或多单元垂直排列**:通过声学耦合控制垂直波瓣宽度,将声能集中于听众平面,提高直达声混响声比,从而提升语言传输指数(STI)。

箱体设计必须严格避开障板衍射引起的频率响应峰谷。借助边界元法优化箱体圆角半径与单元布局,使障板阶跃的过渡平滑,减少轴向频响波动。

### 2. DSP 声学处理

广播音箱几乎都内嵌 DSP 音频链:ADC → ASRC → 多路分频/均衡 → 限幅器 → DAC → 功放。几个关键模块:

- **均衡与房间自适应**:除针对换能器原生频响的非线性均衡(如精确到 1/12 oct 的 PEQ)外,还会预置几种安装模式(壁挂、角落、开放空间)的滤波器。一些系统通过内置测试麦克风进行扫频,自动拟合房间低频驻波的反向滤波器。

- **动态范围控制(DRC)与限幅**:为保护单元免受过载损坏,同时维持广播响度一致,使用多段动态处理器。对于语音广播,有专门的“话音模式”压缩,提升 2~5 kHz 存在感并抑制齿音。

- **延迟管理**:在大型分布式广播中,DSP 可对各音箱的输出延迟做精确到采样点的设置,以便对齐声波到达时间,避免梳状滤波和回声感知。

### 3. 语音清晰度与音乐还原的平衡

广播最核心的指标之一是 STI(语言传输指数)。为使 STI > 0.6(良好)甚至 0.75(优秀),必须在 500 Hz、1 kHz、2 kHz、4 kHz 等频段的调制传递函数(MTF)上保持较高值。声学设计需要降低混响半径内的早期反射声能量,并保证高频具有合适的指向性。在同时需要音乐还原的广播场景,低频下潜和谐波失真要兼顾,此时会采用专门的“音乐/语音”混合调音曲线,并利用心理声学响度模型进行优化。

---

## 二、蓝牙广播协议的技术骨架

从蓝牙 5.2 开始引入的 LE Audio 定义了全新的广播音频架构,它以广播等时流(BIS,Broadcast Isochronous Stream)为基础,为公共广播提供标准化的无线分发机制。

### 1. 广播音频的角色与拓扑

在典型部署中,广播音箱充当“广播源”(Broadcast Source),它不需要与接收端建立传统 ACL 连接,而是持续发出包含音频数据的广播 PDU。任何附近进入接收模式的蓝牙设备(耳机、智能手机、辅助听觉设备)都可同步并解码。可扩展的“广播助手”设备负责扫描空中广播源、提供带外发现信息并协助接收端配置,但并不介入音频流本身。

### 2. 等时流传输与时间调度

广播音频的本质是周期性的等时数据流。链路层将音频数据打包为 BIS PDU,在每个 ISO 间隔(通常 5~20 ms)内通过预先计算的信道映射进行跳频发送。为了让多个接收端可靠解码,广播源提供周期性的广播同步训练序列和 BIS 控制信息,接收端据此调整本地时钟恢复,实现频率和定时同步。

- **时隙与重传**:每个 BIS 事件内可能包含若干子事件,用于重传(可配置重传次数)。系统需在鲁棒性与空中时间占用之间权衡。重传次数高可提高丢包容忍,但会拉高占空比,限制广播源数量。

- **加密与广播码流**:广播音频可携带加密密钥,供经过授权的接收设备解密。公共广播可采用标准广播码流 ID,允许任意接收,也可以采用带密码的受限广播,满足商业秘密或会务场景。

### 3. LC3 编解码器的关键特性

LE Audio 强制采用 LC3(Low Complexity Communication Codec)编解码器。它能在 160~345 kbps 区间提供高音质,支持 8/16/24/32/48 kHz 采样率,帧长 7.5 ms 或 10 ms。对广播音箱而言:

- **编码延迟**:LC3 算法延迟通常为帧长加上少量的前向分析窗,典型端到端编码器-解码器延迟可控制在 20~30 ms 左右,适合实时扩声和语音广播。

- **抗丢包机制**:LC3 内置帧内差错隐藏和丢帧补偿,结合 BIS 的重传,在信道质量波动时依旧可维持主观音质。

- **算力与功耗**:复杂度较低,可在单颗蓝牙 SoC 的 DSP 核上并行多路编码,为广播源提供多语言流或不同音频频道的并播。

### 4. 射频与天线设计考量

2.4 GHz ISM 频段拥挤,广播音箱的天线设计直接影响有效覆盖半径。工程师通常采用分集天线、PIFA 或偶极子结构,结合阻抗匹配网络将驻波比控制在 1.5 以下。发射功率在法规限制内(通常 Class 1,+10 dBm 或 +20 dBm,视地区而定),并通过动态功率控制减少功耗与干扰。链路预算需留出足够余量,应对人体遮挡和多径衰落——尤其在人员密集空间,采用空间分集可提升 3~6 dB 等效灵敏度。

---

## 三、声学与蓝牙广播的协同设计

真正有挑战性的工作发生在声学系统与无线系统的交界面。

### 1. 延迟一致性

当广播音箱自身放音(如通过 D 类功放驱动单元)与发送蓝牙广播信号同时进行时,两者的播放时刻必须对齐。功放链路的延迟(DSP 处理+功放+声传播)通常在 1~5 ms 量级,而蓝牙广播链路的延迟(LC3 编码+射频发送+接收端解码缓冲)可能在 20~40 ms。如果不对齐,现场听众听到的直接声会与耳机内广播声出现明显的时间差,导致回声感知或哈斯效应错乱。因此,DSP 会对本地放音链主动加入延迟缓冲,将本地音轨与蓝牙广播音轨对齐到同一参考时钟(通常从蓝牙主时钟或网络时钟源派生)。这个对齐精度通常需控制在 ±5 ms 以内。

### 2. 射频自扰与屏蔽

广播音箱内部的大功率 D 类功放、开关电源会产生宽频电磁干扰,尤其可能对 2.4 GHz 接收灵敏度产生影响。PCB 布局需要严格的数模分区、屏蔽罩覆盖、去耦设计,功放输出 LC 滤波器要抑制高频载波泄漏。蓝牙天线应远离功放电感、DC-DC 转换器和高速数字总线,必要时要增加陷波器滤波。此外,音箱箱体的金属网罩如果设计不当,会成为谐振腔而大幅降低天线效率,声学网布与结构需在透声性和射频穿透性间达成妥协。

### 3. 多个广播源的空中协调

大型场馆可能部署多个广播音箱作为独立广播源,形成分区广播。若各广播源在相同信道无协调地发射 BIS,将造成碰撞和接收断续。系统设计中,通常会引入集中式调度器,使各个广播源的 BIS 事件在时间上交替,或规划不同的信道映射。也可利用蓝牙 LE 信道选择算法#2 的自适应跳频,避免干扰热点,同时结合 AAC(活动自适应跳频)动态避开 Wi-Fi 强信道。跳频序列的规划需确保多个广播源之间无规律互扰,维持每个接收端能连续锁定其期望的 BIS。

### 4. 音质评估与声学反馈环路

广播音箱自身麦克风收音功能若被启用(如用于房间自适应或辅助反馈消除),需注意蓝牙广播发射的射频信号可能耦合进入模拟麦克风链路,产生 TDMA 噪声(典型的 217 Hz 谐波或 LE Audio 帧频)。设计中会采用射频滤波、伪差分走线和足够的电源纹波抑制比。反过来,音箱广播的 LC3 码流存在确定的编码失真特性,声学调试时需用参考级人工耳或测量传声器在接收端耳机输出处对比电-电信号,确保广播链路的音质(频率响应、THD、立体声分离度)仍能满足广播用途的清晰度要求。

---

## 四、工程实例推演:一个分布式蓝牙广播音箱系统

假设在一个机场候机厅,部署多个支持蓝牙广播的吸顶音箱。每个音箱包含:

- 一个 6.5 英寸同轴单元(中低频锥盆+球顶高音),配合波导实现 100° 锥形覆盖。

- 内置双核音频 DSP,负责分频、限幅、房间响应预校正,并将音频流分送两路:一路经 D 类功放至单元,另一路送入 LE Audio 广播源模块。

- BLE SoC 以 48 kHz / 24 bit 接口接收 DSP 输出的 I2S 音频,实时进行 LC3 编码并组帧为 BIS PDU 从天线发射。

- 系统通过以太网受控于中央音频管理器,该管理器同时作为广播调度器,将各路 BIS 的等时间隔交错排列,并统一对齐所有音箱的声学输出与蓝牙广播的播放时刻。

安装后,用 STI 测量仪与满足 IEC 60268-16 标准的测量链测试大厅主要区域的 STI 值,同时用多个标准 LE Audio 接收终端(如测试蓝牙耳机)在行走状态下记录丢包率与音质主观评分。依据数据精调 DSP 增益、延迟和 BIS 重传次数,最终实现广域广播声场与个人无线监听的高度一致。

---

## 五、未来演进方向

随着 LE Audio 生态的成熟,广播音箱将进一步走向波束成形与智能分区。多个单元组成的阵列可以通过蓝牙广播控制信道动态调整波束,实现声学上的定向广播;而接收端通过 UWB 或 AoA 定位获取位置后,可选择最适合的广播流。声学与蓝牙工程师将共同面对低至 10 ms 级端到端延迟、多流精确同步、以及密集部署下射频资源分配等更复杂的课题。材料、换能器、协议栈三者的协同优化,将重新定义“公共广播”的物理边界与用户体验。

---

**结语**

广播音箱早已脱离单一扩声的范畴。站在声学工程师角度,它是一台被精密调校的电声换能系统;站在蓝牙工程师角度,它是一个高可靠实时等时广播节点。两大学科的深度交融,让现代广播音箱在覆盖均匀度、语音清晰度和无线个人接入便利性上同时达到新高度。这种融合并非锦上添花,而是无线广播音频系统得以真实落地的工程必须。

本回答由 AI 生成,内容仅供参考,请仔细甄别。


从声学与蓝牙工程的角度来看,开放式穿戴耳机(OWS)正经历一场从“能听”到“好听、清晰”的系统性挑战。耳夹、耳挂这类无入耳封闭的结构,天然破坏了低频重放的气密条件,同时又将通话麦克风完全暴露于环境噪声中。但正是“虚拟低音”和“环境噪声消除(ENC)”这两项技术的深度协同,才让OWS耳机在保持开放舒适的前提下,实现令人满意的全频段聆听和干净的通话体验。以下,我将从工程设计逻辑出发,逐层剖解其中的关键技术路径与权衡。

---

## 一、开放式声学架构的根本矛盾

耳夹与耳挂形态将微型扬声器悬置于耳道口附近,前腔与外界完全联通,形成典型的声学偶极子辐射模型。在这种模型下,低频声波从前向后绕射时发生相位抵消,造成**低频滚降**。实测自由场或近耳模拟器(如HATS)上,开放式OWS在100Hz处的灵敏度可能比封闭式耳塞低20~30dB。这不仅仅是响度的缺失,更意味着常规的动态补偿需要极大的振幅,但微动圈单元在毫米级冲程下会迅速进入非线性区,产生严重失真甚至触底杂音。

因此,直接从物理层面提升低频在开放式结构上是一个“不可能三角”:体积、振幅、失真三者无法兼顾。此时声学设计的思路必须转向心理声学,借助**虚拟低音**来重建主观低频感受。

## 二、虚拟低音的深层逻辑与实现约束

虚拟低音技术基于“基频缺失”听感现象:当人耳听到一组具有谐波关系的倍频音,即便基频未被物理重放,听觉中枢仍会依据谐波序列“推断”出基频音高。以200Hz目标为例,若声学系统只能有效辐射400Hz以上的成分,我们可以将200Hz的基频剔除,转而生成并精确控制其二、三、四次谐波(400Hz、600Hz、800Hz),并按照特定的频谱包络叠加回信号中。听者会清晰地感知到200Hz的低频存在,而扬声器实际并未发出该频率的基波。

然而在OWS上部署该技术需解决数个严格的工程问题:

- **谐波生成与单元保护**:产生的谐波能量必须精确计算。如果简单使用矩形波或过驱限幅,会产生大量不可控的高阶互调失真,听感粗糙且可能烧毁音圈。实际系统会采用动态谐波发生器(如基于过零检测和分段多项式波形生成),在时域上实时计算并限制峰值幅度,确保等效推力不超出扬声器的Xmax(最大线性冲程)。

- **时域对齐与群延时**:虚拟低音算法势必引入处理延迟。产生的谐波必须与主信号的高通成分保持严格的相位对齐,否则在耳道口近场的合成波包络会出现瞬态模糊,导致鼓声的起振感软绵无力。这要求在DSP链路中将低音合成模块与分频滤波器共享相同的群延时补偿。

- **响度与掩蔽的平衡**:虚拟低音感知的强度受制于中高频的掩蔽效应。开放式耳机外界噪声渗入较多,会掩蔽主观低频感知。因此需要**根据环境噪声水平动态调节虚拟低音的混合比例**,在嘈杂环境中适度增强谐波能量,但始终不超出单元的安全工作区。这是声学与ENC系统的第一个协同点。

## 三、开放条件下ENC的独特难点与处理架构

ENC的目的是在通话上行链路中抑制背景噪声,保留并增强佩戴者语音。常规ANC耳机依赖物理隔声,麦克风拾取的信噪比相对较高。而耳夹/耳挂式OWS完全没有隔声,主通话麦克风(通常位于耳机外侧或耳垂附近)拾取到的语音和环境噪声几乎处于同一量级,风噪、咖啡厅背景声、街道交通噪声均会毫无衰减地混入。

在此约束下,ENC系统必须采用更为精细的多路传感与信号处理机制:

### 1. 多麦克风阵列与盲源分离

通常每侧耳机会配置至少两颗MEMS麦克风:一顆位于发声单元壳体前侧指向嘴部,另一顆位于后侧或顶部主要用于环境拾取。利用两路信号中语音成分的微小时间差和相关性差异,通过自适应波束形成(如广义旁瓣抵消器,GSC)形成一个指向口唇区域的拾音波束,同时将旁瓣对准环境噪声方向进行抑制。然而在开放式结构里,语音经脸颊绕射到达后向麦克风的路径更复杂,通道之间的相干性容易受到佩戴偏移影响。这就要求波束形成器具备在线自适应校准能力,并在初始化阶段快速收敛。

### 2. 结构传声与骨导传感的融合

仅靠气导麦克风阵列,在强风噪或极高背景噪声(如地铁车厢)下依然会崩溃。此时工程师会引入骨传导(加速度计)或耳道内拾音单元作为辅助语音检测器。骨导信号几乎不受空气声干扰,能提供稳健的基频周期性成分,但其高频响应非常有限。因此融合策略是:利用骨导的基频检测结果来驱动一个由深层神经网络(DNN)训练的频域掩码估计器,从气导麦克风特征中恢复出清亮的高频辅音,同时骨架完全由骨导信号的谐波结构重建。此融合模型需在蓝牙SoC的NPU或DSP上实时运行,且计算和功耗预算极为严苛。

### 3. 风噪与瞬态噪声的动态屏蔽

开放式结构极易在麦克风端口产生湍流,引起极大低频颤噪。硬件上必须在拾音孔内设计迷宫型风噪衰减结构和疏水膜,在声学上形成低通滤波效应。软件侧会部署多层风噪检测分类器,根据麦克风输出间的非相关性特征(真风噪在两颗麦克风间相干度极低)以及高频能量突跳模式来动态调节降噪强度,并从单纯的减谱法切换至基于递归神经网络的语音重建模式,避免出现令人不适的“水底声”或语音断裂。

## 四、蓝牙链路与低延迟的协同设计

上述虚拟低音和ENC的协同离不开蓝牙音频系统的底层支撑。

- **编解码器选择**:要求高比特率、低延迟的编解码以保留虚拟低音精细的谐波结构。若编码器因压缩而错误分配比特,导致谐波包络失真,则虚拟低音效果会被严重削弱。LC3或经过调优的低延迟AAC能够在较低速率下保持谐波完整性。同时,双向通话时上行链路需要支持宽带乃至超宽带语音(如32kHz采样),使ENC的降噪输出得到充分保留,否则远端听者会感受到闷窄的带宽。

- **处理延迟的级联控制**:虚拟低音处理约1~3ms,ENC管线(含波束形成+神经网络)约5~15ms,蓝牙传输与包缓冲一般要求低于30ms。系统工程师需要严格划分DSP时序,将虚拟低音置于下行回放链路的开始,避免与通话回环产生串扰。对于通透模式(监听环境),还需要将外界拾取的低音成分与虚拟低音叠加处理,营造自然的开放听感,这要求前馈支路延迟控制在亚毫秒级。

- **算力与功耗预算分配**:典型蓝牙可穿戴SoC的DSP/NPU算力在数百MOPS至数个GOPS之间。虚拟低音通常消耗不大,但ENC中的DNN语音提取会占用主要算力。工程师需通过模型蒸馏、8-bit量化及激活稀疏化,将整体ENC模型压缩至合理规模,并与虚拟低音模块、通话后处理共享优先级,确保在任何负载下通话延迟不出现抖动。

## 五、系统级调校与主观验证

将虚拟低音和ENC集成进同一副耳夹/耳挂后,需要完成闭环主观与客观调试:

- **近耳人工头的扩散场校准**:由于开放式耳机对佩戴位置极度敏感,需采集多姿态、多假耳下传递函数,为虚拟低音的谐波合成建立统计补偿曲线,使听感在群体中保持统一。

- **虚拟低音与声场自然的平衡**:过强的虚拟低音会让声像前移,削弱开放式耳机本就擅长的空间感。通过设定一个“虚拟低音注入上限”,并令其随播放内容动态调节(如瞬态丰富时加强,持续低频时限制),可以维持低频冲击力而不牺牲声场宽度。

- **ENC双工性能测试**:重点评估近端语音的清晰度(如POLQA分值)以及风噪、非稳态噪声下语音的自然度。需要反复迭代融合权值矩阵,确保在骨导传感器失效(如脱离贴合)时,ENC系统能够平稳降级回纯气导模式,而不产生突变或啸叫。

## 结语

OWS耳机在耳夹/耳挂形态下追求高音质与清晰通话,本质上是声学限制与算法补偿之间的深度博弈。虚拟低音利用人耳听觉特性巧妙地“欺骗”了低频频响缺失,而ENC则在极端开放的信噪比条件下通过阵列处理、传感融合与深度学习构建了可靠的语音通道。二者的无缝协同必须由蓝牙音频系统的低延迟、高保真传输来保证。从工程师的视角看,这并非简单的技术堆叠,而是一次次对物理极限的精准适配与系统折衷,最终带来的,是消费者在不隔绝世界的前提下,也能沉浸在饱满低频与水晶般清晰通话中的自由体验。

本回答由 AI 生成,内容仅供参考,请仔细甄别。


Auracast BIS的声学与工程深度解析

Auracast广播音频(LE Audio Broadcast Isochronous Stream)是蓝牙核心规范自5.2版本以来最具架构性突破的功能之一。它彻底改变了蓝牙音频“必须配对、必须连接”的传统范式,以单向、无确认的广播同步流(BIS)替代基于ACL链路的异步传输,使单一音源能够向无限数量的接收设备广播高质量音频。本文从声学工程师和蓝牙协议栈工程师的双重视角出发,对BIS的底层同步机制、ISOAL适配层的时序保障、LC3编解码器的声学性能特征,以及多设备同步延迟的工程约束进行逐层剖析。文章进一步讨论了广播音频在实际部署中的核心技术挑战,包括跨设备同步精度、加密广播码分发、射频信道竞争,以及助听器场景下的端到端延迟优化策略。

## 1 引言:蓝牙音频的架构范式转移

自蓝牙音频问世以来,其核心传输模型始终建立在点对点连接的基础之上。无论是经典蓝牙的A2DP(Advanced Audio Distribution Profile)还是HFP(Hands-Free Profile),音频数据均通过ACL(Asynchronous Connection-Less)链路在两个已配对的设备之间传输。这一架构在单设备、单场景下运行良好,但面对真无线耳机的双耳独立接收、公共场所的多人音频共享、以及助听器系统的无障碍接入需求时,暴露出了根本性的局限。

2020年,蓝牙技术联盟在蓝牙核心规范5.2中引入了一项关键基础设施——LE同步通道(LE Isochronous Channels),由此奠定了LE Audio的架构基础。与依赖ACL异步链路的经典音频不同,同步通道提供了一种等时数据传输机制:数据帧携带严格的时间期限(Flush Time),超时的数据将被主动丢弃,从而保障多路音频流的同步性。基于这一机制,规范定义了两种传输模式:面向连接的同步流(Connected Isochronous Stream, CIS)和无连接的广播同步流(Broadcast Isochronous Stream, BIS)。前者服务于一对一或一对多的连接场景(如TWS耳机的左右耳独立传输),后者则构成了Auracast广播音频的技术底座。

Auracast的商标命名意味着广播音频从一项“技术特性”升级为一种“面向消费者的产品能力”。其核心承诺可概括为三点:无需配对即可接收、单源向不限数量设备广播、基于标准化LC3编解码器的高质量音频。然而,从工程实现的角度审视,这些承诺背后隐藏着一系列复杂的声学和协议栈设计问题——这些问题正是本文试图深入讨论的内容。

## 2 BIS的协议架构与同步机制

### 2.1 BIG与BIS:广播音频的组织结构

在BIS模式下,音频数据以广播等时组(Broadcast Isochronous Group, BIG)为容器进行组织。一个BIG由一个广播源(Isochronous Broadcaster)创建,可以包含一个或多个BIS。每个BIS承载一路独立的单向音频流——在立体声应用中,通常由BIS1承载左声道、BIS2承载右声道。与CIS不同,BIS的数据传输完全基于广播包机制,不包含确认与重传协议(无ACK/NACK),也不需要建立ACL控制链路。广播源对接收设备的数量和身份一无所知——这一特性既是广播模式的核心优势,也是其工程设计的根本约束。

从协议栈的层次结构来看,BIS的实现涉及多个层级的协同。物理层负责跳频序列的生成与射频信道的选择;链路层管理BIG的时间调度,将每个BIS划分为若干子事件(subevent),每个子事件对应一个特定的广播等时PDU的发射窗口;而在控制器与主机之间,同步适配层(ISOAL)负责服务数据单元(SDU)与协议数据单元(PDU)之间的分段/重组操作,使上层数据包的大小和间隔可以独立于链路层的传输约束。

### 2.2 PDU导航链路:从扩展广播到BIS同步

广播接收端(Broadcast Sink)要成功接收BIS音频流,必须完成一条精确的PDU导航链路。该链路可分解为三个递进阶段:

**第一阶段:扩展广播(Extended Advertising)发现。** 广播源在主广播信道(信道37、38、39)上发送ADV_EXT_IND PDU,其扩展头字段中的AuxPtr指针指向辅助广播PDU(AUX_ADV_IND),后者在其余0至36个数据信道中的一个上传输。AUX_ADV_IND PDU包含两个关键信息:其扩展头中的SyncInfo字段指向周期性广播(PA),而其AdvData字段携带Broadcast Audio Announcement Service UUID和Broadcast_ID——后者用于帮助扫描设备判断当前广播是否为目标BIG。

**第二阶段:周期性广播(Periodic Advertising)同步。** 扫描设备通过SyncInfo同步到PA后,接收AUX_SYNC_IND PDU。该PDU的AdvData字段包含Basic Audio Announcement Service UUID,其内容描述BIG中音频流的BASE配置——包括编解码器类型(LC3)、编解码器参数(采样率、帧周期、比特率等)以及通道分配信息。同时,AUX_SYNC_IND PDU的扩展头字段可能携带ACAD字段,内含BIGInfo——这是接收设备同步到BIG所需的核心信息,包括BIG的时序参数、信道映射和加密配置。

**第三阶段:BIS流同步与音频解码。** 接收设备基于BIGInfo中的时序和频道信息,在指定的BIS子事件窗口内接收广播等时PDU,经ISOAL重组为LC3编码帧,再通过解码器还原为PCM音频数据。

### 2.3 同步适配层(ISOAL)的时序工程

ISOAL是连接上层音频框架与底层链路层传输的关键桥梁。其核心设计目标是解耦上层SDU的时序需求与下层PDU的传输约束。ISOAL通过两种操作模式实现这一目标:

- **分段/重组(
Fragmentation/Recombination)** :将一个较大的SDU拆分为多个PDU进行传输,接收端再将其重组。这适用于低延迟场景下需要以大SDU传输高质量音频的情形。

- **分片/重装(Segmentation/Reassembly)** :将SDU映射到固定大小的PDU中,允许多个SDU共享同一PDU或单个SDU跨越多个PDU。

值得注意的是,ISOAL本身并不提供重传或纠错机制——这些功能在BIS模式下由链路层的子事件重传策略承担(详见第4.2节)。ISOAL的职责仅限于在保证时序的前提下完成数据格式的转换。

## 3 LC3编解码器的声学考量

### 3.1 编码架构与参数空间

LC3(Low Complexity Communication Codec)是LE Audio的强制编解码器,其设计目标是在低复杂度约束下实现高质量的语音和音频编码。LC3基于改进离散余弦变换(MDCT)和感知音频编码模型(psychoacoustic modeling),能够在约一半的比特率下提供与经典蓝牙SBC编解码器相当或更优的主观音质。

LC3支持广泛的参数配置:采样率从8 kHz延伸至48 kHz,帧周期可选10 ms或7.5 ms,每通道比特率范围从16 kbps到320 kbps。在典型的Auracast广播应用中,48 kHz/16-bit/10 ms帧周期的配置(即“48_4”配置:采样率48 kHz、帧周期10 ms、每帧压缩数据120字节)较为常见,可在音质与编解码延迟之间取得均衡。对于公共广播(PBP)场景,规范进一步定义了高质量广播音频的推荐配置,以确保跨厂商设备的互操作性。

### 3.2 声学性能特征与设计权衡

从声学工程师的视角,LC3的性能评估需要从多个维度展开:

**频谱保真度与编码效率。** LC3采用感知加权滤波器和频域噪声整形技术,在16 kbps至48 kbps的中低比特率区间,其对语音信号的编码效率显著优于SBC。在64 kbps以上的中高比特率区间,LC3能够提供接近透明的音乐重放质量。SIG组织的广泛聆听测试表明,LC3在所有采样率下均以一半的比特率实现了对SBC的超越。

**编解码延迟(Algorithmic Delay)。** LC3的帧周期(10 ms或7.5 ms)决定了其最小算法延迟。以10 ms帧周期为例,编码器引入的算法延迟通常约为15–20 ms(含帧缓冲、MDCT变换窗口和重叠相加操作)。这较之经典蓝牙A2DP+SBC链路的典型100–200 ms端到端延迟有显著改善,但并非“零延迟”。在BIS广播场景中,完整的端到端延迟链还包括ISOAL处理延迟、射频传输时间、接收端缓冲和解码延迟,综合延迟预算通常在30–60 ms量级。

**比特率灵活性。** LC3允许开发者在音质与功耗之间进行灵活的权衡——降低比特率可减少射频传输占空比,从而延长电池寿命。在电池供电的助听器和可穿戴设备中,这一特性尤为关键。

## 4 多设备同步:声学一致性的工程挑战

### 4.1 BIS同步的时序基础

BIS的同步机制建立在蓝牙5.2引入的LE同步通道技术之上。通过精确的时间调度,多个接收设备可以在同一BIG的同步窗口内接收相同的广播PDU,从而实现设备间的时间对齐。规范允许将BIG中的每个BIS配置为包含一个或多个子事件,每个子事件提供一次PDU广播机会。接收设备通过BIGInfo获取BIG的ISO间隔(ISO Interval)、子事件数量、以及每个子事件的时间偏移等参数,据此计算自身的接收窗口。

需要指出的是,BIS的同步精度最终受限于各接收设备的本地时钟精度(通常由LE的睡眠时钟精度决定,在±500 ppm量级内)。在BIG中引入子事件重传机制可在一定程度上缓解因时钟漂移导致的同步误差,但无法完全消除。

### 4.2 子事件重传与RF稳健性

由于BIS不依赖确认机制,链路层通过配置子事件重传次数(Number of Subevents, NSE)来提升传输的可靠性。每个BIS可以在一个ISO事件内配置多个子事件,广播源在每个子事件中重复发送相同的PDU,接收设备只需成功接收其中一次即可获取完整数据。

从射频工程的角度,子事件重传的设计需要平衡以下矛盾:

- **延迟与可靠性的权衡。** 增加NSE可提升数据到达概率,但也会增加BIS的有效占空比,进而提高接收设备的功耗和整体延迟。

- **突发干扰的应对。** 在2.4 GHz ISM频段的复杂电磁环境中(Wi-Fi共存、多径衰落),子事件重传是应对窄带干扰的有效手段。合理的NSE配置和信道跳频序列设计可以显著改善BIS在非理想信道下的服务质量。

- **同步精度与PDU时序。** 子事件的时序偏移必须精确控制在微秒量级,否则可能导致接收设备的PDU窗口失配。

### 4.3 跨设备同步的实测与工程约束

在多设备实际部署中,跨接收设备的音频同步精度是一项极具挑战性的工程指标。不同接收设备之间的解码路径差异、晶振频率偏差、DSP处理延迟的个体差异、以及DAC输出级的设计差异,都会在BIS固有的同步基础上叠加额外的非确定性延迟。实测表明,即便是同一型号的接收设备,在长时间运行下也可能因温度变化导致的晶振漂移而出现数百微秒的累积偏差。

在公共广播的应用场景中,多接收设备之间的时间差需控制在人类听觉的时间融合阈值(约1 ms以内)方可避免可感知的回声效应。对于需要严格声场一致性的应用(如多扬声器阵列、环绕声系统),这一要求更加严苛。

## 5 从机场到助听器:应用场景中的声学工程实践

### 5.1 公共广播系统的声学集成

机场航站楼、火车站和大型会议中心是Auracast广播音频的典型部署场景。在这些场所中,公共广播源(Public Broadcast Source, PBS)持续广播一个或多个BIG,每个BIG可以包含不同语言的音频流(如登机通知的多语种版本),乘客通过兼容的耳机或助听器选择性接收。

从声学工程的角度,公共广播场景面临独特的挑战:广播覆盖范围需要与物理空间匹配,而LE Audio在2.4 GHz频段的传播特性决定了单个广播源的可靠覆盖半径通常在数十米量级(取决于发射功率和天线设计)。对于大型空间,可能需要多个广播源的中继部署,这又引入了跨发射源的时间同步问题。

此外,广播音频与公共空间的自然声学环境之间存在交互。当听者同时感知到扬声器直接声和耳机重放的广播声时,两者的时间差(若超过约30 ms)将产生可感知的回声效应,严重降低语音清晰度。这一问题在设计公共广播系统时需要特别考量。

### 5.2 助听器场景的端到端延迟优化

助听器是Auracast技术最具社会价值的应用场景之一。通过BIS,助听器设备可以直接接收来自公共广播系统、电视、或现场演讲台的音频流,无需佩戴额外的中继设备。

在助听器应用中,端到端延迟的控制是所有声学问题中优先级最高的一项——因为延迟直接关系到“读唇同步”(lip-sync)的感知体验。一般经验认为,当音频延迟超过40 ms时,听者即可能注意到视听不一致;对于听障人士而言,由于其对视觉信息的依赖程度更高,这一阈值可能更为严苛。这就要求从LC3编码、ISOAL处理、RF传输到解码和DAC输出的整个延迟链控制在20–35 ms以内。优化手段包括:选择7.5 ms帧周期的LC3配置、最小化接收端缓冲深度、以及采用硬件加速的LC3解码器。

### 5.3 广播码与加密音频的挑战

对于加密的Auracast广播(如付费内容的私人共享场景),接收设备必须获取16字节的广播码(Broadcast Code)才能正确解密音频流。广播码的分发通常通过带外方式完成(如二维码、NFC或配套应用程序),但这一过程引入了用户交互的摩擦——如何在保证安全性的同时降低用户接入门槛,是产品设计中需要权衡的问题。此外,广播码的管理机制(生成、轮换、撤销)直接影响大规模部署场景(如电影院、剧院)的用户体验。

## 6 技术挑战与展望

尽管Auracast BIS在架构层面提供了一套优雅的广播音频解决方案,但从工程落地到规模化部署,仍面临若干关键挑战:

**跨厂商互操作性。** 蓝牙SIG通过BAP(Basic Audio Profile)和PBP(Public Broadcast Profile)定义了互操作性规范,要求所有使用Auracast商标的产品通过相应认证测试。然而,不同厂商在LC3编码器实现、RF前端设计、以及BIG参数配置上的差异,仍可能导致实际场景中的兼容性问题。

**多发射源的BIG共存。** 在密集部署环境中(如多个展厅同时进行不同的广播),多个BIG需要在同一2.4 GHz频段共存。虽然LE的跳频扩频机制提供了基本的抗干扰能力,但BIG数量增加时,信道利用率上升,PDU碰撞概率随之增加,可能导致音频丢帧和可闻的播放卡顿。

**功耗与性能的动态平衡。** 对于电池供电的接收设备(尤其是助听器和TWS耳机),持续扫描和接收BIS流会显著增加功耗。广播助手(Broadcast Assistant)和扫描委派(Scan Delegator)角色的引入正是为了解决这一问题——由助手设备承担高功耗的扫描任务,再通过PAST(Periodic Advertising Sync Transfer)机制将同步信息传递给低功耗接收设备。但这一方案的实现复杂度较高,目前仍处于生态构建阶段。

**Auracast生态系统成熟度。** 尽管技术规范已趋于完备,但支持Auracast的公共基础设施(如机场、影院、会议中心的广播源部署)仍处于早期阶段。发射端设备和接收端设备的普及需要时间,用户认知和市场教育的推进同样不可忽视。

## 7 结语

Auracast BIS代表了蓝牙音频从“连接驱动”到“广播驱动”的根本性架构转变。从声学工程师的角度,它提供了以标准化方式实现高质量一对多音频传输的技术基础设施;从蓝牙协议栈工程师的角度,它引入了一套精巧的同步机制——通过扩展广播、周期性广播和等时广播流的三层导航,使无连接音频传输成为可能。

然而,广播模式的无确认特性也意味着系统设计师必须在延迟、可靠性和功耗之间进行审慎的权衡。LC3编解码器的高效性能为这一权衡提供了较大的灵活空间,但跨设备同步精度、射频信道竞争、以及加密广播码的分发等工程问题,仍需要在实际产品开发中逐一解决。随着LE Audio生态的逐步成熟和Auracast公共基础设施的持续部署,这一技术有望从根本上改变人们在公共场所获取和共享音频的方式——而这一转变的实现,最终取决于声学工程和蓝牙系统工程的协同深入。


以下是站在声学与蓝牙系统工程师视角,针对混合反馈真无线耳机(混馈 TWS)中“广域敲击”与“智能免摘”两项功能所作的深度技术分析。

---

### 广域敲击与智能免摘——混馈 TWS 人机交互的声学与系统级实现

#### 1. 前言:从“触控”到“无感交互”的演进

真无线耳机的微型化使得传统电容式触控区域的面积和操作精度都受到物理限制。为了摆脱对精确位置触摸的依赖,业界正在向更自然的交互方式演进:**广域敲击**让用户敲击耳周皮肤或耳机附近区域即可下达指令,而**智能免摘**则能在用户开口说话时自动暂停媒体并进入通透模式,实现交谈自由。这两项看似独立的功能,在声学传感器布局和蓝牙 SoC 系统架构上高度协同,且高度依赖混合反馈 ANC 平台提供的多传感器信号。本文将深入探讨这两项技术的实现原理、信号链设计及工程挑战。

#### 2. 混馈 TWS 的传感器矩阵:交互的物理基础

混合反馈 TWS 耳机的标准声学构造包含至少三个麦克风和一个加速度传感器:

- **前馈麦克风**:位于耳机外侧,捕获环境噪声。

- **反馈麦克风**:位于前腔(扬声器与耳道之间的密闭空间),拾取残余噪声与耳道内声压。

- **通话麦克风**:通常位于耳机柄底部,指向嘴方向,用于语音拾取。

- **加速度计 / 骨传导传感器(VPU)**:贴合耳甲腔或耳道入口,检测机械振动。

这一传感器矩阵构成了交互所需的“感知前端”。**广域敲击**主要利用加速度计和反馈麦克风的振动拾取能力;**智能免摘**则依赖于通话麦克风与反馈麦克风(或 VPU)组成的声音-振动联合检测系统。混合反馈架构的优势在于,反馈麦克风天然位于人体组织传导路径的末端,既是 ANC 控制环路的传感节点,又可作为振动感知节点复用。

#### 3. 广域敲击:振动传导路径与算法架构

**3.1 振动传播的声学路径**

当用户敲击耳屏、耳廓背面或耳周颧骨区域时,机械能通过皮肤、软骨和颅骨多层介质传导至耳机壳体,再被内部传感器捕获。传导路径的传递函数在 100Hz 至 2000Hz 区间内呈现若干共振峰,且能量衰减随距离和接触硬度变化。由于耳机构型(入耳式与半入耳式)和佩戴耦合状态不同,传递函数会产生较大个体差异,这就要求检测算法具备较强的自适应能力。

**3.2 传感器选择与信号特征**

加速度计对低频振动(<1500Hz)响应平坦,且不受空气声干扰,是广域敲击的首选传感器。部分设计为降低成本,尝试使用反馈麦克风替代加速度计:反馈麦克风所处的前腔在受到皮肤振动时,耳道内空气被压缩或膨胀,产生可检测的声压变化,尤其在密封良好的入耳式结构中灵敏度较高。但反馈麦克风对环境低频噪声和走路引起的气导扰动仍较敏感,信噪比不如专用加速度计。工程上,一种折衷方案是将加速度计与反馈麦克风信号做融合,利用二者对敲击脉冲的包络形状和到达时间差(加速度计信号约快 0.2-0.5ms)来提高检测置信度。

**3.3 敲击检测管线与防误触设计**

算法通常采用三级流水线:

- **活动检测器**:连续计算加速度计信号的高通滤波能量(截止频率约 80Hz,滤除头部运动伪迹),一旦超过自适应阈值则唤醒特征提取。

- **敲击特征分类**:提取脉冲宽度(典型 5-15ms)、上升时间、谱质心及时域包络衰减常数。通过模板匹配或轻量级 CNN 区分单次敲击、双击和意外碰撞。

- **上下文仲裁器**:结合当前运动状态(通过 IMU 步态检测)、ANC 状态与通话状态。例如,在用户奔跑时自动提高判别阈值;在咀嚼或触摸耳机时暂时抑制敲击响应,以防止误触发。

广域敲击的挑战在于,敲击点远离传感器时信号微弱,而近处触碰又可能饱和。所以前级放大需要配置宽动态范围的模拟前端,同时数字域采用自动量程控制(AGC)来适应不同用户敲击力度。

#### 4. 智能免摘:自身语音检测与混馈系统的动态协同

**4.1 自身语音检测(OVD)的双通道原理**

智能免摘的核心技术是准确判断佩戴者本人正在说话,而非旁人。单靠通话麦克风进行语音活动检测(VAD)无法区分声源身份;必须引入骨导通道。当佩戴者发声时,声带振动通过骨骼和组织直接传递到耳道与耳机壳体,在反馈麦克风和加速度计中产生强相关信号,而环境人声在这条振动路径上几乎不存在。因此,OVD 本质上是计算气导信号(通话麦克风)与振动信号(反馈麦克风或 VPU)的相干性或能量比:

- 在两信号都出现语谱活动且低频段(300-800Hz)振动信号能量与气导信号能量之比超过经验阈值时,判定为自身语音。

- 引入归一化互相关峰值作为辅助判据,有效排除穿戴者咳嗽、清嗓等非语音振动。

这里混馈架构表现出独特优势:反馈麦克风位于密闭前腔,能有效拾取到骨导引发的耳道声压,频响在 500Hz 以下通常有 +6dB 以上的增益。因此,即便不单独搭载昂贵的专用 VPU,通过 **“通话麦 + 反馈麦”** 双通道方案即可实现可靠的 OVD。这种“无 VPU”设计需要在回采时做严格的回声抑制,因为此时反馈麦克风同时也拾取到由扬声器播放的媒体内容,必须在骨导检测通路中采用自适应滤波器(基于 AEC 原理)消除远端信号串扰,否则会严重干扰 OVD 判决。

**4.2 混合 ANC 的模式切换与瞬态管理**

一旦 OVD 模块触发智能免摘,系统须在数十毫秒内完成下列操作:

1. **音频播放暂停**:通过蓝牙 A2DP 暂停指令或本地 DSP 混音器静音媒体流。

2. **ANC 参数重载**:将前馈滤波器从降噪系数平滑过渡到通透系数;反馈回路需调整 H∞ 增益以防闭环正反馈引发的啸叫。通透模式通常需要重新构建一条从外部到耳内的声学传递路径,前馈麦克风拾取的声音经补偿滤波器播放,同时反馈回路需提供一定负阻尼来抵消耳塞本身的被动隔声,使环境声听起来自然。

3. **双耳同步**:左右耳通过蓝牙链路(或近场磁感应 NFMI/低功耗私有协议)同步免摘状态,避免一只耳进入通透而另一只依然降噪,造成不适的空间感。同步延迟需控制在 10ms 以内。

**4.3 退出逻辑与时序**

用户停止说话后,系统需经一段保持时间(通常 0.5-1.5 秒)再恢复音乐与 ANC。该保持时长通过分析语音间隙和句末语调来动态调整,防止在短暂停顿中来回切换。同时,风噪检测模块会干预恢复行为:若此时外部风噪较大,退出免摘后应缓慢恢复降噪,避免引入“呼噜”声。

#### 5. 蓝牙系统集成与功耗调度

从蓝牙 SoC 视角看,这两项功能需要常开传感器和持续运行的轻量推理引擎。典型实现是将加速度计和麦克风的特征提取放在始终在线(Always-on)的低功耗 DSP 或硬件加速单元上,主应用处理器仅在检测到疑似敲击或自身语音时才被唤醒,以节约功耗。

- 广域敲击:以 200Hz ODR(输出数据速率)采样加速度计,特征提取仅需约 0.5 MIPS,可完全放在 Sensor Hub 上,整机增加功耗控制在 0.1mA 以内。

- 智能免摘:OVD 需要 16kHz 采样率的双通道音频,计算量约为 3-5 MIPS(含自适应滤波与 VAD)。通常调用音频 DSP 的常开流水线,与语音助手唤醒词检测共享前端资源。

蓝牙链路管理上,智能免摘触发时只需发送 AVDTP 暂停指令或利用 A2DP 的流控,而无需建立 SCO/eSCO 链路,响应迅速,功耗低。若用户随后进入持续通话,系统再从免摘无缝切换到 HFP 通话通路。

#### 6. 声学一致性与量产测试考量

两项交互功能的鲁棒性在很大程度上取决于声学一致性:

- 广域敲击:不同耦合状态导致的振动传递函数漂移,需要在产线进行标准耦合下的传感器灵敏度校准,并通过在线自适应算法动态补偿。

- 智能免摘:反馈麦克风频响和密封性直接影响 OVD 的骨-气能量比基准。量产时必须检测前腔泄漏,并将参考值烧录至耳机固件,否则可能出现安静场景下 OVD 阈值过高无法触发,或嘈杂环境误触发频繁的问题。

#### 7. 结语

广域敲击与智能免摘功能的实现,本质上是混合反馈 TWS 平台多传感器融合能力的延伸。在声学设计上,它们借用了 ANC 固有的麦克风阵列和结构传声路径;在系统层面,它们通过低功耗常开算法与瞬态模式管理,实现了从主动降噪到情境感知的无缝过渡。随着传感器信噪比的继续提升和自适应算法增强,这两项技术将进化为更不可感知的“隐形交互”,让 TWS 耳机真正理解佩戴者的意图。