基于VPU骨导增强的三麦ENC鲁棒风噪抑制技术

2026-05-19

在消费级真无线耳机（TWS）的语音通话链路中，风噪始终是最棘手的环境干扰之一。单纯依靠多麦克风环境降噪（ENC）已难以在强阵风或高速运动场景下提供可接受的语音质量。将三麦克风阵列与基于骨传导原理的语音拾取单元（VPU，Voice Pickup Unit）在声学与算法层面深度融合，正成为突破风噪极限的核心技术路径。本文将从声学设计与蓝牙系统工程双视角，深入剖析该架构的设计逻辑、信号模型、融合策略及工程实现关键。

---

### 1. 风噪的物理本质与三麦ENC的性能边界

风噪由湍流气流直接冲击麦克风振膜或流经拾音孔边缘产生，呈现出强烈的低频能量集中、非平稳和极低通道间相干性。对一个典型的三麦耳机系统（定义为：耳外前馈麦克风 FF、耳内反馈麦克风 FB、指向嘴部的通话麦克风 TALK），风噪在各个节点呈现迥异的特性：

- **FF 麦克风**：直接暴露于来流，湍流脉动压力最大，风噪能量可轻易淹没有用语音。

- **FB 麦克风**：位于受耳机壳体遮蔽的前腔或后腔，虽然经历了声障的衰减，但压力脉动仍通过泄声孔或壳体振动耦合进入，风噪呈现更低通且延迟的版本。

- **TALK 麦克风**：常置于杆体底部或内侧，方向性使得迎风面风噪略低，但由于杆体脱落涡的产生，其风噪依然严重。

三麦 ENC 的传统方法是构建广义旁瓣消除器（GSC）或多通道自适应滤波器，利用 FB/FF 的噪声参考信号消除 TALK 中的环境分量。然而，风噪场景下这一范式面临两大失效机制：

1. **相干性坍塌**：自适应滤波依赖参考通道与主通道噪声的高度相干。风噪的空间相干长度在低频虽可能覆盖麦克风间距（约 20-30mm），但因其快速变化的局部湍流，复相干性极不稳定。由此导致滤波器失调，产生大量非线性残余的音乐噪声，同时极易引发语音谐波的泄漏，令残留声染上金属质感。

2. **波束零点畸变**：若试图使用 FF 与 TALK 形成指向性差分阵列，风噪并非远场平面波点源，而是一个紧贴拾音孔的分布压力源。任何幅度/相位失配都会导致波束零点上移，无法对风噪形成有效抑制，反而在低频因相位差误将风噪放大。

在风速超过 4-5m/s（约相当于户外骑行、跑步）时，纯三麦 ENC 输出的语音可懂度已急剧下降，传统单通道后滤波亦难以在保留清音与抑制强风噪间取得平衡。这为骨导融合提供了明确的物理动机。

### 2. VPU骨导传感器的传函特性与信号模型

VPU（常为压电陶瓷或高灵敏度 MEMS 加速度计）通过耳甲腔或耳屏处的皮肤耦合，拾取声带振动经颅骨-软组织传导而来的机械信号。设空气传导语音路径的信号为 \( s_{air}(t) \)，VPU 信号可建模为：

\[ x_{vpu}(t) = h_{bone}(t) * s_{air}(t) + n_{mech}(t) \]

其中 \( h_{bone}(t) \) 是骨传导脉冲响应，表现为一个低频通过滤波器，通常 -6dB 衰减点在 1.5kHz-2.5kHz 附近，3kHz 以上能量骤降；群延迟约 1-3ms。更为关键的是，此传导函数仅在浊音（有声带振动）期间成立。清擦音（/s/,/f/）不具备基频振动，VPU 几乎无有效输出。此外，\( n_{mech}(t) \) 代表机械噪声——如脚步声冲击、耳机与皮肤摩擦、轻微碰撞等，其频谱宽且呈现瞬态脉冲特征。

VPU 最大的优势在于对空气传导风噪的**天然免疫**：声压波动无法直接驱动加速度计，因此即使在大风工况下，VPU 通道的信噪比仍然非常高。但其固有缺陷也极为明显：频带窄（丢失大量辅音和摩擦音信息）、音色沉闷、存在机械串扰。

### 3. 面向鲁棒风噪抑制的融合架构设计

融合的目标是实时决策：在每一个时频点，究竟该信任三麦 ENC 处理后的空气信号、还是 VPU 重建的骨导信号，抑或是两者的动态组合。一个高性能的工程实现需包含以下几个协同层级。

#### 3.1 风噪多维度检测与分级

利用三麦通道间的复数互相关、低频能量比以及单麦的过零率，构建一个概率性风噪检测器。例如，计算 FF 与 FB 信号在 200-800Hz 频段的幅值平方相干性：无风时，环境噪声相干性较高；强风时，相干性急剧跌落。结合全频带能量过载标志，输出一个 0-1 连续变化的风噪严重度指数 \( \alpha_{wind} \)，用于后续的软决策融合，避免硬切换产生的感知断层。

#### 3.2 双通道前处理流水线

- **三麦 ENC 基线处理**：仍运行一套鲁棒的自适应波束形成与后滤波，但将其置于“风中模式”。在此模式下，自适应滤波器冻结速度加快或采用变步长策略应对非平稳风噪，单通道后滤波器则基于深度噪声抑制（DNN）回归模型，侧重保留清音高频摩擦成分，代价是可能残留少量调制风噪。

- **VPU 增强子带处理**：

- **机械噪声抑制**：利用峰值包络检测和短时中值滤波，剔除结构传播的瞬态冲击。

- **传导函数补偿**：在线估计 \( h_{bone}(t) \) 的逆，或通过多带动态压缩器恢复 800-2500Hz 频段的共振峰包络，使骨导语音的浊音听感接近空气传导。

- **谐波外推**：提取可靠基频 F0 及低频谐波，基于源-滤波器模型合成 3-4kHz 以上的高阶谐波，初步补偿高频亮感。

#### 3.3 时频域自适应掩蔽融合

融合引擎工作在 20ms 帧、50% 重叠的短时傅里叶变换域。设空气处理信号谱为 \( Y_{air} \)，VPU 处理信号谱为 \( Y_{vpu} \)，最终输出谱为：

\[ S_{out}(k, f) = (1 - M_{mix}(k, f)) \cdot Y_{air}(k, f) + M_{mix}(k, f) \cdot Y_{vpu}(k, f) \]

其中的混合掩码 \( M_{mix} \) 由风噪严重度 \( \alpha_{wind} \) 和 VPU 可信度联合计算，并采取频率分离策略：

- **低频区（<800Hz）**：风噪能量绝对优势，语音基频及第一共振峰在此。此区域 \( M_{mix} \) 趋近于 1，几乎完全取用 VPU 信号，以获得纯净的低频谐波结构。

- **中频过渡区（800-2500Hz）**：根据风噪强度线性加权。同时引入一个清/浊音判决器：若判为清音，则强制将 \( M_{mix} \) 压低至接近 0，因为 VPU 该频段缺乏有效清音成分，必须信任空气信号处理后的残留。

- **高频区（>2500Hz）**：空气路径风噪能量自然衰减。此处以空气信号为主，但当 \( \alpha_{wind} \) 极高导致空气信号被全频带掩蔽时，利用从 VPU 低频提取的 F0 及频谱包络码本进行带宽扩展（BWE），生成人造高频成分以维持语音可懂度和自然度。

掩码须在时间和频率维度进行平滑（如时间常数 50ms），消除听觉上的“切换感”与“流水声”。这一架构使得风噪抑制突破传统波束极限，在 8m/s 强风下仍能输出轮廓完整、可懂度高的语音。

### 4. 系统工程实现：蓝牙芯片上的协同优化

从蓝牙系统工程师视角，该融合方案须在功耗、算力与端到端延迟约束内固化。

- **多通道同步采集**：四路传感器（3 路 MEMS 麦克风 PDM 接口 + 1 路 VPU 模拟/PDM 接口）必须采用同一低抖动音频主时钟，保证采样点相位严格对齐，这对后续相干性分析和相位利用至关重要。

- **计算流水线切分**：将风噪检测、AEC（回声消除）、ENC 与 VPU 预处理安排在低延迟硬件加速器中，以帧级中断驱动。融合引擎若采用轻量级 DNN（如不超过 500K 参数的循环网络），可运行于蓝牙 SoC 的 NPU 或 DSP 上，并利用单指令多数据流并发处理频带。

- **延迟预算分配**：整个上行链路（麦克风→融合→编码→射频发送）需满足蓝牙免提规范的低延迟要求（通常 < 25ms）。故声学前处理帧长不超过 10ms，融合帧长 16-20ms，算上编码和传输，确保端到端延迟可控。

- **动态功耗管理**：风噪强度较低时，VPU 前端及融合中的高算力模块可降频或休眠，以节省电池。强风启动瞬间通过能量触发快速唤醒，实现无感切换。

### 5. 主观客观性能验证

在风洞环境下利用人工头（HATS）复现典型骑行/跑步风速，对此架构进行多维度验证：

- **客观指标**：在高风速段（6-8m/s），融合方案相对于纯三麦 ENC，其语音可懂度（STOI）可从 0.6 提升至 0.8 以上，POLQA 评分增益往往超过 0.5 分。背景风噪的段信噪比提升 15dB 以上。

- **声学调校**：测量融合输出的发送频率响应（SFR），确保在不同混合比例下频率响应满足宽带电话标准（100Hz-7kHz），且过渡自然。重点测试不同人种、性别的测试者，补偿因皮肤耦合压力差异导致的 VPU 灵敏度变化——可通过在通话起始的 200ms 静音段估算传导增益并自适应补偿。

### 6. 结语

三麦 ENC 与 VPU 骨导麦的融合，本质上是对物理声学层局限性的信号处理补全：利用骨导的“抗风噪”物理特性兜底低频浊音，依靠多麦空间处理保留中高频细节及清音，再通过融合决策平滑过渡。这要求声学工程师在拾音孔防风结构、VPU 耦合谐振点设计上做好物理预滤波，也要求蓝牙系统工程师在功耗、延迟和融合算法复杂度间找到最优平衡。随着端侧 AI 算力的持续提升和骨导传感器微型化，这一融合方案将逐步成为旗舰级语音降噪产品的标准范式。

上一篇:纯DSP架构音箱芯片：技术解析与方案选型参考下一篇:声学腔、光窗与蓝牙时隙多体征监测TWS耳机的系统级工程深度解构