在消费级真无线耳机(TWS)的语音通话链路中,风噪始终是最棘手的环境干扰之一。单纯依靠多麦克风环境降噪(ENC)已难以在强阵风或高速运动场景下提供可接受的语音质量。将三麦克风阵列与基于骨传导原理的语音拾取单元(VPU,Voice Pickup Unit)在声学与算法层面深度融合,正成为突破风噪极限的核心技术路径。本文将从声学设计与蓝牙系统工程双视角,深入剖析该架构的设计逻辑、信号模型、融合策略及工程实现关键。
---
### 1. 风噪的物理本质与三麦ENC的性能边界
风噪由湍流气流直接冲击麦克风振膜或流经拾音孔边缘产生,呈现出强烈的低频能量集中、非平稳和极低通道间相干性。对一个典型的三麦耳机系统(定义为:耳外前馈麦克风 FF、耳内反馈麦克风 FB、指向嘴部的通话麦克风 TALK),风噪在各个节点呈现迥异的特性:
- **FF 麦克风**:直接暴露于来流,湍流脉动压力最大,风噪能量可轻易淹没有用语音。
- **FB 麦克风**:位于受耳机壳体遮蔽的前腔或后腔,虽然经历了声障的衰减,但压力脉动仍通过泄声孔或壳体振动耦合进入,风噪呈现更低通且延迟的版本。
- **TALK 麦克风**:常置于杆体底部或内侧,方向性使得迎风面风噪略低,但由于杆体脱落涡的产生,其风噪依然严重。
三麦 ENC 的传统方法是构建广义旁瓣消除器(GSC)或多通道自适应滤波器,利用 FB/FF 的噪声参考信号消除 TALK 中的环境分量。然而,风噪场景下这一范式面临两大失效机制:
1. **相干性坍塌**:自适应滤波依赖参考通道与主通道噪声的高度相干。风噪的空间相干长度在低频虽可能覆盖麦克风间距(约 20-30mm),但因其快速变化的局部湍流,复相干性极不稳定。由此导致滤波器失调,产生大量非线性残余的音乐噪声,同时极易引发语音谐波的泄漏,令残留声染上金属质感。
2. **波束零点畸变**:若试图使用 FF 与 TALK 形成指向性差分阵列,风噪并非远场平面波点源,而是一个紧贴拾音孔的分布压力源。任何幅度/相位失配都会导致波束零点上移,无法对风噪形成有效抑制,反而在低频因相位差误将风噪放大。
在风速超过 4-5m/s(约相当于户外骑行、跑步)时,纯三麦 ENC 输出的语音可懂度已急剧下降,传统单通道后滤波亦难以在保留清音与抑制强风噪间取得平衡。这为骨导融合提供了明确的物理动机。
### 2. VPU骨导传感器的传函特性与信号模型
VPU(常为压电陶瓷或高灵敏度 MEMS 加速度计)通过耳甲腔或耳屏处的皮肤耦合,拾取声带振动经颅骨-软组织传导而来的机械信号。设空气传导语音路径的信号为 \( s_{air}(t) \),VPU 信号可建模为:
\[ x_{vpu}(t) = h_{bone}(t) * s_{air}(t) + n_{mech}(t) \]
其中 \( h_{bone}(t) \) 是骨传导脉冲响应,表现为一个低频通过滤波器,通常 -6dB 衰减点在 1.5kHz-2.5kHz 附近,3kHz 以上能量骤降;群延迟约 1-3ms。更为关键的是,此传导函数仅在浊音(有声带振动)期间成立。清擦音(/s/,/f/)不具备基频振动,VPU 几乎无有效输出。此外,\( n_{mech}(t) \) 代表机械噪声——如脚步声冲击、耳机与皮肤摩擦、轻微碰撞等,其频谱宽且呈现瞬态脉冲特征。
VPU 最大的优势在于对空气传导风噪的**天然免疫**:声压波动无法直接驱动加速度计,因此即使在大风工况下,VPU 通道的信噪比仍然非常高。但其固有缺陷也极为明显:频带窄(丢失大量辅音和摩擦音信息)、音色沉闷、存在机械串扰。
### 3. 面向鲁棒风噪抑制的融合架构设计
融合的目标是实时决策:在每一个时频点,究竟该信任三麦 ENC 处理后的空气信号、还是 VPU 重建的骨导信号,抑或是两者的动态组合。一个高性能的工程实现需包含以下几个协同层级。
#### 3.1 风噪多维度检测与分级
利用三麦通道间的复数互相关、低频能量比以及单麦的过零率,构建一个概率性风噪检测器。例如,计算 FF 与 FB 信号在 200-800Hz 频段的幅值平方相干性:无风时,环境噪声相干性较高;强风时,相干性急剧跌落。结合全频带能量过载标志,输出一个 0-1 连续变化的风噪严重度指数 \( \alpha_{wind} \),用于后续的软决策融合,避免硬切换产生的感知断层。
#### 3.2 双通道前处理流水线
- **三麦 ENC 基线处理**:仍运行一套鲁棒的自适应波束形成与后滤波,但将其置于“风中模式”。在此模式下,自适应滤波器冻结速度加快或采用变步长策略应对非平稳风噪,单通道后滤波器则基于深度噪声抑制(DNN)回归模型,侧重保留清音高频摩擦成分,代价是可能残留少量调制风噪。
- **VPU 增强子带处理**:
- **机械噪声抑制**:利用峰值包络检测和短时中值滤波,剔除结构传播的瞬态冲击。
- **传导函数补偿**:在线估计 \( h_{bone}(t) \) 的逆,或通过多带动态压缩器恢复 800-2500Hz 频段的共振峰包络,使骨导语音的浊音听感接近空气传导。
- **谐波外推**:提取可靠基频 F0 及低频谐波,基于源-滤波器模型合成 3-4kHz 以上的高阶谐波,初步补偿高频亮感。
#### 3.3 时频域自适应掩蔽融合
融合引擎工作在 20ms 帧、50% 重叠的短时傅里叶变换域。设空气处理信号谱为 \( Y_{air} \),VPU 处理信号谱为 \( Y_{vpu} \),最终输出谱为:
\[ S_{out}(k, f) = (1 - M_{mix}(k, f)) \cdot Y_{air}(k, f) + M_{mix}(k, f) \cdot Y_{vpu}(k, f) \]
其中的混合掩码 \( M_{mix} \) 由风噪严重度 \( \alpha_{wind} \) 和 VPU 可信度联合计算,并采取频率分离策略:
- **低频区(<800Hz)**:风噪能量绝对优势,语音基频及第一共振峰在此。此区域 \( M_{mix} \) 趋近于 1,几乎完全取用 VPU 信号,以获得纯净的低频谐波结构。
- **中频过渡区(800-2500Hz)**:根据风噪强度线性加权。同时引入一个清/浊音判决器:若判为清音,则强制将 \( M_{mix} \) 压低至接近 0,因为 VPU 该频段缺乏有效清音成分,必须信任空气信号处理后的残留。
- **高频区(>2500Hz)**:空气路径风噪能量自然衰减。此处以空气信号为主,但当 \( \alpha_{wind} \) 极高导致空气信号被全频带掩蔽时,利用从 VPU 低频提取的 F0 及频谱包络码本进行带宽扩展(BWE),生成人造高频成分以维持语音可懂度和自然度。
掩码须在时间和频率维度进行平滑(如时间常数 50ms),消除听觉上的“切换感”与“流水声”。这一架构使得风噪抑制突破传统波束极限,在 8m/s 强风下仍能输出轮廓完整、可懂度高的语音。
### 4. 系统工程实现:蓝牙芯片上的协同优化
从蓝牙系统工程师视角,该融合方案须在功耗、算力与端到端延迟约束内固化。
- **多通道同步采集**:四路传感器(3 路 MEMS 麦克风 PDM 接口 + 1 路 VPU 模拟/PDM 接口)必须采用同一低抖动音频主时钟,保证采样点相位严格对齐,这对后续相干性分析和相位利用至关重要。
- **计算流水线切分**:将风噪检测、AEC(回声消除)、ENC 与 VPU 预处理安排在低延迟硬件加速器中,以帧级中断驱动。融合引擎若采用轻量级 DNN(如不超过 500K 参数的循环网络),可运行于蓝牙 SoC 的 NPU 或 DSP 上,并利用单指令多数据流并发处理频带。
- **延迟预算分配**:整个上行链路(麦克风→融合→编码→射频发送)需满足蓝牙免提规范的低延迟要求(通常 < 25ms)。故声学前处理帧长不超过 10ms,融合帧长 16-20ms,算上编码和传输,确保端到端延迟可控。
- **动态功耗管理**:风噪强度较低时,VPU 前端及融合中的高算力模块可降频或休眠,以节省电池。强风启动瞬间通过能量触发快速唤醒,实现无感切换。
### 5. 主观客观性能验证
在风洞环境下利用人工头(HATS)复现典型骑行/跑步风速,对此架构进行多维度验证:
- **客观指标**:在高风速段(6-8m/s),融合方案相对于纯三麦 ENC,其语音可懂度(STOI)可从 0.6 提升至 0.8 以上,POLQA 评分增益往往超过 0.5 分。背景风噪的段信噪比提升 15dB 以上。
- **声学调校**:测量融合输出的发送频率响应(SFR),确保在不同混合比例下频率响应满足宽带电话标准(100Hz-7kHz),且过渡自然。重点测试不同人种、性别的测试者,补偿因皮肤耦合压力差异导致的 VPU 灵敏度变化——可通过在通话起始的 200ms 静音段估算传导增益并自适应补偿。
### 6. 结语
三麦 ENC 与 VPU 骨导麦的融合,本质上是对物理声学层局限性的信号处理补全:利用骨导的“抗风噪”物理特性兜底低频浊音,依靠多麦空间处理保留中高频细节及清音,再通过融合决策平滑过渡。这要求声学工程师在拾音孔防风结构、VPU 耦合谐振点设计上做好物理预滤波,也要求蓝牙系统工程师在功耗、延迟和融合算法复杂度间找到最优平衡。随着端侧 AI 算力的持续提升和骨导传感器微型化,这一融合方案将逐步成为旗舰级语音降噪产品的标准范式。