产品形态分析

目前主要的耳机形态

形态

半入耳

入耳

骨传导

开放式

夹耳

优势

实现最简单

入耳可封闭

通过骨头震动传声

不入耳,长时间佩戴舒适,音质好于骨传导

比入耳式舒适,比开放式更小巧

可以做深度降噪

不影响耳朵收听其他声音

劣势

舒适性,降噪扩展均不突出

长时间佩戴不舒服

不轻便,夹脖子也不是很舒服

尺寸稍大,音质差于挂耳、入耳

长时间夹耳不舒服

AI办公耳机形态分布

以科大讯飞为例,讯飞目前AI会议耳机总共有8款,其中半入耳2款,入耳式4款,开放式2款。

考虑到商务办公有专注度的要求,主要形态在降噪支持更好的入耳式形态上。

以主打翻译为主的时空壶为例,在售产品4款,半入耳2款,入耳式1款,开放式1款。

时空壶的翻译场景,有面对面通过分享耳机实现同传翻译的功能场景,这种场景下,入耳式产品不卫生,主要形态式半入耳式耳机和开放式耳机。

之前以韶音为代表的骨传导耳机,主要在运动场景中,开放式耳机普及后,更多人会选择开放式耳机,办公场景没有采用骨传导的耳机形态。

 

不同场景耳机工作原理分析

通话录音

使用场景:日常通话场景,无论是通话还是任意 APP,只要通过耳机进行接听的均可录制。

解决问题:iPhone不能实现无感录音,微信语音等不支持录音的场景实现录音

1. BLE实时回传方式

讯飞耳机支持可选配置,耳机已连接APP(APP后台进程存在),通过触摸耳机快捷键触发录音,录音自动录制到APP中。

这种方式兼容性好,无论是通话、视频会议,还是观看三方视频等,均支持将声音回传到后台的APP进行处理,通过悬浮框显示实时字幕、翻译结果,或者录音存储。

目前的耳机蓝牙芯片均支持传统蓝牙(BT2.1+EDR) 以及低功耗蓝牙(BLE5.0以上版本),此方式硬件上实现的难点在于耳机中的芯片和嵌入式程序需要在传统蓝牙A2DP、HFP通话的前提下,在耳机内部将声音取出,重新进行压缩编码,通过BLE(低功耗蓝牙)将数据重新传回手机APP,由于走的蓝牙模式和协议不同,BLE支持后台APP连接,也不会和传统的蓝牙音频通路有冲突。

虽然在实现逻辑上较为简单,但是因为此种模式需要耳机芯片同时解码、编码,双模式蓝牙同时传输,在之前的产品中应用较少,芯片厂商在软件层面没有支持,讯飞是和中高端蓝牙芯片厂商恒玄合作,在芯片底层做了定制开发。

 2. 本地录音模式

BLE 实时回传的方式,需要接收数据的APP始终在后台运行,仍然有操作成本,讯飞则进一步优化,实现本地录音模式,本地录音模式实现逻辑更为简单,通过耳机播放或者采集的声音,由耳机直接存储在内部存储中,录音结束后再导出到APP中。

虽然逻辑简单,但是仍然限制较多。

和 BLE 实时回传一样,在传统蓝牙运行进行编解码的同时,同时要降数据重新进行编码存储,此部分需要芯片厂商底层配合。

耳机内部空间有限,这类嵌入式设备使用功耗更低,容量也更小的 NORFLASH,常见容量为 16MB。通过高压缩率的 OPUS 编码,能够存储约 2个小时的本地录音。

数据导出慢,只能通过蓝牙进行数据导出,速度只有几十KB 每秒,经过测试,讯飞耳机本地录音每个耳机能够存储约 2个小时,100 分钟的录音时长,导出需要 10 分钟左右,而且只能降耳机放回充电盒才可以启动音频导出。体验不算太好。

现场录音

使用场景:不方便拿着手机,或者手机不方便外置的录音场景

 

利用耳机进行收音,录音方式同时支持 BLE 回传录音和手机本地录音两种模式。

中高端耳机有双麦克风甚至三麦克风降噪,能够降波束收音聚焦在正前方,收音效果会更好。

音视频录音

 

同通话录音的实现原理一样,通过耳机中转回传后可以实时显示字幕、翻译,并进行后台存储录音。

以上几种方式最大的优势是兼容性好,无论是系统电话,还是会议软件等三方应用均可以无缝兼容。

面对面翻译

使用场景:面对面沟通,拿着一个手机来回按不方便,自己带着耳机,把手机递给对方查看。

自己戴上耳机,触摸耳机,走耳机麦克风收音。

手机播放翻译后的声音展示文字给到对方。

对方点击手机APP按钮触发通过手机麦克风收音,耳机中播放翻译后的语音。

 

此种方式对耳机没有任何特殊需求,仅仅式通过 APP 把录放音通道进行分离,使得交互流程更加顺畅,不用一个 手机来回传递分别按按钮,能够提升交互的流畅性。

面对面单向同传听译

 

此种模式实现较为简单,对耳机没有特殊要求,手机靠近声源收音,耳机播放翻译后的声音。

通过手机麦克风采集,耳机进行播放,适用于听课等场景,手机可以摆放在桌面或者声源较近场景,有较好收音效果的同时可以实时听到翻译结果。

面对面双向同传翻译

 一般真无线耳机左右声道采用主从架构:主耳机与手机建立蓝牙链路,主耳从手机获取左右声道信号后再通过组网(TWS)发送给副耳。这种方式易导致链路中断或延迟不均衡。为此出现了双通道方案(如Qualcomm的TrueWireless Mirroring),即手机同时对两只耳机各发一路信号,任何一只耳机都可成为主连接,提高连接稳定性和切换效率。科大讯飞的专利(CN119835565ATWS耳机的模式切换方法、耳机系统、设备及产品)指出,其会议耳机可在“同传模式”下切换为双连接架构:设备将两只耳机各自的蓝牙地址发送给主耳,随后两只耳机分别与手机独立建立蓝牙链路,实现双耳并行音频收发。这种设计避免了传统TWS下只有一只主耳机转发音频的限制,适用于双向实时翻译等场景。此外,新一代协议如Bluetooth LE Audio亦支持每耳独立连接和多播(Broadcast),未来可降低延迟、扩展新功能,但目前多为规划中,高通及联发科等已在芯片层面布局双通道同步技术。

  

通话双向翻译

对方无需安装任何软件,支持使用电话、三方任意通话APP,可以实现将用户说话的声音截取翻译后传送到对方。

以讯飞会议耳机为例,实现此功能,APP需要后台运行。对电话的另一方无任何要求,电话接通后,一方说话,另一方直接听到说话后的声音

对方说话,这边左耳机听到对方的原声,右耳机播放翻译后的声音

 

实现方式分析

此模式实现较为复杂,以下实现流程为推测,只是逻辑上能够跑通。

核心实现原理和面对面双向同传翻译类似,两个耳机对等与手机连接,左声道耳机同时运行双模蓝牙,右声道耳机只运行低功耗蓝牙。

以中英文对话为例。

拨打方说中文,佩戴的耳机采集用户声音后先不通过传统的HFP通道发送给手机,先通过BLE通道传输到后台的APP,APP将语音翻译成英文语音后,通过BLE通道传回耳机,耳机将翻译后的语音,再通过HFP通道传回手机通话应用,这就实现了通过耳机这个外挂,把语音实现拦截、翻译、替换。也能完美的避开收集关于权限的限制。

接听方说英文,传输到拨打方手机,左声道耳机解码播放后,同时将声音传输到手机上后台运行的APP中,APP将声音翻译成中文语音,发送到右声道播放。

 

不同场景对耳机的定制性要求汇总

场景

功能描述

耳机是否定制

定制项目

通话录音

音视频录音

手机通话、应用播放音频能够通过耳机内置存储或者后台APP录音

耳机需要支持在通话、播放音频的同时,并行将音频数据本地编码存储,或者通过BLE通道并行发回手机

现场录音

不考虑耳机本地录音的情况下,打开APP,通过耳机麦克风收音,实时录到APP中

等同于录音应用通过耳机进行收音、通话,无需特殊定制

面对面翻译

面对面单向同传听译

自己带耳机,把手机给对面需要翻译的人,通过耳机说话,手机播放翻译后的声音,对面按手机上的图标说话,耳机播放翻译后的声音

无需定制,翻译APP将蓝牙耳机麦克风、扬声器与手机麦克风扬声器按照翻译语种进行区分调用即可。

面对面双向同传翻译

面对面场景,一个人一个耳机,各自的耳机采集各自说话的声音,同时播放把对方说话翻译后的声音

声音播放耳机都支持两个声道,需要两个耳机在声音采集声道上也支持声道分离,APP对应的语种使用对应通道的数据。

通话双向翻译

接听方不用耳机,不用装软件,拨打放说话,接听放自动听到翻译后的声音,接听方说话,拨打方一个耳朵听到原始声音,一个耳朵听到翻译后的声音。

耳机和手机支持对等连接,耳机内需要支持音频截取发送,还能替换HFP的声音,复杂度最高。