【導讀】TWS耳機正經(jīng)歷從簡單音頻設(shè)備到智能可穿戴計算機的轉(zhuǎn)型。這些設(shè)備如今需要處理實時語音增強、環(huán)境降噪、語音識別、生物追蹤等多重任務,而所有這些功能都需在嚴格的功耗預算和硬件限制下實現(xiàn)。現(xiàn)代TWS耳機的設(shè)計面臨巨大挑戰(zhàn):端到端音頻延遲需保持在4-10毫秒,始終監(jiān)聽功能必須以微瓦級功耗待機,片上SRAM容量緊張,閃存占用空間固定。解決這些挑戰(zhàn)的關(guān)鍵不在于單一的神奇模型或更快的核心,而在于一系列創(chuàng)新壓縮技術(shù)的綜合應用。
通過稀疏性、量化和內(nèi)存感知調(diào)度等壓縮技術(shù),TWS耳機在不大幅增加電池容量或使用更昂貴芯片的情況下,成功實現(xiàn)了多模型AI功能的集成與協(xié)作。
TWS耳機正經(jīng)歷從簡單音頻設(shè)備到智能可穿戴計算機的轉(zhuǎn)型。這些設(shè)備如今需要處理實時語音增強、環(huán)境降噪、語音識別、生物追蹤等多重任務,而所有這些功能都需在嚴格的功耗預算和硬件限制下實現(xiàn)?,F(xiàn)代TWS耳機的設(shè)計面臨巨大挑戰(zhàn):端到端音頻延遲需保持在4-10毫秒,始終監(jiān)聽功能必須以微瓦級功耗待機,片上SRAM容量緊張,閃存占用空間固定。解決這些挑戰(zhàn)的關(guān)鍵不在于單一的神奇模型或更快的核心,而在于一系列創(chuàng)新壓縮技術(shù)的綜合應用。
01 技術(shù)挑戰(zhàn):微型設(shè)備的AI化困境
TWS耳機集成AI功能面臨多重約束。功耗限制是最主要的挑戰(zhàn),設(shè)備需要在不增大電池體積的情況下實現(xiàn)所有功能;計算資源有限,片上內(nèi)存和存儲空間極為緊張;實時性要求高,音頻處理需要低延遲響應;成本壓力大,不能使用過于昂貴的芯片解決方案。
這些約束條件使得傳統(tǒng)的AI模型部署方式不可行?,F(xiàn)代可聽設(shè)備正在融合:TWS耳機增加了輔助聆聽功能;助聽器增加了連接性和更豐富的用戶體驗;高端耳機則向健康和健身領(lǐng)域邁進。典型的期望功能包括:用于通話和面對面降噪的實時語音增強、喚醒詞加口語理解加語音ID實現(xiàn)免提控制和個性化、反饋消除和自適應均衡壓縮及主動降噪、生物追蹤與活動監(jiān)測、運動追蹤等。
02 壓縮技術(shù)三重奏:稀疏性、量化和內(nèi)存優(yōu)化
量化技術(shù)通過降低數(shù)據(jù)精度來減少存儲和計算需求。從32位浮點(float32)轉(zhuǎn)為8位整數(shù)(INT8)權(quán)重可立即減少4倍存儲量,并通過更窄的數(shù)據(jù)路徑節(jié)省能耗。許多音頻模型在使用逐通道縮放時,對INT8的耐受性強,質(zhì)量影響極小。量化感知訓練有助于進一步縮小量化與浮點性能之間的差距。
稀疏性技術(shù)通過消除不重要的連接來優(yōu)化模型。修剪90%的權(quán)重可使參數(shù)存儲量減少約10倍(這也能降低SRAM漏電),并且當硬件實際跳過零權(quán)重時,修剪層的乘加運算(MAC)可減少約10倍。
激活稀疏性利用語音的突發(fā)性特點。即使沒有特殊的激活稀疏性損失函數(shù),在流音頻模型中也常觀察到約50%-70%的稀疏激活(在更安靜的環(huán)境中更高)。當硬件能夠動態(tài)跳過零時,運行時MAC可減少2-3.33倍。
03 內(nèi)存感知調(diào)度與架構(gòu)優(yōu)化
內(nèi)存感知調(diào)度是另一項關(guān)鍵技術(shù)。通過精簡模型、使用因果時間卷積網(wǎng)絡(TCN)或小狀態(tài)循環(huán)神經(jīng)網(wǎng)絡(RNN)模型實現(xiàn)低延遲流處理、融合操作符以減少SRAM的傳遞次數(shù)、利用激活重用、考慮內(nèi)存層次結(jié)構(gòu)進行分塊等方法,可以顯著優(yōu)化內(nèi)存使用效率。
對于多特征系統(tǒng),共享前端(短時傅里葉變換/差分對數(shù)梅爾濾波器組)可以避免特征重復計算相同的緩沖區(qū)。這種優(yōu)化策略能夠顯著降低內(nèi)存占用和提高計算效率。
架構(gòu)設(shè)計上,需要考慮流式友好和融合操作符。因果卷積、小狀態(tài)RNN單元、對新興網(wǎng)絡(如狀態(tài)空間模型(SSMs)和滑動窗口注意力)的未來-proof自定義操作符支持、突發(fā)友好的直接內(nèi)存訪問(DMA)和多種電源循環(huán)模式都是關(guān)鍵考慮因素。
04 實際應用與性能提升
壓縮技術(shù)的實際效果令人印象深刻??紤]一個實時時間卷積循環(huán)神經(jīng)網(wǎng)絡(TCRNN)語音增強模型。在密集狀態(tài)下,它有約600萬個參數(shù),浮點精度下約24兆字節(jié)。使用INT8后,降至約6兆字節(jié)。結(jié)合90%的權(quán)重稀疏性,權(quán)重僅需約600千字節(jié);加上約100千字節(jié)的激活緩沖區(qū)(重用時總計約700千字節(jié))。
這一占用空間足夠小,可與其他功能共存。例如,在1兆字節(jié)的SRAM空間中,可預留約300千字節(jié)用于喚醒詞加SLU路徑(如通過適度稀疏性和INT8將約500千字節(jié)的基線壓縮至約100千字節(jié)),還剩約200千字節(jié)用于語音ID嵌入、聲音事件檢測器、反饋消除器或IMU活動分類模型。
稀疏性在功耗和延遲方面也真正發(fā)揮了優(yōu)勢:去噪器以約1.2毫瓦運行時延遲為8毫秒,以約2.1毫瓦運行時延遲為4毫秒。對于100毫安時的電池,這為無線電以及其他功能和傳感器留出了充足預算。
05 硬件創(chuàng)新與專用芯片
專用芯片的出現(xiàn)進一步推動了TWS耳機的AI化進程。例如,F(xiàn)emtoAI的SPU-001處理器擁有1兆字節(jié)SRAM,在90%稀疏性下等效內(nèi)存為10兆字節(jié)。采用22納米理想節(jié)點,面積3.4平方毫米。它支持上述技術(shù),并將稀疏性作為核心特性。
存算一體技術(shù)是另一個有前景的方向。知存科技自主研發(fā)的存算一體SoC芯片WTM2101已于2022年初正式量產(chǎn),這是國際上量產(chǎn)的首個存算一體SoC芯片。存算一體基于歐姆定律,矩陣乘法效率提高50-100倍,對于穿戴設(shè)備來說,提供了能在低功耗下運行很大算力的AI算法。
采用存算一體芯片的可穿戴設(shè)備可以提供大算力,傳統(tǒng)芯片的功耗在50mA到100mA之間,但是存算一體可以把功耗降低到1mA。這種技術(shù)特別適合實時聲音處理,如聲音增強、通話降噪、聲音美化、人聲增強等AI算法。
06 實際應用案例與市場動態(tài)
業(yè)界領(lǐng)先企業(yè)已經(jīng)開始應用這些技術(shù)。WISHEE AI耳機融合了DeepSeek R1深度思考模型,采用多模型協(xié)作機制,根據(jù)用戶問題的類型和需求,AI Agent會智能拆分子任務,并匹配最適合的模型進行處理。
小米在2025年推出的Xiaomi Buds 5 Pro系列采用了行業(yè)罕見的雙功放三單元聲學系統(tǒng),結(jié)合11mm內(nèi)外雙磁動圈、壓電陶瓷單元和振膜技術(shù),實現(xiàn)了15-50KHz的超寬頻響應。在算法方面,小米團隊與哈曼金耳朵大師合作,采用"哈曼大師"調(diào)音方案,結(jié)合深度學習算法,實現(xiàn)了旗艦級的空間音頻體驗。
2025年9月,立訊精密與美國邊緣人工智能芯片企業(yè)PIMIC達成戰(zhàn)略合作,雙方將基于PIMIC的邊緣AI芯片技術(shù),共同開發(fā)新一代智能可穿戴產(chǎn)品。這項聯(lián)合技術(shù)將很快應用于無線耳機、AI/AR眼鏡及AIoT設(shè)備等可穿戴產(chǎn)品。
FemtoAI 的 SPU-001 芯片
07 實施建議與最佳實踐
實施AI功能時,門控調(diào)度是一個實用模式。始終保持超低功耗監(jiān)聽器(喚醒詞、瞬態(tài)/語音活動)運行,這是最小、最省電的模型(包括前端約200微瓦)。觸發(fā)后,僅在需要時啟動較重的任務(SLU、上下文更新),然后將其轉(zhuǎn)入SRAM保留模式。
共享功能并統(tǒng)一前端也很重要。去噪器的聲學特征也可用于環(huán)境分類或語音ID。從每個應用中提取所需的最高分辨率快速傅里葉變換(FFT)(可能是語音增強或聲源分離),并為低復雜度任務融合FFT bins,避免重復計算前端。
對于生物和活動追蹤,應依靠壓縮性好的緊湊時間模型(TCNs/RNNs);積極下采樣和壓縮時間窗口。在采樣時采用占空比(心率和體溫無需24/7追蹤);當出現(xiàn)較大變化或用戶打開配對的健康/健身應用以獲取更高精度時,提高采樣率。
結(jié)語
TWS耳機的AI化轉(zhuǎn)型正在通過稀疏性、量化和內(nèi)存感知調(diào)度等壓縮技術(shù)取得突破性進展。這些技術(shù)使多個小模型能夠?qū)崟r共存與協(xié)作,在不增大電池或使用更昂貴芯片的情況下實現(xiàn)豐富功能。隨著專用芯片和存算一體架構(gòu)的發(fā)展,以及業(yè)界對壓縮技術(shù)的深入理解,TWS耳機將真正轉(zhuǎn)變?yōu)橹悄芸纱┐饔嬎銠C,為用戶提供更加豐富和便捷的體驗。
推薦閱讀:
超越分辨率!解鎖移動測繪相機系統(tǒng)的關(guān)鍵密碼
突破顯示局限!艾邁斯歐司朗光譜傳感技術(shù)讓屏幕自動適應環(huán)境
偏轉(zhuǎn)線圈技術(shù)解析:從基礎(chǔ)原理到選型要則的全景指南
Cadence與NVIDIA強強聯(lián)合,數(shù)字孿生平臺新模型助推AI數(shù)據(jù)中心高效部署