商世東是雲端會議軟件騰訊會議(國際版為VooV Meeting)旗下騰訊天籟實驗室的總經理。自2019年加入騰訊以來,商世東帶領團隊為騰訊會議開發即時音訊技術,通過各種努力為聽障人士提供幫助。在加入騰訊之前,他在視聽技術領域擁有近20年的經驗,曾就職於摩托羅拉和杜比實驗室。
在最新一期騰訊視角中,商世東與我們分享了天籟實驗室的最新進展以及他在騰訊的生活點滴。
1. 您當初為何決定加入騰訊?
這對我來說並不是一個艱難的決定。在從事視聽技術研發工作近二十年後,我愈來愈渴望直接參與產品開發和疊代,直接與用戶交流,讓自己的研究對世界產生真正的影響。
以前,我更多是投身於實驗室進行一線的科學研究。而現在我每天可以為幾千萬甚至數億用戶提供技術支援,讓他們的工作和生活更加方便,這讓我倍感振奮和自豪。
2. 在過去的兩年中,您為自己和團隊設定了哪些目標?加入騰訊以來最難忘的是什麼?
加入團隊的第一年,我的目標是改善騰訊多媒體實驗室與音訊相關的技術解決方案,了解騰訊的企業文化和各項業務,與其他團隊積極溝通,使我們開發的技術可以在現有平台上發揮更大作用。
隨後我們開始思考如何將遠端通訊和音訊相關的技術應用於更多場景。整個天籟語音模組就是基於這些理念設計的。採用天籟語音技術的騰訊會議於2019年底正式發布,目前全球用戶數已接近2億。疫情爆發後,我們能夠滿足用戶對高效、穩定的遠端通訊和協同辦公的需求。
我們在這一階段取得的成果超出了我的預期。非常感謝騰訊讓我和我的團隊可以自由地決定研發工作的方向和方法,鼓勵我們全情投入在對公司、行業和社會均具價值的技術研究,這不僅實現了我為自身職業生涯設定的目標,也幫助了有需要的人。
3. 天籟AI音訊技術是天籟實驗室的重要成果。您能簡單介紹一下這項技術的研發過程嗎?
大約6年前,隨著網路的普及以及雲計算、深度學習和其他技術的進步,我們預計視聽技術將在虛擬會議、協同辦公等領域發揮更大的作用。
近20年來,騰訊在視聽通訊領域累積了豐富的經驗和強大的技術能力。我們的音訊技術被採用於擁有龐大用戶群的社交軟件、影片和遊戲等消費產品,以及雲計算和AI行業服務等工業解決方案。這項技術在多個行業具備巨大的應用潛力,並且擁有龐大的用戶群,這對研發人員來說無疑是獨特的優勢。
不過,視像會議仍存在一些急需解決的痛點,例如如何讓用戶在即時虛擬會議中聽得更清楚。天籟實驗室繼續通過語音訊號本身來降低噪音,同時不斷改善電路設計、聲學效果和算法。
我們運用聲場感知、採集和重建技術,創造性地解決了會議室複雜場景中即時音訊技術的諸多問題。此外,我們利用深度學習模型,消除了會議室中的200多種非平穩噪音,例如來自空調、風扇葉片旋轉、在手機屏幕上書寫、敲擊鍵盤、放下杯子和翻頁等等的噪聲。(點擊了解商世東的團隊如何讓聲音更清晰)
4. 天籟實驗室與國際知名製造商美笛樂(MED-EL)聯合開發了全球首個集聽力測試、輔聽、遠端聽力服務於一體的助聽應用。雙方是如何合作的?
隨著騰訊會議和我們的其他產品相繼取得成功,天籟技術的出色表現有目共睹。我們開始思考這項技術是否可以應用到更廣泛的領域。多年來,騰訊一直與公益組織緊密合作,所以我們把目光投向了聽障人群的潛在需求。
雖然我們擁有先進的音訊技術和通訊領域的成功經驗,但我們不是專業的醫療設備公司。去年,我們通過與中國知名的人工耳蝸製造商諾爾康合作,將天籟AI技術應用於人工耳蝸,將人工耳蝸的語音清晰度和辯識度度提高了40%。
我們了解到,受疫情影響,部分聽障用戶難以外出就診或接受聽力檢測,因此我們開始思考如何滿足聽障用戶居家進行復康和問診的需求。起初,我們開發了一個微信小程序。經過與用戶、廠商和醫療專家的無數次溝通,同時結合資料分析,我們不斷升級和優化這個小程序的各項功能,並將其升級為一個獨立的移動端應用程式。在此過程中,我們的決心和能力給合作夥伴留下了深刻印象,為此後的合作奠定了基礎。
在我看來,作為技術部門的負責人,你首先必須信賴自己的技術,然後從用戶的角度出發去理解他們的感受。此外,你必須有推動項目發展的決心和毅力,積極尋求外部合作夥伴或公司內部資源的支持,實現互利共贏。
5. 我們如何才能在未來充分發揮技術的潛力,為社會創造價值?
騰訊始終秉承「科技向善」的使命,在商業、技術、產品等各個方面躬耕不輟。以我們實驗室為例,公司從來沒有給我們設定明確的短期商業化目標,而是鼓勵大家思考我們的技術如何才能惠及更多的人,創造更大的社會價值。在這樣一個寬鬆靈活的環境中,我們可以根據自己對技術的理解和現有的技術儲備,思考弱勢社群的真實需求和相關應用場景,從而開發出服務不同人群的產品。
其次,騰訊一直提倡雙贏戰略,與合作夥伴共建產業生態。例如,公司與專業志願者、志願者組織和公益機構聯合設立「騰訊技術公益計劃」,通過技術創新和協作來解決社會痛點。我們與美笛樂合作時,雙方首要考慮的是攜手實現我們的願景,而非自身的利益。
我認為,音訊技術在助力實現無障礙社會方面擁有巨大的潛力。今年4月,騰訊宣布升級總體戰略,將「推動可持續社會價值創新」作為核心。我們與新成立的可持續社會價值事業部旗下實驗室,積極討論和探索音訊技術的社會價值。例如,我們正在研究音訊技術如何幫助長者,以便更好地滿足養老院和長者康復中心等場景的需求。許多長輩聽力受損,通過語音增強和降噪等技術,可以大大改善他們的生活質素。
6. 您的一天通常是怎麼度過的?可否簡單介紹一下天籟實驗室的日常工作和團隊文化?
天籟實驗室提倡開放、創新和變革。團隊裡的每個人都有各自的技術專長,能夠在不同業務場景發揮所長,我們鼓勵大家走出自己的舒適區,更多了解外面的世界,看看其他行業取得的哪些重要進展可以啟發或融入我們的技術之中。
只有保持開放的視野和思維,我們才能更好地進行跨行業合作和創新。例如,許多用戶希望在音訊產品中使用視覺、圖像、文字等功能,這就需要我們進行多模態和跨模態的語音處理,以提供更好的體驗。
我非常喜歡聽故事,經常聽Podcast,最喜歡的是「People Fixing the World」。世界上有許多問題。有的人只看到困難,而有的人卻思考如何解決困難。我經常會深受鼓舞,更加確信自己可以作出更大的貢獻,讓世界變得更美好。