AI音頻技術在體育廣播領域擁有巨大潛力/以及潛在風險
來源:AI音頻時代 編輯:ZZZ 2025-03-28 08:45:58 加入收藏 咨詢

所在單位: | * |
姓名: | * |
手機: | * |
職位: | |
郵箱: | * |
其他聯系方式: | |
咨詢內容: | |
驗證碼: |
|
人工智能(AI)在專業音頻領域的應用,既可能成為自切片面包以來最偉大的發明,也可能像當年的“千年蟲”問題一樣引發恐慌。甚至,它可能產生類似“奧本海默效應”的雙刃劍效果:既可能拯救創造者,也可能毀滅他們,同時展現出既危險又誘人的一面。
AI 設計的專業音頻應用產品已經產生了影響,例如 Respeecher 在電影和視頻中用于自動對白替換(ADR)。在音樂、電視和現場活動制作中,AI 被用于自動混音,甚至直接創作音頻。在這一過程中,它也威脅到了那些越來越多依賴它的“碳基創作者”的就業。
然而,AI 在音頻應用中的全部潛力,包括在廣播和體育直播制作中的應用,仍然充滿不確定性。最近一篇關于 FOX 體育在超級碗制作中應用 AI 的文章,標題中高調提到了“AI”,但內容卻只是模糊地提及了機器學習(被認為是 AI 的一個子集)在未來不確定的應用。AI 已經成為了一種“模因”,盡管是一個價值數十億美元的模因。

SVG 采訪了幾位音頻專家,評估 AI 在體育廣播音頻中的潛在影響。以下是他們的觀點。
01
人類仍然不可或缺
Quintar 的 Tom Sahara 表示:“公司需要先進行投資,AI 才能持續產生實際效果。”

Tom Sahara 是 Quintar(一家空間體驗開發公司)的生產技術高級副總裁,曾任 Turner Sports 的副總裁。他看到了 AI 在音頻領域的雙面性。其優勢包括通過監控信號電平并以確定性和可預測的方式應用電平管理,減輕 A1(音頻工程師)在比賽期間的注意力負擔,或自動混音輸入源以用于二級用途,如入耳式監聽、翻譯和替代語言。它甚至可以通過整合來自外部和非音頻源的數據(如信號切換、路由器活動、錄制設備狀態和 GPS)來改進現有的自動混音流程。

此外,自動化的唇音同步和延遲調整可以按通道存儲,并與時間、播放列表/剪輯 ID、物理位置(GPS)、路由器設置和其他元數據一起保存,從而無需重新編輯或構建獨立的工作流程即可糾正同步錯誤的視頻源。他還指出,支持 IP 的音頻設備將加速 AI/ML(人工智能/機器學習)的發展,因為 A/D 轉換成本高昂且不易集成到傳統工作流程中。
然而,Sahara 也指出:“目前有許多管理、培訓和支持需求尚未完全被理解,公司需要先進行投資,AI 才能持續產生實際效果。例如,根據個人需求訓練基于 AI 的混音和控制代理可能既昂貴又耗時。我們將不得不觀察類似 DeepSeek 的方法是否會影響這一點。此外,獲取大量訓練樣本也很困難,可能會迅速超出預算和時間資源。”
更令人擔憂的是,他補充道:“視頻中的‘幻覺’(錯誤)很容易被發現,但音頻更加微妙,驗證過程更加復雜。人類仍然需要參與其中。”
Calrec 的美國運營副總裁 Chris Fichera 也看到了 AI 的雙面性。他提到,AI 能夠實時處理音頻,管理解說員評論、觀眾噪音、效果和現場聲音,并自動調整均衡器(EQ),基于實時數據創建沉浸式 3D 混音。但他也指出,在快節奏、不可預測的體育節目中,過度依賴自動化功能可能存在風險。
不過,他指出,這些功能可能有助于緩解體育廣播領域經驗豐富的 A1 逐漸流失的問題,因為退休人數增加,從業者群體逐漸老齡化。“這對于經驗有限的 A1 來說非常有用,尤其是在進行廣播節目制作時。”
02
樂觀的看法
AudioShake 的 Suzanne Kirkland 表示:“AI 工具將增強人類專業知識,讓音頻專業人士能夠專注于故事敘述和粉絲互動,而不是繁瑣的清理工作。”

Suzanne Kirkland 是 AudioShake 的企業客戶業務總監。她認為,在體育領域,AI 驅動的工具如音源分離、自動混音和語音克隆能夠提高工作效率并解鎖新的內容機會。
“音源分離是 AudioShake 的核心技術,它幫助聯賽和廣播公司應對體育直播音頻的復雜性,” 她說,“在體育直播中,觀眾噪音、解說和現場聲音相互競爭。我們的對話隔離模型通過從嘈雜環境中隔離清晰的語音,提高了轉錄的準確性,從而更精確地捕捉重疊的球員、教練和解說員的對話。這使得廣播公司能夠突出最重要的內容,無論是場上的動作還是場邊的動態。”

“音樂移除是另一個改變游戲規則的技術,幫助團隊和廣播公司避免法律和變現問題,” 她繼續說道,“通過去除受版權保護的音樂,同時保留語音和環境聲音,我們的技術使內容能夠更自由地在平臺上共享,而無需擔心下架或版權問題。”
然而,AI 并不是能夠單獨改變行業的“靈丹妙藥”。她強調,AI 不會取代人類的專業知識:“AI 工具將增強它,讓音頻專業人士能夠專注于故事敘述和粉絲互動,而不是繁瑣的清理工作。AI 將幫助處理繁瑣的工作,讓那些了解粉絲及其喜好的人有機會專注于創造和利用精彩內容。”
03
AI 已經在發揮作用
Salsa Sound 的 Rob Oldfield 表示:“更先進、更高效的算法,加上硬件加速,意味著實時應用現在成為可能。”

Salsa Sound 的聯合創始人兼首席執行官 Rob Oldfield 指出,自 2017 年以來,他的公司一直在使用深度學習技術開發現場比賽子混音器。他承認,近年來 AI 的炒作可能有些過頭,盡管它在語音識別和降噪等領域已經取得了成功。
盡管如此,他補充道,一些重大進展使得算法的部署和開發變得更加容易,新的方法也擴展了在實時音頻中可以實現的范疇。“歷史上,AI 在音頻中的應用主要局限于非實時/離線應用,”他解釋道,“但更先進、更高效的算法,加上硬件加速,意味著實時應用現在成為可能。”

他提到,AI 處理可能帶來的延遲問題,“一個很好的例子是自動字幕生成、翻譯和語音替換,這些技術正在迅速為無障礙音頻解決方案帶來新的可能性,為觀眾提供多語言解說或音頻描述頻道,而這些在以前由于成本高昂和人力密集,難以大規模生產。”
Salsa Sound 目前的計劃包括進一步開發自主混音/制作工具。這家總部位于英國的公司還正在推出一套自動化質量控制工具,利用機器學習監聽特定音頻故障的特征或問題。這包括風噪檢測、相位異常、爆音/雜音和其他偽影,以及音質、語音清晰度和關鍵詞/語言檢測等功能。
“實時音頻 AI 已經有很多可能性和實際應用,” 他說,“但未來還會有更多。這是一個令人興奮的時代。”
04
小心你的愿望
NBC體育和奧運會的Karl Malone:“我認為目前廣播中的AI是‘自動化智能’,只要有人領導它,而不是將其用作‘設置并忘記’。”

與大多數工程同行一樣,NBC體育和奧運會的高級音頻工程總監Karl Malone從實用而非理論的角度看待AI,專注于現在和不久的將來該技術及其子集(如機器學習)能為廣播體育帶來什么,主要是以自動化流程的形式。然而,像任何曾經混音過節目的人一樣,他對潛在的缺點持謹慎態度。
“我認為目前廣播中的AI是‘自動化智能’而不是‘智能’,” 他說,并引用了Lawo的KICK音頻混音/球跟蹤技術,該技術目前由德甲和FIFA用于足球比賽。“我支持將我們廣播音頻中的一些任務自動化,只要有人負責制作音頻設計并領導它,而不是將其用作‘設置并忘記’,因為‘忘記’部分是我們可能遇到問題的地方。”

但自動化流程可以帶來顯著的好處。例如,他建議,它可以用于在嘈雜的體育場館或官員的耳機中清理解說員麥克風通道。
“而且,當我們為觀眾提供更個性化的音頻選項時,比如賽車運動,” 他繼續說,“我可以看到從A1控制臺自動或智能混音音頻干音到與內容匹配的演示中。例如,選擇一個車內攝像頭,聽到該車的環境聲音,加上駕駛員和機組人員的通信,加上或減去節目評論。所有這些源都可以使用保持每個演示在混音質量、LKFS等方面一致的參數進行智能混音。”
目前,Malone將AI視為A1和聲音主管工具帶中的另一個工具,盡管它比自動混音和動態噪聲抑制更有能力。然而,未來可能更難預測,特別是當消費者對他們的廣播音頻有更多期望時,以及媒體公司尋找更好地吸引他們的方式時。
“最終,產品的人工智能性質將演變為能夠一致地混音整個比賽場地,” 他預測。“但是,隨著更多內容需要通過直接面向消費者的模式播出,我們音頻社區將不得不開始定義我們感興趣的任何智能混音過程的參數,然后以視頻為中心的行業公司開始發布所有新的閃亮AI音頻混音工具。”
換句話說,他警告說,圍繞AI和廣播聲音的炒作最終可能會損害它聲稱要增強的音頻質量。
評論comment