百年奧運的瞬即美學:凌空之美,分秒凝結 —阿里雲視頻雲AI編輯部「雲智剪」

奧運賽事每天都在上演冰雪奇蹟,而捕捉髮生瞬間,凝結最精彩、最動人的體育人文畫面,讓「冰之舞」、「雪之舞」、「速度之美」、「凌空之美」如盛宴般綻放,讓「金牌時刻」與「國將風采」變成永恆回蕩時空。而實現這一切的,源自阿里雲視頻雲AI編輯部提供的雲上智能生產能力——AI雲智剪。

如果說,2022冬奧開幕式是一場中國對世界講述的故事,展開的是中國式的浪漫,那冬奧會的瞬間之美,更像是記載歷史的青川木牘,展開的是人物和故事的不凡之巔。

北京冬奧已接近尾聲,各項賽事全面而展,冰雪奇蹟每日上演。此次冬奧賽事,中國代表團首次實現7個大項15個分項「全項目參賽」,其中35項是首次站上冬奧舞台,如此之多的賽事內容也為奧運的視頻生產提供了豐富素材。

1.png

為了在冬奧賽事短視頻內容時兼顧實效、精彩、人文、美學,央視體育新媒體和總台技術團隊聯合阿里雲視頻雲、阿里巴巴達摩院,引入AI編輯部的智能生產工具「AI雲智剪」,可以實時完成多賽事的智能內容理解,在極短時間內智能化自動生成大量精彩視頻素材,覆蓋賽場動作、賽事內容、各類鏡頭等多個描述維度,生成美學主題的集錦素材。

自由式滑雪女子大跳台,單板滑雪男子大跳台、花樣滑冰中,中國選手蘇翊鳴、谷愛凌、金博洋、隋文靜/韓聰等均表現出色,無論是金牌,還是對自我的突破,其傳遞的冬奧精神在這個冬日裏如烈火般鼓舞人心。

AI雲智剪在比賽完成的第一時間就對視頻內容進行了多維度解析,完成了精彩素材生成,同時基於跨視頻集錦生產能力,第一時間為觀眾生產主題集錦視頻,截至目前已經自動化處理200+場比賽,生產素材片段達3萬段以上,生成的大量主題式視頻在央視體育新媒體上即時呈現,迅速傳播。

在體育賽事內容傳播上,AI雲智剪可以高效、快速、全面地為冬奧賽事播報提供強大的生產力,快速搶佔發佈先機,也為全球賽事觀眾帶來及時而優質的賽事體感,同時也為媒體行業深度開發體育媒體版權內容價值,創造了更多可能性。

針對奧運賽事內容,AI雲智剪設定了豐富的美學主題智能模板,如針對冰球、花滑、速滑、短道速滑等,設置主題「冰之舞」,針對單板滑雪和自由滑雪,打造主題「雪之舞」,同時,從速度型賽事的特殊視角,如花滑的旋轉、冰球的進球等,呈現「速度之美」,而對於跳躍性動作豐富的滑雪賽事,塑造「凌空之美」,可謂通過智能化視頻雲技術,全面捕捉賽事瞬即間的美學光影。

科技冬奧的新內容生產力

AI與機器學習在體育媒體視頻生產領域的應用是產業的大勢所趨,隨着數字化媒體的高速演進以及受眾媒體內容消費習慣的持續更迭,碎片化的短視頻內容已經成為各內容消費領域的主流,體育媒體內容領域也不例外。

此次冬奧會更是以科技冬奧為主旨,AI在其中的作用至關重要,基於AI編輯部,其雲上智能生產能力「AI雲智剪」在賽事內容生產中發揮了巨大價值,已儼然成為科技冬奧新內容的生產力。

以比賽本身為核心,AI雲智剪通過對賽事內容的精彩信息進行定義、提取,從比賽視頻、解說詞音頻、人物場記等各個維度進行識別與分析,並利用多模態融合技術,從實現複雜場景下的特色集錦效果。AI雲智剪可以對體育賽事視頻進行高效的AI內容分析,可以實時生成多種類型的集錦內容,除了精彩動作鏡頭、運動員集錦等單賽事中的重要片段以外,還支持國將風采、凌空之美、小將出征等多種複雜主題類型的集錦視頻生產,實現視頻內容解析、多類型視頻素材生產、跨視頻的複雜主題視頻生成的多層級短視頻生產能力覆蓋。

AI雲智剪依靠阿里雲視頻雲強大的流媒體處理能力,可以保證每場比賽的精彩集錦,在3-5分鐘內生成,再由平台快速發佈出去,極大提升了媒體搶佔先機的能力和大眾盡享冬奧賽事的體感。

image.png
圖1 AI雲智剪流程圖

如上圖所示,AI雲智剪的智能生產過程,主要包含兩個步驟:

第一,AI模型要對賽事視頻進行理解,基於在AI領域的長期積累,AI雲智剪可以對多種體育賽事進行細粒度行為、賽場事件、人文事件、鏡頭類型的深度理解,同時對視頻片段進行美學評價、動作精彩度評價、多樣性評價,這等同於整個系統的眼睛和大腦,只有看得多、看得細、想得全、想得快,才可以在激烈的冬奧賽場上,為觀眾們儘快呈現精美絕倫的內容。第二,基於AI模型輸出的各類型片段和多指標評價,素材生產模塊會基於符合權重進行素材選取,生產大量精選素材,同時也輸出多種主題集錦素材。

同時,為了響應綠色冬奧的主題,AI雲智剪首次採用了單視頻理解模型,對多賽事、多來源、多種類的視頻進行內容解析、多類型視頻素材生產、跨視頻的複雜主題視頻生成的多層級短視頻生產。

該視頻理解模型有三點突出的內容價值:

  • 可以對橫跨自由式滑雪、花樣滑冰、單板滑雪、冰球、速度滑冰、短道速滑等多個賽事中的眾多細粒度動作進行識別,捕捉精彩瞬間;

  • 可以對賽事視頻中的非競技動作進行識別,感知觀眾的歡呼、選手的情緒、頒獎奪金等關鍵時刻;

  • 可以對鏡頭類型進行區分,進行多類型素材的智能化組合。

將完成如此多重複雜的任務重擔放在一個模型里,這也對AI雲智剪的AI模型泛化能力帶來巨大的挑戰。

冬奧雲上新內容背後的新算法

通過AI雲智剪呈現新內容,冬奧的雲上智能生產運用了全新的智能算法技術。從本質邏輯上,AI雲智剪是基於智能算法模型,對視頻賽事進行解構、解析、評分,最終再基於多樣性策略,以及AI模型輸出的多樣性評分進行智能化的視頻素材生成。

正是依託前沿技術,AI模型可以在較少的計算資源需求下,實現多賽事、多來源、多種類的視頻進行內容解析、集錦素材生產。

協同阿里雲視頻雲的技術輸出,阿里巴巴達摩院的算法工程師採用了阿里巴巴最新研發的預訓練模型技術LOOK(該技術已經被人工智能領域頂級會議ICLR 2022錄用)。相比於常見的訓練方式要求所有的同類別樣本特徵接近於一個中心特徵,LOOK可以在模型訓練過程中僅要求接近的同類樣本更加接近,保留更多的特徵自由度。

可以認為,這是從一個「求同去異」到「求同存異」的過程改進,正因為在訓練過程保留了更多的有效信息,也使得模型特徵的表示能力更加通用,最終基於這一個通用表徵的基礎模型,構建了多個輕量級的多分枝任務模型,去完成多項任務。

因為共享了同一個基礎表示模型,在計算消耗上多個任務分枝比單個任務分支增加的額外計算負擔幾乎可以忽略不計,但卻可以和直接使用多個模型達到同樣的AI能力。

正是基於這一技術,AI雲智剪更快更高更強地支撐起冬奧會的短視頻生產任務。

image.png

圖2 預訓練模型技術LOOK示意圖

在使用預訓練模型技術以外,由於此次冬奧會視頻數據是模型「從未見過」的數據,為了保證模型的魯棒性和計算結果的穩定性,阿里巴巴最新研發的開集識別技術NGC(已被計算機視覺頂級會議 ICCV 2021 錄用為口頭報告)也被引入其中。AI模型會同時利用模型預測的置信度和特徵的幾何結構,來共同決定最終結果,這也使得AI雲智剪雖然是第一次在冬奧會上登場,但也是相當的「穩」。

image.png

圖3 開集識別算法NGC示意圖

此外,阿里巴巴達摩院在視頻理解領域積累了大量技術,包括基礎模型表徵,時序特徵建模、自監督表示等,通過阿里雲視頻雲AI雲智剪的能力輸出,均在這次冬奧會中展露頭腳,也被開源在EssentialMC2技術框架(//github.com/alibaba/EssentialMC2)中,以此致力於推動視頻內容理解領域社區的技術發展。

多次創造頂級賽事新視聽

早在2018年世界盃期間,阿里雲視頻雲AI編輯部就聚焦於利用「視頻AI+雲剪輯+媒資管理」的技術,實時生產精彩集錦和球星集錦,滿足球迷們的重溫賽事和追星的需求。

在2018年世界盃上, CCTV5採用了阿里雲視頻雲AI編輯部的視頻AI技術,實現對第一腳傳球檢測、回放檢測、危險射門檢測、犯規檢測、運動軌跡分析及進攻節奏分析等,用AI技術替代了龐大複雜的高清現場製作設備,高效實時地產出賽事集錦,讓精彩不容錯過。

經過四年的技術錘鍊和產品打磨,AI編輯部已陸續支持足球、籃球、冰壺、花樣滑冰、短道速滑、滑雪等多種賽事的特色集錦和主題生產,幫助用戶有效提高視頻的生產效率,讓內容更快速、更精彩,也更有優美之感。

冬奧賽事接近尾聲,AI編輯部的視頻AI技術在本次奧運會中成功落地,這是賽事應用的又一里程碑,也是視頻AI應用於體育行業及更多其他行業的廣闊開端。經歷了對百年奧運如此大型賽事的技術保障,阿里雲視頻雲能更成熟、穩定地應對賽事場景下的視頻分析與處理,AI技術也將滲透到各個行業中,幫助行業客戶高效提升新內容的生產效率,讓每場賽事都擁有全然不同的新視聽體驗,也讓賽事的人文美感由此綻放。


【AI編輯部】

作為阿里雲視頻雲的智能媒體生產產品,AI編輯部是智能時代內容生產行業的基礎設施,是可本地化交付的端到端產品。AI編輯部交付面向新媒體的智能化內容生產流水線,藉助大數據技術和人工智能,實現視頻稿件、圖文稿件的自動化、批量化、智能化生產,從而更快、更好、更廣地為搶佔新媒體市場服務。

【AI雲智剪】

作為AI編輯部面向體育賽事主題集錦的智能生產能力,AI雲智剪能夠在賽事直播過程中實時生產素材,為精彩賽事提供優質高效的短視頻內容生產技術。

阿里雲視頻雲多媒體AI體驗中心

「視頻雲技術」你最值得關注的音視頻技術公眾號,每周推送來自阿里雲一線的實踐技術文章,在這裡與音視頻領域一流工程師交流切磋。公眾號後台回復【技術】可加入阿里雲視頻雲產品技術交流群,和業內大咖一起探討音視頻技術,獲取更多行業最新信息。