媒體,連接媒體及應用
- 2020 年 2 月 24 日
- 筆記
本文為媒礦工廠編譯的技術文章
原標題:Media, linked media and applications
原文鏈接:https://www.linkedin.com/pulse/media-linked-applications-leonardo-chiariglione?from=timeline
原作者:Leonardo Chiariglione
翻譯整理:徐鋆
介紹
在以加速步伐發展的多媒體技術領域,MPEG為本領域制定標準,我們很難對未來有一個清晰的計劃(儘管MPEG有一個5年的計劃)。
然而,當MPEG開發多媒體互聯應用程式格式(Multimedia LinkingApplication Format, MLAF)時,它「發現」自己已經或正在開發幾個標準——MPEG-7、用於視覺搜索的緊湊描述(Compact descriptors for visual search, CDVS)、用於影片分析的緊湊描述(Compact descriptors forvideo analysis, CDVA)和媒體編排(Media Orchestration)。
這些標準(以及其他在概念和發展早期階段的標準,例如神經網路壓縮和用於機器的影片編碼)一同幫助建立了多媒體連接環境。在這個環境中,可以創建一個與另一些媒體對象的特定時空區域之間的聯繫。
本文解釋了MLAF「多媒體鏈接」標準所帶來的好處,以及它的具體應用。
多媒體連接環境
直到二十五年以前,幾乎唯一能建立不同媒體之間關係的裝置就是大腦。一個很糟糕的替代方法是在一本書上做記錄,以記錄在這本書的其他地方或其他書中的內容與記錄處的關係。
將網頁中的一個地方鏈接到另一個網頁中的另一個地方,或者鏈接到一個媒體對象的可能性,是web帶來的偉大創新。然而,在10億個網站和千萬億個鏈接網頁之後的二十五年,我們必須認識到鏈接的概念無處不在,而且不一定與網路相連。
MPEG為「我有一個媒體對象,我想知道在多媒體資料庫中還存在哪些其他相關的媒體對象」這句話所描述的問題提供了大量的資源,並在MPEG-7模型中表示如下圖所示:

然而,MPEG-7隻是一個更加普遍問題的實例,這個問題就是將一個與另一些媒體對象的特定時空區域相連接。
以下是一些例子:
- 合成對象是由一個對象的許多圖片創建的。影像與合成對象之間存在著某種關係;
- 有一個物理場所的虛擬複製品。物理位置與虛擬複製品之間存在關係;
- 用戶在虛擬現實應用程式中體驗虛擬空間。兩個虛擬空間之間存在關係;
- 用戶通過混合來自不同來源的一組媒體來創建媒體對象。混合的媒體對象和不同來源的媒體之間存在關係。
MPEG已經開發了MPEG-a part 16(媒體鏈接應用程式格式- MLAF),它指定了一種名為bridget的數據格式,可以用於鏈接任何類型的媒體。MPEG還制定了一些標準,這些標準在上面的示例中概述的「媒體鏈接」中起輔助作用。
- MPEG-7第1部分(System)、第3部分(Visual)、第4部分(Audio)和第5部分(Multimedia)提供了系統元素,以及視覺(影像和影片)、音頻和多媒體描述;
- MPEG-7第13部分(Compact descriptors for visual search)和第15部分(Compact descriptors for video analysis)提供了新一代影像和影片描述;
- MPEG-B第13部分(Media Orchestration)提供了將媒體和其他數據混合起來以創建個人用戶體驗的方法。
MLAF標準
bridget是一個「源」內容與「目的」內容的連接,其包括以下三方面資訊:
- 源和目的的內容;
- 兩者間的連接;
- bridget中的資訊會呈現給使用源內容的用戶。
最後一個資訊與用戶最相關,因為它使用戶能夠決定其是否對目的內容感興趣。
MLAF表示的結構(第1點和第2點)基於作為專用MPEG-21注釋實現的MPEG-21數字容器。時空範圍由兩個MPEG-7工具的表達能力和MPEG-21數字項的一般描述能力來表示。它們允許bridget作者指定廣泛的可能關聯,並根據需要進行精確和細化。
呈現bridget資訊的本地格式是基於MPEG-4場景描述和應用引擎。然而,bridget可以直接鏈接到任何外部表示資源(例如HTML頁面、SVG圖形或其他)。
伴隨螢幕內容的bridget
下面這張圖展示了MLAF的一個有趣的應用,並且展示了整個bridget工作流:

- 計劃在未來某個時間播出的電視節目被上傳到廣播伺服器[1]和bridget創造工具(BAT)[2];
- BAT計算並存儲程式的音頻指紋到音頻指紋伺服器(AFS)[3];
- bridget編輯器使用BAT創建bridget[4];
- 編輯器完成後,程式的所有bridget和引用的媒體對象都被上傳到發布伺服器[5]。
- 在預定的時間,電視節目播出[6];
- 用戶終端上的app計算音頻指紋並將其發送到音頻指紋伺服器[7];
- AFS把ID和用戶正在觀看[8]的節目時間發送到用戶的app上;
- 當app通知用戶有一個bridget可用時,查看者可能會決定:
- 把目光從電視上轉移到手機上;
- 播放bridget中的內容[9];
- 將bridget分享到社交媒體上[10]。
這是錄製電視節目的工作流程,類似的場景也會在直播節目中存在。在這種情況下,bridget必須提前準備好,以便出版商能夠在需要時選擇並播放特定的bridget。
標準是一種強大的工具,有助於引入新的服務,比如配套的螢幕內容。在本例中,bridget標準可以促進獨立創作工具和用戶終端應用程式的創建。
創建bridget
bridget的創建工作流取決於其所代表的媒體對象的類型。
假設bridget包含不同的媒體類型,例如影像、文字描述、獨立可選的音軌(例如廣告)和影片,假設bridget的布局是預先設計好的。
以下是bridget編輯器所進行的步驟:
- 選擇電視節目時間軸上的一個時間片段和一個合適的布局;
- 輸入適當的文本;
- 提供參考影像(可能來自影片本身);
- 使用自動影像搜尋工具(例如基於CDVS標準的)尋找合適的影像;
- 提供參考影片剪輯(可能來自影片本身);
- 使用自動影片搜索工具(例如基於CDVA標準的)查找合適的影片片段(可能來自影片本身);
- 添加音頻文件。
結果bridget對用戶終端來說可能會變成如下樣子:

創建所有bridget後,編輯器將bridget和媒體保存到發布伺服器。
顯然,bridget的「成功」(就打開它的用戶數量而言)在很大程度上取決於如何呈現bridget。
為什麼是bridget
bridget是由歐盟委員會第七項框架研究計劃資助的一項研究項目的題目。MLAF標準(ISO/IEC 23000-16)是在bridget項目成員的鼓勵和參與下制定的。