媒體，連接媒體及應用

2020 年 2 月 24 日
筆記

本文為媒礦工廠編譯的技術文章

原標題：Media, linked media and applications

原文鏈接：https://www.linkedin.com/pulse/media-linked-applications-leonardo-chiariglione?from=timeline

原作者：Leonardo Chiariglione

翻譯整理：徐鋆

介紹

在以加速步伐發展的多媒體技術領域，MPEG為本領域制定標準，我們很難對未來有一個清晰的計劃（儘管MPEG有一個5年的計劃）。

然而，當MPEG開發多媒體互聯應用程式格式（Multimedia LinkingApplication Format， MLAF）時，它「發現」自己已經或正在開發幾個標準——MPEG-7、用於視覺搜索的緊湊描述（Compact descriptors for visual search, CDVS）、用於影片分析的緊湊描述（Compact descriptors forvideo analysis, CDVA）和媒體編排（Media Orchestration）。

這些標準（以及其他在概念和發展早期階段的標準，例如神經網路壓縮和用於機器的影片編碼）一同幫助建立了多媒體連接環境。在這個環境中，可以創建一個與另一些媒體對象的特定時空區域之間的聯繫。

本文解釋了MLAF「多媒體鏈接」標準所帶來的好處，以及它的具體應用。

多媒體連接環境

直到二十五年以前，幾乎唯一能建立不同媒體之間關係的裝置就是大腦。一個很糟糕的替代方法是在一本書上做記錄，以記錄在這本書的其他地方或其他書中的內容與記錄處的關係。

將網頁中的一個地方鏈接到另一個網頁中的另一個地方，或者鏈接到一個媒體對象的可能性，是web帶來的偉大創新。然而，在10億個網站和千萬億個鏈接網頁之後的二十五年，我們必須認識到鏈接的概念無處不在，而且不一定與網路相連。

MPEG為「我有一個媒體對象，我想知道在多媒體資料庫中還存在哪些其他相關的媒體對象」這句話所描述的問題提供了大量的資源，並在MPEG-7模型中表示如下圖所示：

然而，MPEG-7隻是一個更加普遍問題的實例，這個問題就是將一個與另一些媒體對象的特定時空區域相連接。

以下是一些例子：

合成對象是由一個對象的許多圖片創建的。影像與合成對象之間存在著某種關係;
有一個物理場所的虛擬複製品。物理位置與虛擬複製品之間存在關係;
用戶在虛擬現實應用程式中體驗虛擬空間。兩個虛擬空間之間存在關係;
用戶通過混合來自不同來源的一組媒體來創建媒體對象。混合的媒體對象和不同來源的媒體之間存在關係。

MPEG已經開發了MPEG-a part 16(媒體鏈接應用程式格式- MLAF)，它指定了一種名為bridget的數據格式，可以用於鏈接任何類型的媒體。MPEG還制定了一些標準，這些標準在上面的示例中概述的「媒體鏈接」中起輔助作用。

MPEG-7第1部分（System）、第3部分（Visual）、第4部分（Audio）和第5部分（Multimedia）提供了系統元素，以及視覺（影像和影片)、音頻和多媒體描述；
MPEG-7第13部分（Compact descriptors for visual search）和第15部分（Compact descriptors for video analysis）提供了新一代影像和影片描述；
MPEG-B第13部分（Media Orchestration）提供了將媒體和其他數據混合起來以創建個人用戶體驗的方法。

MLAF標準

bridget是一個「源」內容與「目的」內容的連接，其包括以下三方面資訊：

源和目的的內容；
兩者間的連接；
bridget中的資訊會呈現給使用源內容的用戶。

最後一個資訊與用戶最相關，因為它使用戶能夠決定其是否對目的內容感興趣。

MLAF表示的結構（第1點和第2點）基於作為專用MPEG-21注釋實現的MPEG-21數字容器。時空範圍由兩個MPEG-7工具的表達能力和MPEG-21數字項的一般描述能力來表示。它們允許bridget作者指定廣泛的可能關聯，並根據需要進行精確和細化。

呈現bridget資訊的本地格式是基於MPEG-4場景描述和應用引擎。然而，bridget可以直接鏈接到任何外部表示資源（例如HTML頁面、SVG圖形或其他）。

伴隨螢幕內容的bridget

下面這張圖展示了MLAF的一個有趣的應用，並且展示了整個bridget工作流：

計劃在未來某個時間播出的電視節目被上傳到廣播伺服器[1]和bridget創造工具（BAT）[2]；
BAT計算並存儲程式的音頻指紋到音頻指紋伺服器(AFS)[3]；
bridget編輯器使用BAT創建bridget[4]；
編輯器完成後，程式的所有bridget和引用的媒體對象都被上傳到發布伺服器[5]。
在預定的時間，電視節目播出[6]；
用戶終端上的app計算音頻指紋並將其發送到音頻指紋伺服器[7]；
AFS把ID和用戶正在觀看[8]的節目時間發送到用戶的app上；
當app通知用戶有一個bridget可用時，查看者可能會決定：
- 把目光從電視上轉移到手機上；
- 播放bridget中的內容[9]；
- 將bridget分享到社交媒體上[10]。

這是錄製電視節目的工作流程，類似的場景也會在直播節目中存在。在這種情況下，bridget必須提前準備好，以便出版商能夠在需要時選擇並播放特定的bridget。

標準是一種強大的工具，有助於引入新的服務，比如配套的螢幕內容。在本例中，bridget標準可以促進獨立創作工具和用戶終端應用程式的創建。

創建bridget

bridget的創建工作流取決於其所代表的媒體對象的類型。

假設bridget包含不同的媒體類型，例如影像、文字描述、獨立可選的音軌（例如廣告）和影片，假設bridget的布局是預先設計好的。

以下是bridget編輯器所進行的步驟：

選擇電視節目時間軸上的一個時間片段和一個合適的布局；
輸入適當的文本；
提供參考影像（可能來自影片本身）；
使用自動影像搜尋工具（例如基於CDVS標準的）尋找合適的影像；
提供參考影片剪輯（可能來自影片本身）；
使用自動影片搜索工具（例如基於CDVA標準的）查找合適的影片片段（可能來自影片本身）；
添加音頻文件。

結果bridget對用戶終端來說可能會變成如下樣子：

創建所有bridget後，編輯器將bridget和媒體保存到發布伺服器。

顯然，bridget的「成功」（就打開它的用戶數量而言）在很大程度上取決於如何呈現bridget。

為什麼是bridget

bridget是由歐盟委員會第七項框架研究計劃資助的一項研究項目的題目。MLAF標準（ISO/IEC 23000-16）是在bridget項目成員的鼓勵和參與下制定的。

媒體，連接媒體及應用

VirMach 便宜 VPS

QNews

媒體，連接媒體及應用

分享此文：

Related Posts

mapboxgl 互聯網地圖糾偏插件（三）

AST抽象語法樹——最基礎的javascript重點知識，99%的人根本不了解

世界頂級企業的數據中台實踐剖析

微服務統一登陸認證怎麼做？JWT ？

VirMach 便宜 VPS

QNews

熱門搜尋