ACM MM2021大獎出爐!北航碩士斬獲最佳論文,羅傑波、宋井寬獲獎
- 2021 年 10 月 26 日
- AI
作者 | 杏花、王曄
編輯 | 琰琰
22日晚,ACM Multimedia 2021公布了最佳論文、最佳學生、最佳Demo、最佳開源、SIGMM時間檢驗、SIGMM優秀博士論文等多個獎項,共6篇論文入選,其中北航團隊、台灣大學團隊分別獲得了最受矚目的最佳論文獎和最佳學生論文獎。
最佳論文獎獲獎論文為《Video Background Music Generation with Controllable Music Transformer》,由北航京航天航空大學、查特豪斯大學和Sea AI Lab聯合團隊共同完成,論文一作為北航研二學生Shangzhe Di,師從 Si Liu 教授,研究方向為生成網絡的可控性。
這篇論文主要研究了視頻背景音樂生成的問題。為了生成與給定視頻相匹配的背景音樂,作者在視頻與背景音樂之間建立了節奏關係,提出了一個可控的音樂 Transformer CMT,它能夠對音符節拍、音符密度和強度等節奏特徵進行局部控制,還能夠對用戶指定的音樂類型和使用的樂器進行全局控制。
最佳學生論文獎由台灣大學、國立台南藝術大學聯合完成,論文一作為台灣大學You-Yang Hu。
此外,ACM Multimedia還頒發了SIGMM傑出技術成就獎和SIGMM新星獎獲獎。羅徹斯特大學教授羅傑波,因在多媒體計算、通信和應用方面的傑出貢獻摘得技術成就獎;電子科技大學教授宋井寬,因其在多媒體緊湊表示和分析方面的貢獻獲得SIGMM新星獎。以下為兩位學者的簡單介紹:
羅傑波,羅徹斯特大學計算機科學教授,ACM、AAAI、IEEE、SPIE 和 IAPR Fellow。其研究領域涵蓋計算機視覺、機器學習、數據挖掘、社交媒體和生物醫學信息學。
個人主頁://www.cs.rochester.edu/u/jluo/
Jiebo Luo 教授撰寫了 500 多篇技術論文和 90 多項美國專利。此外,Jiebo Luo 曾擔任 ACM Multimedia 2010、IEEE CVPR 2012、ACM ICMR 2016 和 IEEE ICIP 2017 的程序主席,現為 IEEE Transactions onMultimedia總主編。
宋井寬,電子科技大學教授,博士生導師。2014年博士畢業於澳大利亞昆士蘭大學,2014-2016 年在特倫託大學擔任博士後,2016-2017 在哥倫比亞大學擔任博士後研究員。
個人主頁://cfm.uestc.edu.cn/~songjingkuan/
宋井寬教授在多媒體、計算機視覺、人工智能等領域的重要會議和期刊發表論文近 100 篇,谷歌學術引用 7188次,H-index = 40。曾獲 ICPR 2016 最佳論文獎,SIGIR 2017最佳論文提名獎。擔任過 IEEE TPAMI, IEEE TIP, IEEE TMM, IJCV等多個頂級期刊的特邀評審和多個國際頂級會議(CVPR』18, MM’18, IJCAI’18)的程序委員。
AI科技評論將獲獎論文簡單介紹如下:
最佳論文獎
論文題目:Video Background Music Generation with Controllable Music Transformer
獲獎團隊:北航團隊
論文地址://dl.acm.org/doi/abs/10.1145/3474085.3475195
摘要:此項工作中,我們解決了視頻背景音樂生成的問題。此前的一些工作雖然成功生成了音樂,但無法專為給定視頻生成一首旋律優美的音樂,並且沒有考慮到視頻與音樂節奏一致性的問題。為了生成與給定視頻相匹配的背景音樂,我們首先在視頻與背景音樂之間建立了節奏關係。特彆強調的是,我們將視頻中的時間、運動速度和運動顯著性與音樂中的節拍、模擬音符密度和模擬音符強度分別聯繫起來。然後,我們提出了CMT,這是一個可控的音樂變換器,能夠對上述節奏特徵進行局部控制,還能夠對用戶指定的音樂類型和使用的樂器進行全局控制。主客觀雙重評價表明,生成的背景音樂與輸入視頻的兼容性令人滿意,並且音樂質量也令人印象深刻。
最佳學生論文獎
論文題目:aBio: Active Bi-Olfactory Display Using Subwoofers for Virtual Reality
獲獎團隊:台灣大學、國立台南藝術大學
論文地址://dl.acm.org/doi/10.1145/3474085.3475678
摘要:在虛擬現實(VR)中加入嗅覺提示可以增強用戶在虛擬環境中的沉浸感,而對氣味的精確控制將促進用戶獲得更真實的體驗。在本篇論文,我們介紹了aBio,這是一個主動的雙嗅覺顯示系統,它能夠將氣味精準地傳遞到特定的位置,而不是將氣味擴散到整個空氣中。aBio通過碰撞兩個雙揚聲器的渦流發生器發射的渦流環,可以在緩衝空氣衝擊力的同時為用戶提供在空氣中的自然嗅覺體驗。根據不同應用的各種要求,渦流環的碰撞點可以定位在用戶鼻子前的任何地方。為了驗證設備的有效性,了解用戶在系統中使用不同參數時的體驗,我們進行了一系列的實驗和用戶研究。結果表明,我們所提出的系統是有效的,用戶在感知氣味的同時沒有感覺到觸覺干擾,而系統只消耗了非常少量的芳香精油。我們相信aBio在利用高效地傳遞氣味以提高VR的體驗感方面具有很大潛力。
最佳Demo獎
論文題目:ViDA-MAN: Visual Dialog with Digital Humans
獲獎團隊:京東AI 研究院、咪咕文化科技公司
論文地址://dl.acm.org/doi/10.1145/3474085.3478560
摘要:本篇論文中,我們展示了 ViDA-MAN,這是一個用於多模式交互的數字人代理,它能夠對即時的語音查詢提供實時的視聽回應。與傳統的文本或語音系統相比,ViDA-MAN能夠提供類似於人的交互方式(例如,生動的聲音、自然的面部表情和身體手勢)。若給出一個語音請求,該演示能夠在亞秒級的延遲中以高質量的視頻作出回應。為了提供沉浸式用戶體驗,ViDA-MAN無縫整合了多模式技術,包括聲學語音識別(ASR)、多輪對話、文本到語音(TTS)、談話頭像視頻生成等。在大型知識庫的加持下,ViDA-MAN能夠與用戶進行不同主題的聊天,包括閑聊、天氣、設備控制、新聞推薦、預訂酒店,以及通過結構化知識回答各種問題等。
最佳開源獎
論文題目:X-modaler: A Versatile and High-performance Codebase for Cross-modal Analytics
獲獎團隊:京東AI 研究院
論文地址://arxiv.org/pdf/2108.08217.pdf
摘要:隨着深度學習在過去十年內的興起和發展,持續地創新和突破推動了多媒體領域視覺和語言之間的跨模態分析技術的發展。然而,還沒有任何開源的代碼庫支持以統一和模塊化的方式訓練和部署的眾多跨模態分析的神經網絡模型。在此項工作中,我們提出了X-modaler,這是一個多功能、高性能的代碼庫,它將最先進的跨模態分析分成幾個通用的階段(例如,預處理、編碼器、跨模態交互、解碼器和解碼策略)。每個階段都涵蓋了在一系列先進技術中被廣泛採用的模塊功能,並允許在兩者之間無縫切換。這種方式能夠自然靈活地實現最先進的圖像字幕、視頻字幕和視覺語言預訓練的算法,旨在促進研究界的快速發展。同時,由於幾個階段的有效模塊化設計(如跨模態交互)在不同的視覺語言任務中是共享的,X-modaler可以簡單地擴展到跨模態分析的其它任務的啟動原型,包括視覺問題回答、視覺常識推理和跨模式檢索。X-modaler是一個Apache許可的代碼庫,它的源代碼、樣本項目和預訓練的模型都可以在線獲得://github.com/YehLi/xmodaler
SIGMM時間檢驗獎
論文題目:Dynamic adaptive streaming over HTTP——:standards and design principles
獲獎者:Thomas Stockhammer
論文地址://dl.acm.org/doi/abs/10.1145/1943552.1943572
摘要:在本篇論文,我們對 3GPP 和 MPEG 草案版本中的 HTTP 動態自適應流媒體 (Dynamic Adaptive Streaming over HTTP, DASH) 的規範提供了一些見解和背景知識。具體來說,3GPP 版本提供了媒體呈現、Segment 格式和交付協議的規範描述。此外,它還添加了有關 DASH 客戶端如何使用提供的信息為用戶建立流媒體服務的信息性描述。該解決方案支持不同的服務類型(例如,按需、實時、時移觀看)、不同的功能(例如,自適應比特率切換、多語言支持、廣告插入、技巧模式、DRM)和不同的部署選項。此外,還提供了設計原則和示例。
SIGMM優秀博士論文獎
論文提題目:Video Adaption for High Quality Content Deliver
獲獎團隊:馬薩諸塞大學阿默斯特分校
摘要:在本論文中,我們提出了視頻自適應算法來提供內容並最大限度地提高觀眾的體驗質量(QoE)。視頻提供商將視頻分成多個短片段,並以多個比特率對每個片段進行編碼。視頻播放器自適應地選擇要下載的每個片段的比特率,可能為連續的片段選擇不同的比特率。我們將比特率自適應制定為效用最大化問題,並設計算法以提供可證明接近最佳的時間平均效用。我們設計的算法可以在生產系統上提供 iv 視頻,保持理論算法的優勢,同時也應對生產中面臨的挑戰。我們的算法現在是官方 DASH 參考播放器DASH .js的一部分,並被視頻提供商在生產環境中使用。大多數在線視頻都是通過 TCP 上的 HTTP 流式傳輸的。TCP 提供可靠的傳輸,但代價是在重新傳輸丟失的數據包和線頭阻塞時會產生額外的延遲。使用 QUIC 允許視頻播放器容忍一些數據包丟失而不會招致性能損失。我們設計和實施的算法利用這種額外的靈活性,通過減少延遲和重新緩衝同時允許一些數據包丟失來提供更高的整體 QoE。我們開發了一個開源仿真環境,用於對 360° 算法進行快速且可重複的測試。我們開發了自適應算法,通過分配更多帶寬資源來提供觀眾更有可能看到的圖塊,同時確保視頻播放器在觀眾改變頭部姿勢時及時做出反應,從而提供高 QoE。
關於ACM MM2021
ACM Multimedia(簡稱ACM MM)是國際多媒體領域學術和產業界交流的最頂級盛會,也是中國計算機學會推薦的多媒體領域唯一的A類國際學術會議。
第29屆 ACM Multimedia 2021於10月20日至24日在成都舉辦,由電子科技大學計算機學院院長、ACM Fellow申恆濤教授主持開幕。本次會議是歷史上在我國在中西部地區舉辦的第一個計算機領域的A類會議,大會共接收到了來自40多個國家和地區的2000餘篇投稿論文,參會學者也達1000餘名,兩項數字皆創歷史新高!
ACM Multimedia 2009 曾在北京舉辦,ACM Multimedia 2021 是該會議第二次在中國舉辦。申恆濤教授自 2000 年開始參加 ACM Multimedia,在該領域做出大量創新性工作。其團隊成員曾於2013年和2017年分別獲得該會議的最佳學生論文獎和最佳論文獎。申恆濤教授也曾作為大會程序委員會共同主席,成功在澳大利亞舉辦過ACM Multimedia 2015。ACM Multimedia 2021 在促進國際學術交流與合作的同時,將大大提高電子科技大學和成都的國際知名度與國際學術地位,助力人工智能領域的快速發展。
參考鏈接://2021.acmmm.org/
雷鋒網雷鋒網