音視頻技術開發周刊(第121期)

  • 2019 年 11 月 28 日
  • 筆記

每周一期,縱覽音視頻技術領域的乾貨和新聞投稿:[email protected]

架構

Appear.in Vs. Jitsi: WebRTC 商業訂閱服務對決開源免費服務

討論的底線在於: "兩種方式的目標受眾之間存在明顯的差異,這可能會讓這種比較毫無意義."

如何通過WebRTC開發實時互動AI視頻應用

前段時間負責一個人臉和手勢識別的可視化大屏項目,前端需要負責的主要任務是:通過獲取攝像機實時視頻流,將獲取到的視頻流在canvas上播放,然後每隔1000ms抽幀,並在壓縮後通過保持WebSocket連接發送給後端服務器。經過服務器上的AI視覺模型算法處理後,前端接收人臉識別、手勢識別及其他相關結構化數據,根據業務場景完成人機交互和數據展示。

Advancing WebRTC:刪除舊版本的 DTLS

確保這不會影響你的服務。

Web實時語音/視頻聊天/文件傳輸

WebRTC(Web Real-Time Communication)是一項實時通訊技術,它允許網絡應用或者站點,在不藉助中間媒介的情況下,建立瀏覽器之間點對點(Peer-to-Peer)的連接,實現視頻流音頻流或者其他任意數據的傳輸。

傳輸網絡

低延遲網絡視頻實現

本文是來自Stanford Compression Workshop 2019的演講,作者是來自斯坦福大學的Sadjad Fouladi。這次演講的主要內容是通過視頻編解碼器和傳輸協議的緊密集成來優化實時低延遲網絡視頻。

編解碼

分佈式網絡視頻編碼

Wallendael在本文中闡述了針對低延遲自適應碼流的分佈式網絡視頻編碼概念。主要思想是給每人提供一個定製化的視頻流,每個連接都是個性化的,可以根據個人的網絡狀況來調整編碼,而不會影響到別人。這樣把視頻分別給每個人編碼,需要每人使用一個編碼器、以及一組參數來定製化。在實踐中這樣的假設很難做到,因此我們需要一個解決方案。

2019MSU編解碼器比較及總結

莫斯科國立大學(MoscowState University)最近發佈了2019 Video Codec Comparison,這是最有價值和可靠的編解碼器分析之一。此基本資源包括多個HEVC、VP9以及AV1編解碼器的數據。與之前一樣,必須付費才能獲取所有數據,但免費版提供了有用的數據點。該資源還包括兩個版本的報告,其中Main報告採用客觀指標用100個視頻對12個編解碼器進行了測試,Subject報告記錄了732個觀看者對5個短片和11個編碼器的主觀評分。

Opus從入門到精通:編解碼器使用

本節描述了用於編碼Opus的過程和函數。既然Opus是一個有狀態的編解碼器,編碼過程始於創建一個編碼器狀態。

FFmpeg: 常用結構體分析

AVFormatContext可以說是貫穿全局的數據結構,很多函數都要用它作為參數。此結構包含了一個視頻流的格式內容。其中AVInputFormat(或者AVOutputFormat,但是同一時間AVFormatContext內只能存在其中一個),AVStream,AVPacket這幾個重要的結構以及一些其他信息,比如title,author,copyright等,後還有一些可能在編解碼中會用到的信息,比如 duration、file_size、 bit_rate等。

視頻技術

基於FPGA的異構計算在多媒體中的應用

目前處於AI大爆發時期,異構計算的選擇主要在FPGA和GPU之間。儘管目前異構計算使用最多的是利用GPU來加速,FPGA作為一種高性能、低功耗的可編程芯片,在處理海量數據時,FPGA計算效率更高,優勢更為突出,尤其在大量服務器部署時,隱形的運營成本會得到顯著降低。本文來自CTAccel的研發總監周小鵬在LiveVideoStackCon2019 北京站上的分享。

移動端短語音消息音頻格式選擇

根據採樣率和採樣大小可以得知,相對自然界的信號,音頻編碼最多只能做到無限接近,至少目前的技術只能這樣了,相對自然界的信號,任何數字音頻編碼方案都是有損的,因為無法完全還原。在計算機應用中,能夠達到最高保真水平的就是PCM編碼,被廣泛用於素材保存及音樂欣賞,CD、DVD以及我們常見的WAV文件中均有應用。

從零開始仿寫一個抖音App——視頻編輯SDK開發(一)

本章我將介紹 WsVideoEditor 項目的基本結構、組織方式以及運行方式。需要大家把項目 clone 下來跟着我一步步來做。

AR的過去、現在、未來與現實

很多時候,我們都會把AR和VR放在一起講,這主要是因為AR和VR有很多共通之處,而且對AR/VR有較好認知的行業人士基本上都相信AR/VR未來最終會融合到一起。

iOS雙攝像頭在直播中的應用

如今隨着短視頻、直播應用的火爆,客戶端應用中對攝像頭的使用和音視頻的處理成了一個必備技能。除了音視頻採集、處理、編碼等基礎功能的應用,對一些攝像頭新功能和新特性的探索和應用也是我們平時重點關注的方向。

人物專訪

相芯科技蔡銳濤:AI虛擬形象——沒有最完美,只有更完美

在LiveVideoStackCon2019深圳音視頻技術大會前夕,我們邀請到了相芯科技資深圖形引擎開發經理蔡銳濤老師接受採訪,從個人成長聊到智能圖形技術方面的創新與應用,再到相芯科技在虛擬形象上的優勢,最後關於5G對於圖形技術的升級方向,蔡老師也給出了自己的答案。

葉琰:AI壓縮技術在追上傳統編碼技術

認識葉琰是經朋友引薦,在了解她的背景後很快決定邀請她來LiveVideoStackCon2019深圳,並擔任了大會的Co-chair。葉琰給我留下的印象是坦誠、直接,一旦她承諾的事情會按時做到——無論是為大會內容組織給出建議,推薦講師候選人,還是本篇採訪,葉琰總是在deadline前完成,也許當年兼顧孩子和工作的艱難經歷,讓她更加遊刃有餘。如果一切順利,葉琰將作為大會Co-chair在LiveVideoStackCon 2019深圳致辭,並和聽眾交流。

AI智能

從CVPR2019看計算機視覺的最新趨勢

我從CVPR中選取已被錄用的論文進行分析,了解研究的主要領域和論文題目中的常見關鍵詞。這可以提供研究進展的一個跡象。

神經網絡剪枝技術研究指南(2019)

剪枝是最常用的神經網絡壓縮方法。最近GitHub開源了不少YOLOv3剪枝實現,不過基本上都是基於2017年經典論文"Learning Efficient Convolutional Networks through Network Slimming", 2019年剪枝研究又有了什麼新的進展?哪些會在工業界開花結果呢?

圖像

探討iOS 中圖片的解壓縮到渲染過程

圖片顯示到屏幕上是CPU與GPU的協作完成,對應應用來說,圖片是最佔用手機內存的資源,將一張圖片從磁盤中加載出來,並最終顯示到屏幕上,中間其實經過了一系列複雜的處理過程。

資源推薦

SDWebImage

該庫提供了具有緩存支持的異步圖像下載器。 為了方便起見,我們為UI元素(如UIImageView,UIButton,MKAnnotationView)添加了類別。

活動推薦

硬派多媒體技術方案沙龍·2019深圳

從WebRTC、低延遲直播到邊緣計算,從編解碼Codec到AI加速,從全景視頻到沉浸式音頻,從5G到超高清,從金融、教育、製造等行業應用場景優化到QoE用戶體驗……硬派多媒體技術方案沙龍(Impact of Multimedia Technology Solution Meetup)旨在甄選技術領先、成熟的方案與案例,推動技術傳播,連接多媒體技術生態上下游。

Xilinx視頻加速技術專場

從AI到編碼、轉碼,硬件加速方案正在扮演越來越重要的角色。本專題,將展現基於FPGA的硬件加速特性,在視頻、圖片編碼與轉碼以及AI計算方面帶來的收益。