- +1
Prime Video如何使用AI確保視頻質(zhì)量
翻譯 | Argus
技術(shù)審校 | 曾凱
本文來(lái)自Amazon Science Blog,作者為Sathya Balakrishnan、Ihsan Ozcelik。

▲掃描圖中二維碼了解音視頻技術(shù)大會(huì)更多信息▲
影音探索 #008#
用于檢測(cè)宏塊損壞、音頻失真和音視頻同步錯(cuò)誤的檢測(cè)器是Prime Video的三個(gè)質(zhì)量保證工具。
流媒體視頻在錄制、編碼、打包或傳輸過(guò)程中可能會(huì)出現(xiàn)缺陷,因此大多數(shù)訂閱視頻服務(wù)(如亞馬遜Prime Video)都會(huì)不斷評(píng)估其流媒體內(nèi)容的質(zhì)量。
人工內(nèi)容審查(稱(chēng)為人眼主觀測(cè)試,eyes-on-glass testing)無(wú)法實(shí)現(xiàn)規(guī)?;宜陨硪簿邆浜芏嗵魬?zhàn),例如審查者對(duì)質(zhì)量看法的差異。業(yè)內(nèi)更常見(jiàn)的是使用數(shù)字信號(hào)處理來(lái)檢測(cè)視頻信號(hào)中的異常情況,這些異常情況經(jīng)常與缺陷相關(guān)。
三年前,為了驗(yàn)證新的應(yīng)用版本或編碼配置文件的離線更改,Prime Video的視頻質(zhì)量分析(Video Quality Analysis ,VQA)小組開(kāi)始使用機(jī)器學(xué)習(xí)來(lái)識(shí)別多種設(shè)備(如游戲機(jī)、電視和機(jī)頂盒)所獲取的內(nèi)容中的缺陷。最近,我們將同一技術(shù)應(yīng)用到了實(shí)時(shí)質(zhì)量監(jiān)測(cè)數(shù)千個(gè)頻道和實(shí)時(shí)事件,以及大規(guī)模分析新的點(diǎn)播內(nèi)容等問(wèn)題上。

亞馬遜Prime Video宏塊損壞檢測(cè)器的初始版本使用殘差神經(jīng)網(wǎng)絡(luò)來(lái)生成表示特定圖像位置損壞概率的指示圖,將該圖二進(jìn)制化,并計(jì)算損壞區(qū)域和總圖像區(qū)域之間的面積比率。
我們的VQA團(tuán)隊(duì)訓(xùn)練計(jì)算機(jī)視覺(jué)模型,以觀察視頻并發(fā)現(xiàn)可能損害用戶(hù)觀看體驗(yàn)的問(wèn)題,如塊狀幀、意外黑幀和音頻噪音。這使我們能夠處理數(shù)以萬(wàn)計(jì)的直播與點(diǎn)播視頻。
我們面臨的一個(gè)有趣的挑戰(zhàn)是,由于Prime Video產(chǎn)品中視聽(tīng)缺陷的發(fā)生率極低,所以訓(xùn)練數(shù)據(jù)中缺乏正面案例。我們用一個(gè)模擬原始內(nèi)容缺陷的數(shù)據(jù)集來(lái)應(yīng)對(duì)這一挑戰(zhàn)。在使用這個(gè)數(shù)據(jù)集開(kāi)發(fā)檢測(cè)器之后,我們通過(guò)對(duì)一組實(shí)際缺陷進(jìn)行測(cè)試來(lái)驗(yàn)證檢測(cè)器能否用于實(shí)際的線上所生產(chǎn)的內(nèi)容。
示例:我們?nèi)绾螌⒁纛l咔噠聲加入純凈音頻

純凈音頻的波形
純凈音頻

添加了咔噠聲的音頻波形
添加了咔噠聲的受損音頻 音頻: 進(jìn)度條 00:00 00:10 后退15秒 倍速 快進(jìn)15秒
添加了咔噠聲的受損音頻

純凈音頻的頻譜圖

添加了咔噠聲的音頻頻譜圖
我們已經(jīng)為18種不同類(lèi)型的缺陷開(kāi)發(fā)了檢測(cè)器,包括視頻畫(huà)面停滯和卡頓、視頻撕裂、音頻和視頻之間的不同步,以及字幕質(zhì)量問(wèn)題。下面,我們重點(diǎn)看一下三種缺陷:宏塊損壞、音頻失真和音視頻同步問(wèn)題。
宏塊損壞(Block corruption)
使用數(shù)字信號(hào)處理進(jìn)行質(zhì)量分析的一個(gè)缺點(diǎn)是,它可能難以區(qū)分某些類(lèi)型的真實(shí)內(nèi)容和有缺陷的內(nèi)容。例如,對(duì)信號(hào)處理器來(lái)說(shuō),人群中的場(chǎng)景或運(yùn)動(dòng)量大的場(chǎng)景可能看起來(lái)像有宏塊損壞的場(chǎng)景。在這種情況下,傳輸障礙導(dǎo)致幀內(nèi)像素塊的位移,或?qū)е孪袼貕K都使用相同的色值。
為了檢測(cè)宏塊損壞,我們使用了一個(gè)殘差神經(jīng)網(wǎng)絡(luò),這種網(wǎng)絡(luò)的設(shè)計(jì)使較高的塊層(block layer)可以明確糾正下面塊層所遺漏的錯(cuò)誤(殘差)。我們將ResNet18[1]神經(jīng)網(wǎng)絡(luò)的最后一層替換為1x1卷積(神經(jīng)網(wǎng)絡(luò)圖中的conv6)。

宏塊損壞檢測(cè)器架構(gòu)
這一層的輸出是一個(gè)二維圖,其中每個(gè)元素都是特定圖像區(qū)域中宏塊損壞的概率。這個(gè)二維圖取決于輸入圖像的大小。在該圖中,一個(gè)224 x 224 x 3的圖像傳遞給神經(jīng)網(wǎng)絡(luò),輸出是一個(gè)7 x 7的二維圖。在下面的例子中,我們將一張高清圖像傳給神經(jīng)網(wǎng)絡(luò),結(jié)果輸出的是34 x 60像素的二維圖。
在這個(gè)工具的初始版本中,我們對(duì)二維圖進(jìn)行了二進(jìn)制化處理,并計(jì)算出損壞面積的比率:
corruptionArea = areaPositive/totalArea
如果這個(gè)比率超過(guò)了某個(gè)閾值(事實(shí)證明0.07很有效),那么我們就把這一幀標(biāo)記為有宏塊損壞。(見(jiàn)上面的動(dòng)畫(huà))
然而,在該工具的當(dāng)前版本中,我們將決策函數(shù)移動(dòng)到模型中,因此它是與特征提取一起學(xué)習(xí)的。
音頻失真檢測(cè)(Audio artifact detection)
“音頻失真”是音頻信號(hào)中不需要的聲音,它可能是通過(guò)錄音過(guò)程或數(shù)據(jù)壓縮引入的。在后一種情況下,它相當(dāng)于音頻中一個(gè)損壞的宏塊。然而,有時(shí)其他創(chuàng)造性的原因也會(huì)引入音頻失真。
為了檢測(cè)視頻中的音頻失真,我們使用了一個(gè)無(wú)參考模型,這意味著在訓(xùn)練期間,它無(wú)法獲得純凈音頻作為比較標(biāo)準(zhǔn)。該模型基于預(yù)先訓(xùn)練的音頻神經(jīng)網(wǎng)絡(luò),將一秒鐘的音頻片段分類(lèi)為無(wú)缺陷、嗡嗡聲、嘶嘶聲、音頻失真或音頻咔嗒聲。
目前,該模型在我們專(zhuān)有的模擬數(shù)據(jù)集上達(dá)到了0.986的平衡準(zhǔn)確率(balanced accuracy)。關(guān)于該模型的更多信息可以在我們的論文《使用預(yù)訓(xùn)練的音頻神經(jīng)網(wǎng)絡(luò)檢測(cè)音頻人工無(wú)參考模型》(A no-reference model for detecting audio artifacts using pretrained audio neural networks)中找到,我們?cè)诮衲甑腎EEE計(jì)算機(jī)視覺(jué)應(yīng)用冬季會(huì)議上發(fā)表了這篇文章[2]。
音視頻同步檢測(cè)(Audio/Video sync detection)
另一個(gè)常見(jiàn)的質(zhì)量問(wèn)題是音視頻同步或唇音同步缺陷,即音頻與視頻不一致。直播、接收和播放過(guò)程中產(chǎn)生的問(wèn)題會(huì)使音頻和視頻不同步。
為了檢測(cè)唇音同步缺陷,我們開(kāi)發(fā)了一個(gè)檢測(cè)器——我們稱(chēng)之為L(zhǎng)ipSync(基于牛津大學(xué)的SyncNet架構(gòu)[3])。
LipSync管道的輸入是一個(gè)四秒鐘的視頻片段。它被傳遞給一個(gè)鏡頭檢測(cè)模型,用于識(shí)別鏡頭邊界;然后傳遞給用于識(shí)別每一幀中人臉的人臉檢測(cè)模型;再傳遞給用于識(shí)別連續(xù)幀中屬于同一人臉的人臉跟蹤模型。

提取人臉軌跡的預(yù)處理管道:以單個(gè)人臉為中心的四秒鐘片段
人臉跟蹤模型的輸出(被稱(chēng)為人臉軌跡)和相關(guān)的音頻然后傳遞給SyncNet模型,該模型匯總整個(gè)人臉軌跡以決定該片段是否同步、不同步或不確定,這意味著要么沒(méi)有檢測(cè)到人臉/人臉軌跡,要么有相同數(shù)量的同步和不同步的預(yù)測(cè)結(jié)果。
未來(lái)工作
以上這些是我們工具庫(kù)中的一些精選檢測(cè)器。在2022年,我們將繼續(xù)努力完善和改進(jìn)我們的算法。在正在進(jìn)行的工作中,我們正在使用主動(dòng)學(xué)習(xí)(active learning,通過(guò)算法選擇信息特別有價(jià)值的訓(xùn)練實(shí)例)來(lái)不斷地重新訓(xùn)練我們部署的模型。
為了生成合成數(shù)據(jù)集,我們正在研究EditGan[4],這是一種新方法,可以更精確地控制生成式對(duì)抗網(wǎng)絡(luò)(GAN)的輸出。我們還在使用我們定制的AWS云原生應(yīng)用程序和SageMaker實(shí)現(xiàn)來(lái)擴(kuò)展我們的缺陷檢測(cè)器,以監(jiān)測(cè)所有實(shí)時(shí)事件和視頻信道。
注釋?zhuān)?/strong>
1.https://arxiv.org/pdf/1512.03385.pdf
2.https://www.amazon.science/publications/a-no-reference-model-for-detecting-audio-artifacts-using-pretrained-audio-neural-networks
3.https://www.robots.ox.ac.uk/~vgg/publications/2016/Chung16a/chung16a.pdf
4.https://proceedings.neurips.cc/paper/2021/file/880610aa9f9de9ea7c545169c716f477-Paper.pdf
原文鏈接:
https://www.amazon.science/blog/how-prime-video-uses-machine-learning-to-ensure-video-quality
編輯:Alex
封面圖片來(lái)自Unsplash,by Aditya Chinchure

本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司




