下載客戶(hù)端

登錄

Prime Video如何使用AI確保視頻質(zhì)量

2022-04-26 20:03

來(lái)源：澎湃新聞·澎湃號(hào)·湃客

翻譯 | Argus

技術(shù)審校 | 曾凱

本文來(lái)自Amazon Science Blog，作者為Sathya Balakrishnan、Ihsan Ozcelik。

▲掃描圖中二維碼了解音視頻技術(shù)大會(huì)更多信息▲

影音探索 #008#

用于檢測(cè)宏塊損壞、音頻失真和音視頻同步錯(cuò)誤的檢測(cè)器是Prime Video的三個(gè)質(zhì)量保證工具。

流媒體視頻在錄制、編碼、打包或傳輸過(guò)程中可能會(huì)出現(xiàn)缺陷，因此大多數(shù)訂閱視頻服務(wù)（如亞馬遜Prime Video）都會(huì)不斷評(píng)估其流媒體內(nèi)容的質(zhì)量。

人工內(nèi)容審查（稱(chēng)為人眼主觀測(cè)試，eyes-on-glass testing）無(wú)法實(shí)現(xiàn)規(guī)?；宜陨硪簿邆浜芏嗵魬?zhàn)，例如審查者對(duì)質(zhì)量看法的差異。業(yè)內(nèi)更常見(jiàn)的是使用數(shù)字信號(hào)處理來(lái)檢測(cè)視頻信號(hào)中的異常情況，這些異常情況經(jīng)常與缺陷相關(guān)。

三年前，為了驗(yàn)證新的應(yīng)用版本或編碼配置文件的離線更改，Prime Video的視頻質(zhì)量分析（Video Quality Analysis ，VQA）小組開(kāi)始使用機(jī)器學(xué)習(xí)來(lái)識(shí)別多種設(shè)備（如游戲機(jī)、電視和機(jī)頂盒）所獲取的內(nèi)容中的缺陷。最近，我們將同一技術(shù)應(yīng)用到了實(shí)時(shí)質(zhì)量監(jiān)測(cè)數(shù)千個(gè)頻道和實(shí)時(shí)事件，以及大規(guī)模分析新的點(diǎn)播內(nèi)容等問(wèn)題上。

亞馬遜Prime Video宏塊損壞檢測(cè)器的初始版本使用殘差神經(jīng)網(wǎng)絡(luò)來(lái)生成表示特定圖像位置損壞概率的指示圖，將該圖二進(jìn)制化，并計(jì)算損壞區(qū)域和總圖像區(qū)域之間的面積比率。

我們的VQA團(tuán)隊(duì)訓(xùn)練計(jì)算機(jī)視覺(jué)模型，以觀察視頻并發(fā)現(xiàn)可能損害用戶(hù)觀看體驗(yàn)的問(wèn)題，如塊狀幀、意外黑幀和音頻噪音。這使我們能夠處理數(shù)以萬(wàn)計(jì)的直播與點(diǎn)播視頻。

我們面臨的一個(gè)有趣的挑戰(zhàn)是，由于Prime Video產(chǎn)品中視聽(tīng)缺陷的發(fā)生率極低，所以訓(xùn)練數(shù)據(jù)中缺乏正面案例。我們用一個(gè)模擬原始內(nèi)容缺陷的數(shù)據(jù)集來(lái)應(yīng)對(duì)這一挑戰(zhàn)。在使用這個(gè)數(shù)據(jù)集開(kāi)發(fā)檢測(cè)器之后，我們通過(guò)對(duì)一組實(shí)際缺陷進(jìn)行測(cè)試來(lái)驗(yàn)證檢測(cè)器能否用于實(shí)際的線上所生產(chǎn)的內(nèi)容。

示例：我們?nèi)绾螌⒁纛l咔噠聲加入純凈音頻

純凈音頻的波形

純凈音頻

添加了咔噠聲的音頻波形

添加了咔噠聲的受損音頻音頻：進(jìn)度條 00:00 00:10 后退15秒倍速快進(jìn)15秒

添加了咔噠聲的受損音頻

純凈音頻的頻譜圖

添加了咔噠聲的音頻頻譜圖

我們已經(jīng)為18種不同類(lèi)型的缺陷開(kāi)發(fā)了檢測(cè)器，包括視頻畫(huà)面停滯和卡頓、視頻撕裂、音頻和視頻之間的不同步，以及字幕質(zhì)量問(wèn)題。下面，我們重點(diǎn)看一下三種缺陷：宏塊損壞、音頻失真和音視頻同步問(wèn)題。

宏塊損壞（Block corruption）

使用數(shù)字信號(hào)處理進(jìn)行質(zhì)量分析的一個(gè)缺點(diǎn)是，它可能難以區(qū)分某些類(lèi)型的真實(shí)內(nèi)容和有缺陷的內(nèi)容。例如，對(duì)信號(hào)處理器來(lái)說(shuō)，人群中的場(chǎng)景或運(yùn)動(dòng)量大的場(chǎng)景可能看起來(lái)像有宏塊損壞的場(chǎng)景。在這種情況下，傳輸障礙導(dǎo)致幀內(nèi)像素塊的位移，或?qū)е孪袼貕K都使用相同的色值。

宏塊損壞的示例(00:06)

為了檢測(cè)宏塊損壞，我們使用了一個(gè)殘差神經(jīng)網(wǎng)絡(luò)，這種網(wǎng)絡(luò)的設(shè)計(jì)使較高的塊層（block layer）可以明確糾正下面塊層所遺漏的錯(cuò)誤（殘差）。我們將ResNet18[1]神經(jīng)網(wǎng)絡(luò)的最后一層替換為1x1卷積（神經(jīng)網(wǎng)絡(luò)圖中的conv6）。

宏塊損壞檢測(cè)器架構(gòu)

這一層的輸出是一個(gè)二維圖，其中每個(gè)元素都是特定圖像區(qū)域中宏塊損壞的概率。這個(gè)二維圖取決于輸入圖像的大小。在該圖中，一個(gè)224 x 224 x 3的圖像傳遞給神經(jīng)網(wǎng)絡(luò)，輸出是一個(gè)7 x 7的二維圖。在下面的例子中，我們將一張高清圖像傳給神經(jīng)網(wǎng)絡(luò)，結(jié)果輸出的是34 x 60像素的二維圖。

在這個(gè)工具的初始版本中，我們對(duì)二維圖進(jìn)行了二進(jìn)制化處理，并計(jì)算出損壞面積的比率：

corruptionArea = areaPositive/totalArea

如果這個(gè)比率超過(guò)了某個(gè)閾值（事實(shí)證明0.07很有效），那么我們就把這一幀標(biāo)記為有宏塊損壞。(見(jiàn)上面的動(dòng)畫(huà))

然而，在該工具的當(dāng)前版本中，我們將決策函數(shù)移動(dòng)到模型中，因此它是與特征提取一起學(xué)習(xí)的。

音頻失真檢測(cè)（Audio artifact detection）

“音頻失真”是音頻信號(hào)中不需要的聲音，它可能是通過(guò)錄音過(guò)程或數(shù)據(jù)壓縮引入的。在后一種情況下，它相當(dāng)于音頻中一個(gè)損壞的宏塊。然而，有時(shí)其他創(chuàng)造性的原因也會(huì)引入音頻失真。

為了檢測(cè)視頻中的音頻失真，我們使用了一個(gè)無(wú)參考模型，這意味著在訓(xùn)練期間，它無(wú)法獲得純凈音頻作為比較標(biāo)準(zhǔn)。該模型基于預(yù)先訓(xùn)練的音頻神經(jīng)網(wǎng)絡(luò)，將一秒鐘的音頻片段分類(lèi)為無(wú)缺陷、嗡嗡聲、嘶嘶聲、音頻失真或音頻咔嗒聲。

目前，該模型在我們專(zhuān)有的模擬數(shù)據(jù)集上達(dá)到了0.986的平衡準(zhǔn)確率（balanced accuracy）。關(guān)于該模型的更多信息可以在我們的論文《使用預(yù)訓(xùn)練的音頻神經(jīng)網(wǎng)絡(luò)檢測(cè)音頻人工無(wú)參考模型》（A no-reference model for detecting audio artifacts using pretrained audio neural networks）中找到，我們?cè)诮衲甑腎EEE計(jì)算機(jī)視覺(jué)應(yīng)用冬季會(huì)議上發(fā)表了這篇文章[2]。

帶有失真音頻的視頻示例(00:06)

音視頻同步檢測(cè)（Audio/Video sync detection）

另一個(gè)常見(jiàn)的質(zhì)量問(wèn)題是音視頻同步或唇音同步缺陷，即音頻與視頻不一致。直播、接收和播放過(guò)程中產(chǎn)生的問(wèn)題會(huì)使音頻和視頻不同步。

為了檢測(cè)唇音同步缺陷，我們開(kāi)發(fā)了一個(gè)檢測(cè)器——我們稱(chēng)之為L(zhǎng)ipSync（基于牛津大學(xué)的SyncNet架構(gòu)[3]）。

LipSync管道的輸入是一個(gè)四秒鐘的視頻片段。它被傳遞給一個(gè)鏡頭檢測(cè)模型，用于識(shí)別鏡頭邊界；然后傳遞給用于識(shí)別每一幀中人臉的人臉檢測(cè)模型；再傳遞給用于識(shí)別連續(xù)幀中屬于同一人臉的人臉跟蹤模型。

提取人臉軌跡的預(yù)處理管道：以單個(gè)人臉為中心的四秒鐘片段

人臉跟蹤模型的輸出（被稱(chēng)為人臉軌跡）和相關(guān)的音頻然后傳遞給SyncNet模型，該模型匯總整個(gè)人臉軌跡以決定該片段是否同步、不同步或不確定，這意味著要么沒(méi)有檢測(cè)到人臉/人臉軌跡，要么有相同數(shù)量的同步和不同步的預(yù)測(cè)結(jié)果。

未來(lái)工作

以上這些是我們工具庫(kù)中的一些精選檢測(cè)器。在2022年，我們將繼續(xù)努力完善和改進(jìn)我們的算法。在正在進(jìn)行的工作中，我們正在使用主動(dòng)學(xué)習(xí)（active learning，通過(guò)算法選擇信息特別有價(jià)值的訓(xùn)練實(shí)例）來(lái)不斷地重新訓(xùn)練我們部署的模型。

為了生成合成數(shù)據(jù)集，我們正在研究EditGan[4]，這是一種新方法，可以更精確地控制生成式對(duì)抗網(wǎng)絡(luò)（GAN）的輸出。我們還在使用我們定制的AWS云原生應(yīng)用程序和SageMaker實(shí)現(xiàn)來(lái)擴(kuò)展我們的缺陷檢測(cè)器，以監(jiān)測(cè)所有實(shí)時(shí)事件和視頻信道。

注釋?zhuān)?/strong>

1.https://arxiv.org/pdf/1512.03385.pdf

2.https://www.amazon.science/publications/a-no-reference-model-for-detecting-audio-artifacts-using-pretrained-audio-neural-networks

3.https://www.robots.ox.ac.uk/~vgg/publications/2016/Chung16a/chung16a.pdf

4.https://proceedings.neurips.cc/paper/2021/file/880610aa9f9de9ea7c545169c716f477-Paper.pdf

原文鏈接：

https://www.amazon.science/blog/how-prime-video-uses-machine-learning-to-ensure-video-quality

編輯：Alex

封面圖片來(lái)自Unsplash，by Aditya Chinchure

特別聲明

本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機(jī)構(gòu)觀點(diǎn)，不代表澎湃新聞的觀點(diǎn)或立場(chǎng)，澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。

我要舉報(bào)

#AI #食品質(zhì)量