日本护士毛茸茸高潮,亚洲精品自偷自拍无码,久久精品国产一区二区三区,日韩人妻无码免费视频一二区

澎湃Logo
下載客戶(hù)端

登錄

  • +1

Prime Video如何使用AI確保視頻質(zhì)量

2022-04-26 20:03
來(lái)源:澎湃新聞·澎湃號(hào)·湃客
字號(hào)

翻譯 | Argus

技術(shù)審校 | 曾凱

本文來(lái)自Amazon Science Blog,作者為Sathya Balakrishnan、Ihsan Ozcelik。

▲掃描圖中二維碼了解音視頻技術(shù)大會(huì)更多信息▲

影音探索 #008#

用于檢測(cè)宏塊損壞、音頻失真和音視頻同步錯(cuò)誤的檢測(cè)器是Prime Video的三個(gè)質(zhì)量保證工具。

流媒體視頻在錄制、編碼、打包或傳輸過(guò)程中可能會(huì)出現(xiàn)缺陷,因此大多數(shù)訂閱視頻服務(wù)(如亞馬遜Prime Video)都會(huì)不斷評(píng)估其流媒體內(nèi)容的質(zhì)量。

人工內(nèi)容審查(稱(chēng)為人眼主觀測(cè)試,eyes-on-glass testing)無(wú)法實(shí)現(xiàn)規(guī)?;宜陨硪簿邆浜芏嗵魬?zhàn),例如審查者對(duì)質(zhì)量看法的差異。業(yè)內(nèi)更常見(jiàn)的是使用數(shù)字信號(hào)處理來(lái)檢測(cè)視頻信號(hào)中的異常情況,這些異常情況經(jīng)常與缺陷相關(guān)。

三年前,為了驗(yàn)證新的應(yīng)用版本或編碼配置文件的離線更改,Prime Video的視頻質(zhì)量分析(Video Quality Analysis ,VQA)小組開(kāi)始使用機(jī)器學(xué)習(xí)來(lái)識(shí)別多種設(shè)備(如游戲機(jī)、電視和機(jī)頂盒)所獲取的內(nèi)容中的缺陷。最近,我們將同一技術(shù)應(yīng)用到了實(shí)時(shí)質(zhì)量監(jiān)測(cè)數(shù)千個(gè)頻道和實(shí)時(shí)事件,以及大規(guī)模分析新的點(diǎn)播內(nèi)容等問(wèn)題上。

亞馬遜Prime Video宏塊損壞檢測(cè)器的初始版本使用殘差神經(jīng)網(wǎng)絡(luò)來(lái)生成表示特定圖像位置損壞概率的指示圖,將該圖二進(jìn)制化,并計(jì)算損壞區(qū)域和總圖像區(qū)域之間的面積比率。

我們的VQA團(tuán)隊(duì)訓(xùn)練計(jì)算機(jī)視覺(jué)模型,以觀察視頻并發(fā)現(xiàn)可能損害用戶(hù)觀看體驗(yàn)的問(wèn)題,如塊狀幀、意外黑幀和音頻噪音。這使我們能夠處理數(shù)以萬(wàn)計(jì)的直播與點(diǎn)播視頻。

我們面臨的一個(gè)有趣的挑戰(zhàn)是,由于Prime Video產(chǎn)品中視聽(tīng)缺陷的發(fā)生率極低,所以訓(xùn)練數(shù)據(jù)中缺乏正面案例。我們用一個(gè)模擬原始內(nèi)容缺陷的數(shù)據(jù)集來(lái)應(yīng)對(duì)這一挑戰(zhàn)。在使用這個(gè)數(shù)據(jù)集開(kāi)發(fā)檢測(cè)器之后,我們通過(guò)對(duì)一組實(shí)際缺陷進(jìn)行測(cè)試來(lái)驗(yàn)證檢測(cè)器能否用于實(shí)際的線上所生產(chǎn)的內(nèi)容。

示例:我們?nèi)绾螌⒁纛l咔噠聲加入純凈音頻

純凈音頻的波形

純凈音頻

添加了咔噠聲的音頻波形

添加了咔噠聲的受損音頻 音頻: 進(jìn)度條 00:00 00:10 后退15秒 倍速 快進(jìn)15秒

添加了咔噠聲的受損音頻

純凈音頻的頻譜圖

 

添加了咔噠聲的音頻頻譜圖

我們已經(jīng)為18種不同類(lèi)型的缺陷開(kāi)發(fā)了檢測(cè)器,包括視頻畫(huà)面停滯和卡頓、視頻撕裂、音頻和視頻之間的不同步,以及字幕質(zhì)量問(wèn)題。下面,我們重點(diǎn)看一下三種缺陷:宏塊損壞、音頻失真和音視頻同步問(wèn)題。

宏塊損壞(Block corruption)

使用數(shù)字信號(hào)處理進(jìn)行質(zhì)量分析的一個(gè)缺點(diǎn)是,它可能難以區(qū)分某些類(lèi)型的真實(shí)內(nèi)容和有缺陷的內(nèi)容。例如,對(duì)信號(hào)處理器來(lái)說(shuō),人群中的場(chǎng)景或運(yùn)動(dòng)量大的場(chǎng)景可能看起來(lái)像有宏塊損壞的場(chǎng)景。在這種情況下,傳輸障礙導(dǎo)致幀內(nèi)像素塊的位移,或?qū)е孪袼貕K都使用相同的色值。

宏塊損壞的示例(00:06)

為了檢測(cè)宏塊損壞,我們使用了一個(gè)殘差神經(jīng)網(wǎng)絡(luò),這種網(wǎng)絡(luò)的設(shè)計(jì)使較高的塊層(block layer)可以明確糾正下面塊層所遺漏的錯(cuò)誤(殘差)。我們將ResNet18[1]神經(jīng)網(wǎng)絡(luò)的最后一層替換為1x1卷積(神經(jīng)網(wǎng)絡(luò)圖中的conv6)。

宏塊損壞檢測(cè)器架構(gòu)

這一層的輸出是一個(gè)二維圖,其中每個(gè)元素都是特定圖像區(qū)域中宏塊損壞的概率。這個(gè)二維圖取決于輸入圖像的大小。在該圖中,一個(gè)224 x 224 x 3的圖像傳遞給神經(jīng)網(wǎng)絡(luò),輸出是一個(gè)7 x 7的二維圖。在下面的例子中,我們將一張高清圖像傳給神經(jīng)網(wǎng)絡(luò),結(jié)果輸出的是34 x 60像素的二維圖。

在這個(gè)工具的初始版本中,我們對(duì)二維圖進(jìn)行了二進(jìn)制化處理,并計(jì)算出損壞面積的比率:

corruptionArea = areaPositive/totalArea

如果這個(gè)比率超過(guò)了某個(gè)閾值(事實(shí)證明0.07很有效),那么我們就把這一幀標(biāo)記為有宏塊損壞。(見(jiàn)上面的動(dòng)畫(huà))

然而,在該工具的當(dāng)前版本中,我們將決策函數(shù)移動(dòng)到模型中,因此它是與特征提取一起學(xué)習(xí)的。

音頻失真檢測(cè)(Audio artifact detection)

“音頻失真”是音頻信號(hào)中不需要的聲音,它可能是通過(guò)錄音過(guò)程或數(shù)據(jù)壓縮引入的。在后一種情況下,它相當(dāng)于音頻中一個(gè)損壞的宏塊。然而,有時(shí)其他創(chuàng)造性的原因也會(huì)引入音頻失真。

為了檢測(cè)視頻中的音頻失真,我們使用了一個(gè)無(wú)參考模型,這意味著在訓(xùn)練期間,它無(wú)法獲得純凈音頻作為比較標(biāo)準(zhǔn)。該模型基于預(yù)先訓(xùn)練的音頻神經(jīng)網(wǎng)絡(luò),將一秒鐘的音頻片段分類(lèi)為無(wú)缺陷、嗡嗡聲、嘶嘶聲、音頻失真或音頻咔嗒聲。

目前,該模型在我們專(zhuān)有的模擬數(shù)據(jù)集上達(dá)到了0.986的平衡準(zhǔn)確率(balanced accuracy)。關(guān)于該模型的更多信息可以在我們的論文《使用預(yù)訓(xùn)練的音頻神經(jīng)網(wǎng)絡(luò)檢測(cè)音頻人工無(wú)參考模型》(A no-reference model for detecting audio artifacts using pretrained audio neural networks)中找到,我們?cè)诮衲甑腎EEE計(jì)算機(jī)視覺(jué)應(yīng)用冬季會(huì)議上發(fā)表了這篇文章[2]。

帶有失真音頻的視頻示例(00:06)

音視頻同步檢測(cè)(Audio/Video sync detection)

另一個(gè)常見(jiàn)的質(zhì)量問(wèn)題是音視頻同步或唇音同步缺陷,即音頻與視頻不一致。直播、接收和播放過(guò)程中產(chǎn)生的問(wèn)題會(huì)使音頻和視頻不同步。

為了檢測(cè)唇音同步缺陷,我們開(kāi)發(fā)了一個(gè)檢測(cè)器——我們稱(chēng)之為L(zhǎng)ipSync(基于牛津大學(xué)的SyncNet架構(gòu)[3])。

LipSync管道的輸入是一個(gè)四秒鐘的視頻片段。它被傳遞給一個(gè)鏡頭檢測(cè)模型,用于識(shí)別鏡頭邊界;然后傳遞給用于識(shí)別每一幀中人臉的人臉檢測(cè)模型;再傳遞給用于識(shí)別連續(xù)幀中屬于同一人臉的人臉跟蹤模型。

提取人臉軌跡的預(yù)處理管道:以單個(gè)人臉為中心的四秒鐘片段

人臉跟蹤模型的輸出(被稱(chēng)為人臉軌跡)和相關(guān)的音頻然后傳遞給SyncNet模型,該模型匯總整個(gè)人臉軌跡以決定該片段是否同步、不同步或不確定,這意味著要么沒(méi)有檢測(cè)到人臉/人臉軌跡,要么有相同數(shù)量的同步和不同步的預(yù)測(cè)結(jié)果。

未來(lái)工作

以上這些是我們工具庫(kù)中的一些精選檢測(cè)器。在2022年,我們將繼續(xù)努力完善和改進(jìn)我們的算法。在正在進(jìn)行的工作中,我們正在使用主動(dòng)學(xué)習(xí)(active learning,通過(guò)算法選擇信息特別有價(jià)值的訓(xùn)練實(shí)例)來(lái)不斷地重新訓(xùn)練我們部署的模型。

為了生成合成數(shù)據(jù)集,我們正在研究EditGan[4],這是一種新方法,可以更精確地控制生成式對(duì)抗網(wǎng)絡(luò)(GAN)的輸出。我們還在使用我們定制的AWS云原生應(yīng)用程序和SageMaker實(shí)現(xiàn)來(lái)擴(kuò)展我們的缺陷檢測(cè)器,以監(jiān)測(cè)所有實(shí)時(shí)事件和視頻信道。

注釋?zhuān)?/strong>

1.https://arxiv.org/pdf/1512.03385.pdf

2.https://www.amazon.science/publications/a-no-reference-model-for-detecting-audio-artifacts-using-pretrained-audio-neural-networks

3.https://www.robots.ox.ac.uk/~vgg/publications/2016/Chung16a/chung16a.pdf

4.https://proceedings.neurips.cc/paper/2021/file/880610aa9f9de9ea7c545169c716f477-Paper.pdf

原文鏈接:

https://www.amazon.science/blog/how-prime-video-uses-machine-learning-to-ensure-video-quality

編輯:Alex

封面圖片來(lái)自Unsplash,by Aditya Chinchure

    本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。

            查看更多

            掃碼下載澎湃新聞客戶(hù)端

            滬ICP備14003370號(hào)

            滬公網(wǎng)安備31010602000299號(hào)

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116

            ? 2014-2025 上海東方報(bào)業(yè)有限公司

            反饋
            国产日韩一区二区四季| 国内免费高清在线观看| 亚洲视频二| 国产伦理一区二区三区| 99精神在线| 日韩丝袜美女被操| 亚1州区2区3区4区产品国色| 国产熟女50岁一区二区| 蜜臀性色av免费| 99精品国产成人一区二区| 天天狠天天天天透在线| 国产亚洲精品精| 强制中出乱码中文字幕| 91国在线啪| 久久精品无码一区二区日韩A软件| 亚洲午夜精品17c| 亚洲少妇精品视频一区二区三区| 五月婷婷丁香色| 美女色片视频| 久久久久久亚洲中文字幕无码 | 人人看人人人澡人人擦| 高清无码免费啪啪啪视频| 亚洲一区二区经典在线播放| 人人草人人上| 好吊av强力打造| 一区二区三区国产偷拍| 女生把腿张开让男人来捅| 亚洲国产成人精品无码区在线软件| 久久中文AV| 亚洲国产成人网站导航| 最近中文字幕在线中文视频| 中文字幕亚洲无线码| 国产在线观看黄| 国产乱xxxxx97国语对白| 天天日天天操天天插| 色va永久地址| 国产精品一区二区三区色| 国产精品白丝jk黑袜喷水视频| 九九九成人片| 国产一区二区黄色激情片| 日韩无码一区二区散区|