- +1
為什么圖計(jì)算能正面硬剛黑色產(chǎn)業(yè)薅羊毛?
原創(chuàng) 親愛的數(shù)據(jù) 親愛的數(shù)據(jù)

原創(chuàng):譚婧
全文審核專家:朱小坤
場(chǎng)景一:電商給新用戶的補(bǔ)貼,黑產(chǎn)賬戶薅走了。
場(chǎng)景二:每當(dāng)競(jìng)爭店鋪花錢打廣告,就立刻雇傭黑產(chǎn)賬戶一頓瘋狂惡意點(diǎn)擊,競(jìng)爭店鋪在線廣告費(fèi)一會(huì)就花沒了。
場(chǎng)景三:一個(gè)不咋地的商品,好評(píng)一千條,虛假評(píng)論誤導(dǎo)消費(fèi),我瀏覽完商品評(píng)價(jià),都差點(diǎn)信了,好在兜里沒錢,買不了。

數(shù)字時(shí)代,黑色產(chǎn)業(yè)團(tuán)伙就在身邊,伺機(jī)而動(dòng),假賬戶,薅羊毛,刷流量。
要像破案一樣,掌握黑產(chǎn)行動(dòng)規(guī)律,得用圖計(jì)算技術(shù)。
頭部電商APP的注冊(cè)賬號(hào)可以高達(dá)四億以上,不免混入不明身份之輩,比如黑產(chǎn)操控的賬戶。
從幾億賬戶中找到“異?!辟~戶談何容易,而一個(gè)很好用的破案線索叫作“關(guān)系”。
“找關(guān)系”的本質(zhì)是在圖這種數(shù)據(jù)結(jié)構(gòu)上挖掘信息,也可以稱呼為“圖挖掘”。

黑產(chǎn)賬戶常常團(tuán)伙作案,且早學(xué)會(huì)了偽裝。除了作假,黑產(chǎn)賬戶會(huì)有正常的瀏覽和購買,專門迷惑人。
可以說,這些黑產(chǎn)賬戶有智商,但不高。
它們的“智商”足以讓常規(guī)系統(tǒng)無法辨別。
如何用圖挖掘技術(shù)“找到”它們呢?
用一個(gè)想法巧妙的圖挖掘算法。
這一算法原理好比濃縮咖啡。把一大杯咖啡,濃縮成一小杯。記住“濃縮”這個(gè)動(dòng)詞,很關(guān)鍵。
濃縮的過程,是把不可疑的用戶從圖里不斷移出來。
把一張全局大圖濃縮出最可疑的小圖,黑產(chǎn)控制的賬戶就藏匿在里面。

電商場(chǎng)景的圖里可以有很多類別的頂點(diǎn),商店,商品,賬號(hào),品牌,設(shè)備等等。
我們只選兩種頂點(diǎn),一種是商品,一種是購買商品的所用的設(shè)備(手機(jī),筆記本電腦都行)。
最開始,建一個(gè)“下單手機(jī)”和“商品”的二部圖(只含有兩類頂點(diǎn)的圖)。
在某個(gè)電商APP里面下過單的所有手機(jī)都以編號(hào)的形式 “畫”在圖里。
下單手機(jī)和商品之間的關(guān)系包括購買,瀏覽,收藏,加購。

第二步,引入“可疑度”來量化每個(gè)下單手機(jī)作弊的可能性。
下單手機(jī)的可疑度怎么計(jì)算呢?一臺(tái)手機(jī)下單的次數(shù)(也稱頂點(diǎn)入度),計(jì)算每個(gè)頂點(diǎn)的可疑度。
算法設(shè)計(jì)可疑度的巧妙之處,就是能分辨得出作弊和非作弊的邊界,從而找到作弊團(tuán)體。

最開始的時(shí)候,圖里既有作弊的賬戶,也有正常消費(fèi)者的賬戶。畢竟,作弊的人是少數(shù)。
一個(gè)用戶關(guān)心的商品占平臺(tái)商品總量的很少很少一部分,所以呈現(xiàn)出一張稀疏的二部圖。

電商的二部圖的全局規(guī)模很大,頂點(diǎn)數(shù)量可達(dá)到幾十億,邊數(shù)量可達(dá)幾百億。當(dāng)之無愧工業(yè)級(jí)圖數(shù)據(jù)。
我們的目的,就是找到那張“邊”最密集的局部圖。

我要用一個(gè)與頂點(diǎn)數(shù)量無關(guān)的量來刻畫最后的結(jié)果。就好比,液體濃度和盛液體的容器沒有關(guān)系。
不斷刪除可疑度最低的頂點(diǎn)。相當(dāng)于,在不斷地濃縮可疑度的濃度。
第三步,再用貪心算法的思路,動(dòng)態(tài)刪除最小可疑度頂點(diǎn)。
于是,可疑度小的頂點(diǎn)被一一刪除,留下那些可疑度大的頂點(diǎn)。

這個(gè)圖挖掘算法叫啥名字?
這是Fraudar算法,來源于2016年的KDD會(huì)議,是美國卡耐基梅隆大學(xué)克里斯托·法拉特(Christos Faloutsos)教授團(tuán)隊(duì)論文,并獲得了當(dāng)年的最佳論文獎(jiǎng)。

圖計(jì)算正面硬剛黑產(chǎn)薅羊毛的行動(dòng)還在繼續(xù),隨之而來的是圖深度學(xué)習(xí)技術(shù)的燦然一新。
作弊手法絕不會(huì)一成不變,F(xiàn)raudar算法不能抓到所有的黑產(chǎn)賬戶。
Fraudar算法只用到了圖結(jié)構(gòu)的信息,還有更多信息沒有用起來。
有的賬戶頻繁切換IP,頻繁切換手機(jī)的操作系統(tǒng)等等,這些都是逃避”抓捕“的異常行為。
加入特征,用圖深度神經(jīng)網(wǎng)(比如GraphSAGE)做分類任務(wù),區(qū)分“好人”“壞人”,這樣就能找到更多黑產(chǎn)賬號(hào)。

最后,多輪分析和驗(yàn)證,證明抓出來的賬戶是黑產(chǎn)賬戶,以免誤傷好賬號(hào)。
圖深度學(xué)習(xí)一種強(qiáng)有力的工具,用于反黑產(chǎn)時(shí),像一面照妖鏡。
能把圖深度學(xué)習(xí)用得好的企業(yè),那都是高手。根據(jù)親愛的數(shù)據(jù)可靠消息,你手機(jī)里的那些知名的APP,淘寶,支付寶,京東商城,小紅書等等都在使用這一技術(shù)。
(完)
全文審核專家:


最后,再介紹一下主編自己吧,
我是譚婧,科技和科普題材作者。
為了在時(shí)代中發(fā)現(xiàn)故事,
我圍追科技大神,堵截科技公司。
偶爾寫小說,畫漫畫。
生命短暫,不走捷徑。
個(gè)人微信:18611208992
還想看我的文章,就關(guān)注“親愛的數(shù)據(jù)”。
原標(biāo)題:《為什么圖計(jì)算能正面硬剛黑色產(chǎn)業(yè)薅羊毛?》
本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問http://renzheng.thepaper.cn。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司




