- +1
大數(shù)據(jù)無所不能嗎?來自小數(shù)據(jù)研究者的六點質(zhì)疑
原創(chuàng) 新傳研讀社 新傳研讀社
寫在前面:
本期推送為你準備的是著名社交媒體研究者danah boyd和Kate Crawford撰寫的論文《大數(shù)據(jù)的關(guān)鍵問題:對于一個文化、技術(shù)與學(xué)術(shù)現(xiàn)象的挑戰(zhàn)》。在這篇論文中,兩位學(xué)者對大數(shù)據(jù)研究提出了六點質(zhì)疑。當然,這并非是為了否定大數(shù)據(jù)研究的價值,而是希望對“大數(shù)據(jù)狂熱”進行更加冷靜的思考。截止今日,這篇論文的被引用量已經(jīng)達到3493次,或許可以看做是社交媒體大數(shù)據(jù)研究領(lǐng)域的必讀文獻。在本期推送中,我們對這篇論文的核心內(nèi)容進行摘譯,期待可以為你提供一些有價值的反思。
大數(shù)據(jù)時代已經(jīng)來臨。計算機科學(xué)家、物理學(xué)家、經(jīng)濟學(xué)家、數(shù)學(xué)家、社會學(xué)家……都被沖入大數(shù)據(jù)的海洋之中。社交媒體中的互動、健康報告、電話記錄、政府檔案等數(shù)字痕跡,都成為了學(xué)者們熱衷于追逐的研究素材。不過同時,一個重要的問題也浮現(xiàn)出來:大數(shù)據(jù)能否幫我們創(chuàng)造更大的公共價值?亦或者說,它只會成為窺探隱私和侵入式營銷的工具而已?
大數(shù)據(jù)是一個糟糕的學(xué)術(shù)名詞。在這個詞被提出時,它指的是一組需要通過超級計算機運行的數(shù)據(jù)。不過,時至今日,我們家庭的筆記本電腦也可以做這件事。實際上,大數(shù)據(jù)的意義并不在于數(shù)據(jù)量本身,而在于搜索、整合、對照大型數(shù)據(jù)的能力。
大數(shù)據(jù)是一種技術(shù)現(xiàn)象,同時也是文化現(xiàn)象。它迎合了人們“數(shù)據(jù)越大、智識水平越高”的信念。人們相信,大數(shù)據(jù)攜帶著真理、客觀和準確的光環(huán),可以生產(chǎn)出我們從未企及的深度思考。另一方面,反烏托邦的觀點則擔(dān)心,大數(shù)據(jù)(big data)會成為一種新的老大哥(big brother),侵蝕人們的隱私空間、干擾公民行動的自由、增強國家權(quán)力。
如今,已經(jīng)出現(xiàn)了不少對于大數(shù)據(jù)的研究。不過,我們?nèi)耘f有必要進行批判性的思考:何為大數(shù)據(jù)?誰有權(quán)力接近大數(shù)據(jù)?數(shù)據(jù)分析是怎樣進行的?目的是什么?在這篇文章中,我們提供了有關(guān)大數(shù)據(jù)研究的六種反思,希望能在不同領(lǐng)域的研究者之間引發(fā)討論。
反思01
大數(shù)據(jù)改變了知識的定義
Big Data changes the definition of knowledge

同樣,大數(shù)據(jù)也不僅僅是一種工具,它還代表了研究的計算轉(zhuǎn)向(computational turn)。正如福特改變了我們制造汽車的方式,大數(shù)據(jù)也改變了知識這一客體的面貌。拉圖爾提醒我們:改變工具,你就會改變整個既有的社會理論。
大數(shù)據(jù)讓我們以前所未有的廣度和深度來收集數(shù)據(jù),這也在認識論方面產(chǎn)生了深刻影響?!哆B線》雜志主編安德森認為,我們已經(jīng)進入到了“拍字節(jié)時代”(The Petabyte Age)。讓我們忘記那些傳統(tǒng)的社會科學(xué)吧,不管是語言學(xué)還是社會學(xué)。誰才有資格解釋人類行為呢?答案是數(shù)據(jù)。只要擁有足夠的數(shù)據(jù),數(shù)字就可以自己說話。
數(shù)據(jù)可以自己說話嗎?我們對此深表懷疑。安德森的觀點體現(xiàn)出大數(shù)據(jù)爭論中一種潛藏的傲慢。似乎大數(shù)據(jù)出現(xiàn)之后,其他方法就應(yīng)該靠邊站。不過,也有研究者認為,大數(shù)據(jù)的問題恰恰在于,在洪流一般的信息背后,缺少哲學(xué)意義上的管控。
大數(shù)據(jù)有自己的局限性。例如,Twitter和Facebook是大數(shù)據(jù)研究者經(jīng)常訪問的網(wǎng)站,但它的搜索功能并不強大。因此,研究者更可能去關(guān)注那些正在發(fā)生和剛剛發(fā)生的數(shù)據(jù),因為歷史數(shù)據(jù)幾乎不可能挖掘到。安德森問我們,科學(xué)是否可以向Google學(xué)習(xí)點什么呢?不過,我到是想說,真正有價值的問題似乎是:大數(shù)據(jù)如何改變了學(xué)習(xí)的意義,這種新的知識系統(tǒng)究竟提供了哪些可能性,又具有哪些局限呢?
思考02
大數(shù)據(jù)宣稱的客觀、準確是具有誤導(dǎo)性的
Claims to objectivity and accuracy are misleading

客觀性是科學(xué)哲學(xué)長久以來的焦點問題??茖W(xué)方法試圖將自己從主觀領(lǐng)域移除,變成一個不帶感情色彩的程序。我們提出假設(shè)、驗證假設(shè),最后獲得知識的增進。不過,所有研究者都無法逃離一個事實——我們需要解釋數(shù)據(jù)。按照Gitelman的說法,數(shù)據(jù)需要被想象,并且,每個研究領(lǐng)域或?qū)W科,都有自己想象數(shù)據(jù)的規(guī)范和標準。
在計算機科學(xué)家涉足社會科學(xué)時,我們傾向于認為他們的工作僅僅有關(guān)事實,與解釋毫無關(guān)系——畢竟,他們只想建立數(shù)學(xué)模型。不過,當研究者試圖去理解這些模型的意義時,解釋的過程就開始了。甚至,科學(xué)家們在決定研究設(shè)計時,他們也在解釋。例如,對于社交媒體數(shù)據(jù),存在著“數(shù)據(jù)清理”(data cleaning)這一道程序。哪些變量和屬性要被保留?哪些要被刪除?這個過程內(nèi)在便具有主觀性。
如果單純拒絕解釋,大數(shù)據(jù)還會讓我們產(chǎn)生幻想性的錯覺。例如,大數(shù)據(jù)研究經(jīng)常會發(fā)現(xiàn)莫名其妙的相關(guān)性。一個有名的例子來自Leinweber,他發(fā)現(xiàn)標準普爾 500 指數(shù)基金和孟加拉的黃油生產(chǎn)量之間存在相關(guān)性。
思考03
數(shù)據(jù)越大,不一定數(shù)據(jù)越好
Bigger data are not always better data

因為Twitter的數(shù)據(jù)方便獲取,學(xué)者們經(jīng)常使用它來驗證一些列的問題。雖然很多學(xué)者都明白,來自Twitter的數(shù)據(jù)存在天然的局限性,不過,媒體報道并不在乎這一點,他們只會告訴讀者,這篇論文研究了上百萬“人”。要知道,Twitter并不代表所有人,Twitter用戶和“人”之間也不能劃等號——有一些賬戶是多人使用,有一些賬戶是機器人在操縱,有些人甚至根本就不使用Twitter。
大數(shù)據(jù)并不意味著整體數(shù)據(jù)。如果不考慮到樣本本身的特質(zhì),數(shù)據(jù)的規(guī)模就毫無意義。例如,如果一個學(xué)者試圖理解Twitter廣播的話題頻率,但Twitter會自動隱藏那些有問題的內(nèi)容(例如色情和垃圾信息),那么,無論我們收集多大的數(shù)據(jù),結(jié)論都是不準確的。遺憾的是,大數(shù)據(jù)研究者熱衷于在Twitter上收集數(shù)據(jù),但卻很少有人提到,Twitter數(shù)據(jù)有嚴重的方法論爭議,也很少有人愿意對自己的數(shù)據(jù)進行說明。
在社會科學(xué)的計算轉(zhuǎn)向過程中,我們更需要認識到“小數(shù)據(jù)”的價值。在任何數(shù)據(jù)層級上,都有可能產(chǎn)生研究洞見。某些時候,哪怕我們聚焦一個人,都有可能獲得卓越的發(fā)現(xiàn)。例如,Veinot 通過對于一位水電公司的巡查員的研究,試圖理解藍領(lǐng)工人的信息實踐(information practices)。她的研究更新了“信息實踐”這一學(xué)術(shù)名詞的定義。僅就她的發(fā)現(xiàn)而言,即便我們收集上百萬的Twitter賬戶數(shù)據(jù),也無法獲得。
數(shù)據(jù)規(guī)模應(yīng)該與研究問題匹配。有些時候,小即是美。
思考04:
剔除語境的大數(shù)據(jù)會失去意義
Taken out of context, big data loses its meaning

在大數(shù)據(jù)研究中,常見的兩種社會網(wǎng)絡(luò)是“節(jié)點網(wǎng)絡(luò)”(articulated networks)和“行為網(wǎng)絡(luò)”(behavioral networks)。
所謂節(jié)點網(wǎng)絡(luò),可以簡單理解為Facebook上的好友列表。不過,我選擇關(guān)注一個人,可能有不同的動機,比如TA是我的朋友、同事、熟人、明星、朋友的朋友、公眾人物,或者有意思的陌生人。所謂行為網(wǎng)絡(luò),指的是通過技術(shù)抓取到的交流信息。這種交流的種類也很多,例如給一個人流言、在照片上tag一個人等等、給一個人發(fā)私信,等等。
節(jié)點網(wǎng)絡(luò)和行為網(wǎng)絡(luò)對研究者具有重要的價值,不過,它們并不能被等同于人際網(wǎng)絡(luò)(personal networks)。例如,研究者經(jīng)常使用“連接強度”(tie strength)來理解個體關(guān)系的重要性。移動電話數(shù)據(jù)表明,人們給同事打電話的次數(shù),要多于給自己配偶打電話的次數(shù),我們難道能因此得出結(jié)論,同事比配偶的關(guān)系強度更高嗎?
忽略具體的交流語境,僅僅通過交流頻率或朋友列表示來測量關(guān)系強度,本身是有很大問題的。因為并非每一種(次)連接都是同質(zhì)的。
思考05
可獲得的數(shù)據(jù)并不一定就是道德的
Just because it is accessible
does not make it ethical

學(xué)者不得不面對一個問題:在社交媒體上,所謂的“公開”(public)數(shù)據(jù),究竟該如何使用?如何處理其中的研究倫理問題?一部分人已經(jīng)意識到問題的嚴重性,并呼吁平臺對用戶隱私進行更好的保護。事實上,任何有關(guān)人的數(shù)據(jù)有難免引發(fā)隱私爭議,濫用數(shù)據(jù)的危險究竟有多大,又是一件難以被量化的事。
自20世紀70年代以來,大學(xué)通過建立機構(gòu)審查委員會(IRB)體系來保護被研究對象的權(quán)利。例如,“知情同意”被廣泛作為研究倫理的基本要求之一。不過,對于大數(shù)據(jù)而言,其中的倫理意涵仍舊十分模糊。一個人在社交媒體上的廣播應(yīng)該被納入到研究數(shù)據(jù)之中嗎?萬一TA的廣播以一種脫離語境的方式被解讀呢?對此,TA有知情權(quán)嗎?如果TA在研究中遭受到了傷害,誰來負責(zé)呢?大數(shù)據(jù)研究中的知情同意應(yīng)該如何操作呢?我們不能簡單地認為,我們可以獲得一項數(shù)據(jù),就等同于可以收集和分析它們。
在大數(shù)據(jù)的研究中,我們還需要關(guān)注真相、控制與權(quán)力問題。研究者擁有工具和渠道,但社交媒體用戶卻沒有。他們的廣播是在高度情景化的背景下生產(chǎn)的,也很可能不愿意自己的信息被用在其他地方。很多人并不知道,算法正在收集、儲存他們的數(shù)據(jù),以供未來使用;更多人甚至不知道,研究者會成為他們個人主頁的訪客。
大數(shù)據(jù)的研究者很少會承認,在“being in public”和“being public”之間存在著相當大的差別。
思考06:
大數(shù)據(jù)的使用限制創(chuàng)造了新的數(shù)字鴻溝
Limited access to Big Data
creates new digital divides

不過,我們要詢問的問題是:誰可以擁有這些數(shù)據(jù)?在何種情境下?lián)碛??有何限制?正如Manovich所指出的:只有那些社交媒體公司才能擁有真正大規(guī)模的社交數(shù)據(jù)——尤其是那些交易數(shù)據(jù)。那些為Facebook或Google工作的研究者們,也可以獲得其他學(xué)者無法擁有的數(shù)據(jù)。一些公司完全不提供關(guān)于自己的任何數(shù)據(jù),另一些公司則用這些數(shù)據(jù)賣錢。這就造成了一種不平等:那些有錢的、有合作關(guān)系的研究者,可以生產(chǎn)出完全不同的研究。而不擁有這些資源的研究者,既不能進行這些研究,也沒有機會去評估這些研究的方法論主張。
在接近權(quán)之外,還有技巧層面的問題。大數(shù)據(jù)研究排斥了那些不具有計算機背景的研究者,這并不是問題。關(guān)鍵問題在于,我們將大數(shù)據(jù)方法放在了至高無上的位置,這就建造起一種基于“誰能讀懂數(shù)據(jù)”的研究階級。相應(yīng)的,傳統(tǒng)的社會科學(xué)研究者的價值可能會被低估。我們需要面臨的另一項挑戰(zhàn)是,如何才能培養(yǎng)出這樣的學(xué)生——既通曉社會理論,又熟練掌握算法和數(shù)據(jù)分析?
最后,我們還面臨著另一種風(fēng)險。因為社交媒體公司沒有義務(wù)對研究者開放數(shù)據(jù),因此,那些獲得大數(shù)據(jù)的研究者,就不太可能進行批判式的研究。因為一旦這樣做了,他們就會立刻被剝奪擁有數(shù)據(jù)的資格。我們必須對這種寒蟬效應(yīng)加以警惕。
在研究界,大數(shù)據(jù)創(chuàng)造了大數(shù)據(jù)富人(Big Data rich)和大數(shù)據(jù)窮人(Big Data poor)。甚至Twitter的研究人員Jimmy Lin直接說,學(xué)術(shù)界最好離社交媒體遠一點,這樣我們能做得更好。這種劃分局內(nèi)人和局外人的觀點可能會破壞學(xué)術(shù)共同體。
Manovich認為,大數(shù)據(jù)王國中有三個階層:那些制造數(shù)據(jù)的人、那些可以收集數(shù)據(jù)的人、和那些可以分析數(shù)據(jù)的人。我們知道,最后一類人的比重最低,也有用最多特權(quán)。同時,他們也是決定大數(shù)據(jù)使用規(guī)則的人。也許在學(xué)術(shù)界,對這種不平等的批判可能會被很快放棄,不過,我們必須保持考察和質(zhì)疑。
獲取參考文獻

原標題:《大數(shù)據(jù)無所不能嗎?來自小數(shù)據(jù)研究者的六點質(zhì)疑》
本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司




