下載客戶端

登錄

大數(shù)據(jù)無所不能嗎？來自小數(shù)據(jù)研究者的六點質(zhì)疑

2020-05-14 06:59

來源：澎湃新聞·澎湃號·湃客

原創(chuàng) 新傳研讀社新傳研讀社

寫在前面：

本期推送為你準備的是著名社交媒體研究者danah boyd和Kate Crawford撰寫的論文《大數(shù)據(jù)的關(guān)鍵問題：對于一個文化、技術(shù)與學(xué)術(shù)現(xiàn)象的挑戰(zhàn)》。在這篇論文中，兩位學(xué)者對大數(shù)據(jù)研究提出了六點質(zhì)疑。當然，這并非是為了否定大數(shù)據(jù)研究的價值，而是希望對“大數(shù)據(jù)狂熱”進行更加冷靜的思考。截止今日，這篇論文的被引用量已經(jīng)達到3493次，或許可以看做是社交媒體大數(shù)據(jù)研究領(lǐng)域的必讀文獻。在本期推送中，我們對這篇論文的核心內(nèi)容進行摘譯，期待可以為你提供一些有價值的反思。

大數(shù)據(jù)時代已經(jīng)來臨。計算機科學(xué)家、物理學(xué)家、經(jīng)濟學(xué)家、數(shù)學(xué)家、社會學(xué)家……都被沖入大數(shù)據(jù)的海洋之中。社交媒體中的互動、健康報告、電話記錄、政府檔案等數(shù)字痕跡，都成為了學(xué)者們熱衷于追逐的研究素材。不過同時，一個重要的問題也浮現(xiàn)出來：大數(shù)據(jù)能否幫我們創(chuàng)造更大的公共價值？亦或者說，它只會成為窺探隱私和侵入式營銷的工具而已？

大數(shù)據(jù)是一個糟糕的學(xué)術(shù)名詞。在這個詞被提出時，它指的是一組需要通過超級計算機運行的數(shù)據(jù)。不過，時至今日，我們家庭的筆記本電腦也可以做這件事。實際上，大數(shù)據(jù)的意義并不在于數(shù)據(jù)量本身，而在于搜索、整合、對照大型數(shù)據(jù)的能力。

大數(shù)據(jù)是一種技術(shù)現(xiàn)象，同時也是文化現(xiàn)象。它迎合了人們“數(shù)據(jù)越大、智識水平越高”的信念。人們相信，大數(shù)據(jù)攜帶著真理、客觀和準確的光環(huán)，可以生產(chǎn)出我們從未企及的深度思考。另一方面，反烏托邦的觀點則擔(dān)心，大數(shù)據(jù)（big data）會成為一種新的老大哥（big brother），侵蝕人們的隱私空間、干擾公民行動的自由、增強國家權(quán)力。

如今，已經(jīng)出現(xiàn)了不少對于大數(shù)據(jù)的研究。不過，我們?nèi)耘f有必要進行批判性的思考：何為大數(shù)據(jù)？誰有權(quán)力接近大數(shù)據(jù)？數(shù)據(jù)分析是怎樣進行的？目的是什么？在這篇文章中，我們提供了有關(guān)大數(shù)據(jù)研究的六種反思，希望能在不同領(lǐng)域的研究者之間引發(fā)討論。

反思01

大數(shù)據(jù)改變了知識的定義

Big Data changes the definition of knowledge

20世紀初，亨利·福特（Henry Ford）發(fā)明了一種大規(guī)模生產(chǎn)的制造體系，并快速成為了技術(shù)進步的主導(dǎo)象征。福特制（Fordism）意味著自動化和流水線。不過，它并不僅僅只是一系列新的工具。在某種程度上，20世紀正是被福特制所定義的：它創(chuàng)造了一種對于勞動（labor）的新理解、一種對人與工作關(guān)系的新理解，也是一種對于社會的新理解。

同樣，大數(shù)據(jù)也不僅僅是一種工具，它還代表了研究的計算轉(zhuǎn)向（computational turn）。正如福特改變了我們制造汽車的方式，大數(shù)據(jù)也改變了知識這一客體的面貌。拉圖爾提醒我們：改變工具，你就會改變整個既有的社會理論。

大數(shù)據(jù)讓我們以前所未有的廣度和深度來收集數(shù)據(jù)，這也在認識論方面產(chǎn)生了深刻影響?！哆B線》雜志主編安德森認為，我們已經(jīng)進入到了“拍字節(jié)時代”（The Petabyte Age）。讓我們忘記那些傳統(tǒng)的社會科學(xué)吧，不管是語言學(xué)還是社會學(xué)。誰才有資格解釋人類行為呢？答案是數(shù)據(jù)。只要擁有足夠的數(shù)據(jù)，數(shù)字就可以自己說話。

數(shù)據(jù)可以自己說話嗎？我們對此深表懷疑。安德森的觀點體現(xiàn)出大數(shù)據(jù)爭論中一種潛藏的傲慢。似乎大數(shù)據(jù)出現(xiàn)之后，其他方法就應(yīng)該靠邊站。不過，也有研究者認為，大數(shù)據(jù)的問題恰恰在于，在洪流一般的信息背后，缺少哲學(xué)意義上的管控。

大數(shù)據(jù)有自己的局限性。例如，Twitter和Facebook是大數(shù)據(jù)研究者經(jīng)常訪問的網(wǎng)站，但它的搜索功能并不強大。因此，研究者更可能去關(guān)注那些正在發(fā)生和剛剛發(fā)生的數(shù)據(jù)，因為歷史數(shù)據(jù)幾乎不可能挖掘到。安德森問我們，科學(xué)是否可以向Google學(xué)習(xí)點什么呢？不過，我到是想說，真正有價值的問題似乎是：大數(shù)據(jù)如何改變了學(xué)習(xí)的意義，這種新的知識系統(tǒng)究竟提供了哪些可能性，又具有哪些局限呢？

思考02

大數(shù)據(jù)宣稱的客觀、準確是具有誤導(dǎo)性的

Claims to objectivity and accuracy are misleading

拉圖爾曾抱怨說：“數(shù)字！數(shù)字！數(shù)字！社會學(xué)如此癡迷于變成一種量化科學(xué)！”不過，社會學(xué)似乎從未做到這件事。如今，大數(shù)據(jù)提供給人文學(xué)科一種新機遇，來實現(xiàn)量化科學(xué)和客觀方法的夢想。它讓更多的社會空間可被量化。不過事實上，在我們看來，大數(shù)據(jù)方法仍舊是主觀的。

客觀性是科學(xué)哲學(xué)長久以來的焦點問題?？茖W(xué)方法試圖將自己從主觀領(lǐng)域移除，變成一個不帶感情色彩的程序。我們提出假設(shè)、驗證假設(shè)，最后獲得知識的增進。不過，所有研究者都無法逃離一個事實——我們需要解釋數(shù)據(jù)。按照Gitelman的說法，數(shù)據(jù)需要被想象，并且，每個研究領(lǐng)域或?qū)W科，都有自己想象數(shù)據(jù)的規(guī)范和標準。

在計算機科學(xué)家涉足社會科學(xué)時，我們傾向于認為他們的工作僅僅有關(guān)事實，與解釋毫無關(guān)系——畢竟，他們只想建立數(shù)學(xué)模型。不過，當研究者試圖去理解這些模型的意義時，解釋的過程就開始了。甚至，科學(xué)家們在決定研究設(shè)計時，他們也在解釋。例如，對于社交媒體數(shù)據(jù)，存在著“數(shù)據(jù)清理”（data cleaning）這一道程序。哪些變量和屬性要被保留？哪些要被刪除？這個過程內(nèi)在便具有主觀性。

如果單純拒絕解釋，大數(shù)據(jù)還會讓我們產(chǎn)生幻想性的錯覺。例如，大數(shù)據(jù)研究經(jīng)常會發(fā)現(xiàn)莫名其妙的相關(guān)性。一個有名的例子來自Leinweber，他發(fā)現(xiàn)標準普爾 500 指數(shù)基金和孟加拉的黃油生產(chǎn)量之間存在相關(guān)性。

思考03

數(shù)據(jù)越大，不一定數(shù)據(jù)越好

Bigger data are not always better data

社會科學(xué)家一直認為，數(shù)據(jù)收集和分析的系統(tǒng)性，保證了他們工作的縝密。不管是問卷調(diào)查還是實驗法，都會提供給其他研究者評估研究效度的途徑。我們不能僅僅因為大數(shù)據(jù)的體量巨大，就忽略了其中的方法問題。對于樣本的理解，反而變得更加重要。

因為Twitter的數(shù)據(jù)方便獲取，學(xué)者們經(jīng)常使用它來驗證一些列的問題。雖然很多學(xué)者都明白，來自Twitter的數(shù)據(jù)存在天然的局限性，不過，媒體報道并不在乎這一點，他們只會告訴讀者，這篇論文研究了上百萬“人”。要知道，Twitter并不代表所有人，Twitter用戶和“人”之間也不能劃等號——有一些賬戶是多人使用，有一些賬戶是機器人在操縱，有些人甚至根本就不使用Twitter。

大數(shù)據(jù)并不意味著整體數(shù)據(jù)。如果不考慮到樣本本身的特質(zhì)，數(shù)據(jù)的規(guī)模就毫無意義。例如，如果一個學(xué)者試圖理解Twitter廣播的話題頻率，但Twitter會自動隱藏那些有問題的內(nèi)容（例如色情和垃圾信息），那么，無論我們收集多大的數(shù)據(jù)，結(jié)論都是不準確的。遺憾的是，大數(shù)據(jù)研究者熱衷于在Twitter上收集數(shù)據(jù)，但卻很少有人提到，Twitter數(shù)據(jù)有嚴重的方法論爭議，也很少有人愿意對自己的數(shù)據(jù)進行說明。

在社會科學(xué)的計算轉(zhuǎn)向過程中，我們更需要認識到“小數(shù)據(jù)”的價值。在任何數(shù)據(jù)層級上，都有可能產(chǎn)生研究洞見。某些時候，哪怕我們聚焦一個人，都有可能獲得卓越的發(fā)現(xiàn)。例如，Veinot 通過對于一位水電公司的巡查員的研究，試圖理解藍領(lǐng)工人的信息實踐（information practices）。她的研究更新了“信息實踐”這一學(xué)術(shù)名詞的定義。僅就她的發(fā)現(xiàn)而言，即便我們收集上百萬的Twitter賬戶數(shù)據(jù)，也無法獲得。

數(shù)據(jù)規(guī)模應(yīng)該與研究問題匹配。有些時候，小即是美。

思考04：

剔除語境的大數(shù)據(jù)會失去意義

Taken out of context, big data loses its meaning

隨著社交媒體的興起，研究者似乎非常熱衷于為用戶描繪“社交圖譜”（social graph）。他們蜂擁到Twitter和Facebook之中，對用戶之間的聯(lián)系進行大數(shù)據(jù)研究，并聲稱可以描繪用戶的社會網(wǎng)絡(luò)。不過，社交媒體中呈現(xiàn)的關(guān)系似乎與社會學(xué)家、人類學(xué)家自1930年以來考察的親緣網(wǎng)絡(luò)（kinship networks）并不相同。

在大數(shù)據(jù)研究中，常見的兩種社會網(wǎng)絡(luò)是“節(jié)點網(wǎng)絡(luò)”（articulated networks）和“行為網(wǎng)絡(luò)”（behavioral networks）。

所謂節(jié)點網(wǎng)絡(luò)，可以簡單理解為Facebook上的好友列表。不過，我選擇關(guān)注一個人，可能有不同的動機，比如TA是我的朋友、同事、熟人、明星、朋友的朋友、公眾人物，或者有意思的陌生人。所謂行為網(wǎng)絡(luò)，指的是通過技術(shù)抓取到的交流信息。這種交流的種類也很多，例如給一個人流言、在照片上tag一個人等等、給一個人發(fā)私信，等等。

節(jié)點網(wǎng)絡(luò)和行為網(wǎng)絡(luò)對研究者具有重要的價值，不過，它們并不能被等同于人際網(wǎng)絡(luò)（personal networks）。例如，研究者經(jīng)常使用“連接強度”（tie strength）來理解個體關(guān)系的重要性。移動電話數(shù)據(jù)表明，人們給同事打電話的次數(shù)，要多于給自己配偶打電話的次數(shù)，我們難道能因此得出結(jié)論，同事比配偶的關(guān)系強度更高嗎？

忽略具體的交流語境，僅僅通過交流頻率或朋友列表示來測量關(guān)系強度，本身是有很大問題的。因為并非每一種（次）連接都是同質(zhì)的。

思考05

可獲得的數(shù)據(jù)并不一定就是道德的

Just because it is accessible

does not make it ethical

2006年，一個哈佛大學(xué)研究團隊收集了1700位大學(xué)生的Facebook賬號，希望研究他們的興趣和朋友關(guān)系的變化。這些經(jīng)過匿名處理的數(shù)據(jù)被公布出來，以供其他研究者使用。然而，人們卻發(fā)現(xiàn)不難從這些匿名數(shù)據(jù)中得知某些用戶的真實身份。更大的問題甚至是：這些學(xué)生完全不知道，自己的數(shù)據(jù)正在被研究者進行收集和分析。

學(xué)者不得不面對一個問題：在社交媒體上，所謂的“公開”（public）數(shù)據(jù)，究竟該如何使用？如何處理其中的研究倫理問題？一部分人已經(jīng)意識到問題的嚴重性，并呼吁平臺對用戶隱私進行更好的保護。事實上，任何有關(guān)人的數(shù)據(jù)有難免引發(fā)隱私爭議，濫用數(shù)據(jù)的危險究竟有多大，又是一件難以被量化的事。

自20世紀70年代以來，大學(xué)通過建立機構(gòu)審查委員會（IRB）體系來保護被研究對象的權(quán)利。例如，“知情同意”被廣泛作為研究倫理的基本要求之一。不過，對于大數(shù)據(jù)而言，其中的倫理意涵仍舊十分模糊。一個人在社交媒體上的廣播應(yīng)該被納入到研究數(shù)據(jù)之中嗎？萬一TA的廣播以一種脫離語境的方式被解讀呢？對此，TA有知情權(quán)嗎？如果TA在研究中遭受到了傷害，誰來負責(zé)呢？大數(shù)據(jù)研究中的知情同意應(yīng)該如何操作呢？我們不能簡單地認為，我們可以獲得一項數(shù)據(jù)，就等同于可以收集和分析它們。

在大數(shù)據(jù)的研究中，我們還需要關(guān)注真相、控制與權(quán)力問題。研究者擁有工具和渠道，但社交媒體用戶卻沒有。他們的廣播是在高度情景化的背景下生產(chǎn)的，也很可能不愿意自己的信息被用在其他地方。很多人并不知道，算法正在收集、儲存他們的數(shù)據(jù)，以供未來使用；更多人甚至不知道，研究者會成為他們個人主頁的訪客。

大數(shù)據(jù)的研究者很少會承認，在“being in public”和“being public”之間存在著相當大的差別。

思考06：

大數(shù)據(jù)的使用限制創(chuàng)造了新的數(shù)字鴻溝

Limited access to Big Data

creates new digital divides

社會學(xué)家Homans曾說：“在所需的時間和金錢方面，社會科學(xué)研究已經(jīng)非常昂貴了，并且每天還在漲價?！痹鴰缀螘r，收集數(shù)據(jù)是一件既費時間又費錢的事情，不過如今，似乎大數(shù)據(jù)的狂熱者們有理由相信，大數(shù)據(jù)提供了一種獲得大規(guī)模數(shù)據(jù)的簡便方法。

不過，我們要詢問的問題是：誰可以擁有這些數(shù)據(jù)？在何種情境下?lián)碛?？有何限制？正如Manovich所指出的：只有那些社交媒體公司才能擁有真正大規(guī)模的社交數(shù)據(jù)——尤其是那些交易數(shù)據(jù)。那些為Facebook或Google工作的研究者們，也可以獲得其他學(xué)者無法擁有的數(shù)據(jù)。一些公司完全不提供關(guān)于自己的任何數(shù)據(jù)，另一些公司則用這些數(shù)據(jù)賣錢。這就造成了一種不平等：那些有錢的、有合作關(guān)系的研究者，可以生產(chǎn)出完全不同的研究。而不擁有這些資源的研究者，既不能進行這些研究，也沒有機會去評估這些研究的方法論主張。

在接近權(quán)之外，還有技巧層面的問題。大數(shù)據(jù)研究排斥了那些不具有計算機背景的研究者，這并不是問題。關(guān)鍵問題在于，我們將大數(shù)據(jù)方法放在了至高無上的位置，這就建造起一種基于“誰能讀懂數(shù)據(jù)”的研究階級。相應(yīng)的，傳統(tǒng)的社會科學(xué)研究者的價值可能會被低估。我們需要面臨的另一項挑戰(zhàn)是，如何才能培養(yǎng)出這樣的學(xué)生——既通曉社會理論，又熟練掌握算法和數(shù)據(jù)分析？

最后，我們還面臨著另一種風(fēng)險。因為社交媒體公司沒有義務(wù)對研究者開放數(shù)據(jù)，因此，那些獲得大數(shù)據(jù)的研究者，就不太可能進行批判式的研究。因為一旦這樣做了，他們就會立刻被剝奪擁有數(shù)據(jù)的資格。我們必須對這種寒蟬效應(yīng)加以警惕。

在研究界，大數(shù)據(jù)創(chuàng)造了大數(shù)據(jù)富人（Big Data rich）和大數(shù)據(jù)窮人（Big Data poor）。甚至Twitter的研究人員Jimmy Lin直接說，學(xué)術(shù)界最好離社交媒體遠一點，這樣我們能做得更好。這種劃分局內(nèi)人和局外人的觀點可能會破壞學(xué)術(shù)共同體。

Manovich認為，大數(shù)據(jù)王國中有三個階層：那些制造數(shù)據(jù)的人、那些可以收集數(shù)據(jù)的人、和那些可以分析數(shù)據(jù)的人。我們知道，最后一類人的比重最低，也有用最多特權(quán)。同時，他們也是決定大數(shù)據(jù)使用規(guī)則的人。也許在學(xué)術(shù)界，對這種不平等的批判可能會被很快放棄，不過，我們必須保持考察和質(zhì)疑。

獲取參考文獻