- +1
大數(shù)據(jù)和數(shù)據(jù)科學(xué)為政治學(xué)帶來(lái)了什么?
大數(shù)據(jù)和數(shù)據(jù)科學(xué)為政治學(xué)帶來(lái)了什么?摘要:
大數(shù)據(jù)和數(shù)據(jù)科學(xué)正在改變世界,催生社會(huì)科學(xué)家新的關(guān)注點(diǎn),如互聯(lián)網(wǎng)對(duì)公民和媒體的影響、智慧城市的影響、網(wǎng)絡(luò)戰(zhàn)爭(zhēng)和網(wǎng)絡(luò)恐怖主義的可能性、精準(zhǔn)醫(yī)療的影響以及人工智能和自動(dòng)化的后果。伴隨著社會(huì)的這些變化,強(qiáng)大的新數(shù)據(jù)科學(xué)(data science)方法支持使用行政、互聯(lián)網(wǎng)、文本和音頻-視頻數(shù)據(jù)的研究。蓬勃發(fā)展的數(shù)據(jù)和創(chuàng)新方法提供了從數(shù)據(jù)中形成概念、進(jìn)行描述性推理、進(jìn)行因果推理和產(chǎn)生預(yù)測(cè)的新方法,從而有助于回答以前難以解決的社會(huì)問(wèn)題。它們也帶來(lái)了挑戰(zhàn),因?yàn)樯鐣?huì)科學(xué)家必須掌握由復(fù)雜的算法產(chǎn)生的概念和預(yù)測(cè)的意義,權(quán)衡預(yù)測(cè)與因果推斷的相對(duì)價(jià)值,并應(yīng)對(duì)道德挑戰(zhàn),因?yàn)樯鐣?huì)科學(xué)家的方法,如動(dòng)員選民的算法,會(huì)被政策制定者采用。
作者簡(jiǎn)介:
Henry Brady 加州大學(xué)伯克利分校政治學(xué)與公共政策教授
編譯來(lái)源:
Brady, H. E. (2019). The challenge of big data and data science. Annual Review of Political Science, 22, 297-323.

本文作者:Henry Brady
引言
美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院(NIST)在2015年關(guān)于大數(shù)據(jù)的框架報(bào)告中說(shuō):“大數(shù)據(jù)和數(shù)據(jù)科學(xué)正被當(dāng)作流行語(yǔ)使用,是許多概念的組合”?!按髷?shù)據(jù)”(big data)一詞頻繁出現(xiàn)在媒體和學(xué)術(shù)期刊上,過(guò)去五年中,“數(shù)據(jù)科學(xué)”項(xiàng)目在學(xué)術(shù)界如雨后春筍般出現(xiàn)。2012年3月29日,白宮科技政策辦公室宣布了 "大數(shù)據(jù)研究與發(fā)展倡議"(Kalil 2012),該倡議建立在 "從計(jì)算機(jī)架構(gòu)和網(wǎng)絡(luò)技術(shù)到算法、數(shù)據(jù)管理、人工智能、機(jī)器學(xué)習(xí),以及先進(jìn)網(wǎng)絡(luò)基礎(chǔ)設(shè)施的開(kāi)發(fā)和部署 "的倡議之上。從2014年到2017年,"大數(shù)據(jù) "每年在JSTOR中出現(xiàn)約560次,盡管在2000年之前的一個(gè)世紀(jì)中,它每年被提及不到一次,在2001年至2010年期間,平均每年只有約8次。在過(guò)去的五年里,至少有17個(gè)數(shù)據(jù)科學(xué)項(xiàng)目在美國(guó)主要的研究型大學(xué)開(kāi)始實(shí)施(http://msdse.org/environments/),互聯(lián)網(wǎng)上充滿了數(shù)據(jù)科學(xué)書(shū)籍和課程的廣告,經(jīng)常有 "成為一名數(shù)據(jù)科學(xué)家 "的廣告。這些短語(yǔ)當(dāng)然已經(jīng)流行起來(lái),但它們對(duì)不同的人意味著不同的東西,有些人甚至懷疑它們是否確定了非常新的或有用的東西(例如,Boyd & Crawford 2012,Donoho 2017,Smith 2018)。
盡管這些術(shù)語(yǔ)并不完美,而且經(jīng)常圍繞著它們的夸張,但它們指出了對(duì)政治科學(xué)很重要的真實(shí)變化。大數(shù)據(jù)、數(shù)據(jù)科學(xué)以及人工智能、網(wǎng)絡(luò)基礎(chǔ)設(shè)施和機(jī)器學(xué)習(xí)等相關(guān)理念有助于本文討論的以下發(fā)展和趨勢(shì):
1.來(lái)自大數(shù)據(jù)和數(shù)據(jù)科學(xué)的社會(huì)和政治變化。政府、軍隊(duì)、企業(yè)、非營(yíng)利組織和人民所產(chǎn)生和獲得的數(shù)據(jù)的數(shù)量、速度、種類(lèi)和真實(shí)性,與計(jì)算能力的巨大增長(zhǎng)和數(shù)據(jù)科學(xué)方法的改進(jìn)相結(jié)合,從根本上改變社會(huì)。大數(shù)據(jù)和數(shù)據(jù)科學(xué)正在創(chuàng)造新的現(xiàn)象,并提出了關(guān)于控制和操縱人民和人口、隱私的未來(lái)、信息的真實(shí)性、工作的未來(lái)以及其他許多與政治科學(xué)家有關(guān)的話題的基本問(wèn)題。
2.包括政治科學(xué)家在內(nèi)的所有科學(xué)家可以獲得越來(lái)越多的數(shù)據(jù)。所有的科學(xué)都在受到這些變化的影響?;蚪M數(shù)據(jù)的數(shù)量每九個(gè)月翻一番,目前每天產(chǎn)生約10兆字節(jié)的數(shù)據(jù);歐洲核子研究中心的大型強(qiáng)子對(duì)撞機(jī)每天產(chǎn)生140兆字節(jié)的數(shù)據(jù)。萬(wàn)維網(wǎng)每天產(chǎn)生約1,500,000兆字節(jié),這種數(shù)據(jù)流為社會(huì)科學(xué)家提供了研究 "社會(huì)的筋骨"(Weil 2012)和 "政府的神經(jīng)"(Deutsch 1963)的機(jī)會(huì),這在過(guò)去是無(wú)法做到的?,F(xiàn)在,政治科學(xué)家可以觀察和分析(有時(shí)是實(shí)時(shí)的)人們選擇消費(fèi)的信息、政治行為者產(chǎn)生的信息、人們生活的環(huán)境以及人們生活的許多其他方面。
3.政治學(xué)家組織工作的新方式。在這種數(shù)據(jù)的沖擊下,政治學(xué)家可以通過(guò)熟悉新技術(shù)來(lái)重新思考他們?nèi)绾芜M(jìn)行政治學(xué)研究,這些新技術(shù)有利于數(shù)據(jù)的獲取、管理、清理、分析和存檔。
4.政治學(xué)家提出的新問(wèn)題。政治學(xué)家必須自問(wèn)他們?cè)诟拍钚纬伞⒚枋?、因果推理、預(yù)測(cè)和預(yù)測(cè)未來(lái)方面要完成什么。在這一過(guò)程中,將發(fā)展出關(guān)于政治行為的新方法和新見(jiàn)解,并為政治機(jī)構(gòu)提出新的設(shè)計(jì)。
5.處理有關(guān)政治科學(xué)研究的倫理問(wèn)題。最后,政治科學(xué)家必須思考有關(guān)獲取、使用和公布信息的復(fù)雜倫理問(wèn)題,以及可能濫用其模型和結(jié)果的問(wèn)題。
在考慮這五個(gè)變化及其對(duì)政治科學(xué)的影響之前,我先介紹一下數(shù)據(jù)和計(jì)算能力的指數(shù)級(jí)增長(zhǎng),這導(dǎo)致了所謂的大數(shù)據(jù)和數(shù)據(jù)科學(xué)的突出地位。
大數(shù)據(jù)的數(shù)量、密度和種類(lèi)不斷增加
社會(huì)科學(xué)家必須面對(duì)當(dāng)前信息交流中的巨大變化,這些變化與19世紀(jì)交通的驚人變化相類(lèi)似。1816年,使用馬匹驅(qū)動(dòng)的驛車(chē)、騾子驅(qū)動(dòng)的運(yùn)河船或帆船,費(fèi)城和魁北克之間的旅行需要四天以上。到了1860年,隨著蒸汽驅(qū)動(dòng)的火車(chē)和汽船的出現(xiàn),旅行的時(shí)間和費(fèi)用下降了三分之二以上,同樣的旅行只需要一天多一點(diǎn)。這些變化創(chuàng)造了新的貿(mào)易網(wǎng)絡(luò)、新的移民機(jī)會(huì)、帶有通勤郊區(qū)的新型城市,以及對(duì)世界的新理解,對(duì)政治、經(jīng)濟(jì)和社會(huì)產(chǎn)生了巨大影響。
信息技術(shù)每隔20年就會(huì)發(fā)生一次變化,這在19世紀(jì)末、20世紀(jì)和21世紀(jì)初的歷史上是很常見(jiàn)的:電話(1870-1890年代)、留聲機(jī)(1870-1890年代)、電影(1890-1920年代)、廣播(1900-1920年代)、電視(1940-1950年代)、電腦主機(jī)(1940-1950年代)、個(gè)人電腦(1970-1980年代)、互聯(lián)網(wǎng)和萬(wàn)維網(wǎng)(1980-2000年代)、手機(jī)(1980-2000年代)和智能電話(2000年代至今)。最根本的創(chuàng)新來(lái)自于從模擬設(shè)備到數(shù)字設(shè)備的轉(zhuǎn)變,從20世紀(jì)50年代開(kāi)始,在20世紀(jì)90年代及其后迅速發(fā)展。這些變化帶來(lái)了:(a)廣泛的數(shù)字?jǐn)?shù)據(jù)化,其中無(wú)數(shù)的事件現(xiàn)在被數(shù)字記錄下來(lái);(b)廣泛的連接性,其中事件和人被識(shí)別,以便他們可以相互連接;(c)普遍的網(wǎng)絡(luò)化,這樣人們被嵌入到一個(gè)互動(dòng)用戶的社區(qū)中,成為更大網(wǎng)絡(luò)的節(jié)點(diǎn);以及(d)無(wú)處不在的計(jì)算機(jī)編寫(xiě)(computer authoring),其中計(jì)算機(jī)創(chuàng)造新的信息,成為社會(huì)系統(tǒng)和文化的一部分。政治學(xué)家引領(lǐng)了研究這些變化的方向。拉斯韋爾(Harold Lasswell)和多伊奇(Karl Deutsch)是研究媒體傳播及其對(duì)社會(huì)影響的早期學(xué)者。1983年,麻省理工學(xué)院的政治學(xué)家Ithiel de sola Pool研究了1960年至1977年美國(guó)大眾媒體(如廣播、電視、唱片、電影、報(bào)紙、書(shū)籍)和點(diǎn)對(duì)點(diǎn)媒體(電話、一等郵件、電報(bào)、傳真和數(shù)據(jù)通信)中的詞匯生產(chǎn),發(fā)現(xiàn)這些媒體的字?jǐn)?shù)每8年翻一番,每年增長(zhǎng)約9%。他還發(fā)現(xiàn),"印刷媒體每個(gè)字的成本越來(lái)越高,而電子媒體卻越來(lái)越便宜。" 此外,"盡管現(xiàn)代社會(huì)最大的文字流動(dòng)是通過(guò)大眾媒體,但現(xiàn)在增長(zhǎng)速度最快的是向個(gè)人提供信息的媒體,也就是點(diǎn)對(duì)點(diǎn)媒體"。最后,"從這些媒體中實(shí)際關(guān)注的文字每年僅增長(zhǎng)2.9%",因此,"所生產(chǎn)的每項(xiàng)信息都面臨著一個(gè)競(jìng)爭(zhēng)更激烈的市場(chǎng)和平均較小的受眾"(Pool 1983, p. 609)。Pool預(yù)言了我們對(duì)現(xiàn)代傳播境況的大部分了解。它們發(fā)展迅速,越來(lái)越電子化和點(diǎn)對(duì)點(diǎn),人們經(jīng)歷著信息過(guò)載和信息流的碎片化。也許最有先見(jiàn)之明的是,Pool還說(shuō):"計(jì)算機(jī)網(wǎng)絡(luò)首次將點(diǎn)對(duì)點(diǎn)的媒介--數(shù)據(jù)通信的成本降低到大眾媒介的成本范圍"。
這些研究確定了四個(gè)值得注意的趨勢(shì),上面簡(jiǎn)要地提到了這些趨勢(shì),它們產(chǎn)生了大數(shù)據(jù)革命:廣泛的數(shù)字?jǐn)?shù)據(jù)化、廣泛的連接、網(wǎng)絡(luò)化和計(jì)算機(jī)編寫(xiě)。首先,關(guān)于社會(huì)事件的數(shù)據(jù)如海嘯般涌現(xiàn),數(shù)字通信正在超越模擬通信。這種廣泛的數(shù)字?jǐn)?shù)據(jù)化(Cukier & Mayer-Schoenberger 2013, p.29)以一種可以輕易被計(jì)算機(jī)存儲(chǔ)和處理的格式創(chuàng)造數(shù)據(jù)。其次,由于點(diǎn)對(duì)點(diǎn)的傳播原則上比廣播更容易被追蹤,所以連接性很普遍。例如,廣播公司傳統(tǒng)上需要精心設(shè)計(jì)的調(diào)查操作(如尼爾森的媒體使用日記)來(lái)跟蹤他們的觀眾,而Netflix有關(guān)于其電影下載的即時(shí)數(shù)據(jù)。更為普遍的是,我們現(xiàn)在可以記錄和連接關(guān)于個(gè)人發(fā)帖、購(gòu)買(mǎi),甚至是隨意瀏覽的數(shù)據(jù)。數(shù)據(jù)化和連接性意味著曾經(jīng)短暫的事件現(xiàn)在可以被識(shí)別和研究。信息環(huán)境變化的第三個(gè)特點(diǎn)是網(wǎng)絡(luò)化,這對(duì)社會(huì)科學(xué)家特別重要。曾經(jīng)的傳播被歸類(lèi)為人與人之間的傳播(如談話、信件或電話)或從一個(gè)來(lái)源到許多人的大眾傳播(如書(shū)籍、報(bào)紙、電影、廣播或電視),而現(xiàn)代傳播涉及中介的社會(huì)網(wǎng)絡(luò),結(jié)合了兩種模式的特征(Neumann 2016, Schroeder 2018)。推特(Twitter)涉及到使用定義自我中介的關(guān)注領(lǐng)域的標(biāo)簽,向許多追隨者發(fā)送的個(gè)人通信。臉書(shū)(Facebook)涉及擁有定制檔案的個(gè)人,他們擁有 "朋友 "網(wǎng)絡(luò),并與分享信息的共同利益的用戶群有關(guān)聯(lián)。在所有這些媒體中,關(guān)于人們的特征和他們的搜索行為的知識(shí)被用來(lái)建議,有時(shí)甚至強(qiáng)加特定的行動(dòng)或關(guān)系。這些新的溝通模式的影響還不清楚,但它們可能在政治、市場(chǎng)和文化這三個(gè)重要領(lǐng)域的運(yùn)作方式有所不同(Schroeder 2018)。它們也可能產(chǎn)生重要影響,比如通過(guò)建立對(duì)不同意見(jiàn)封閉的網(wǎng)絡(luò),增加政治極化的機(jī)會(huì)(Neumann 2016)。最后,我們現(xiàn)在生活在一個(gè)計(jì)算機(jī)可以編寫(xiě)、出版和提供新形式信息的時(shí)代。社會(huì)科學(xué)的另一項(xiàng)工作是改進(jìn)和理解這些過(guò)程。
政治學(xué)家工作的新方法
新課程:政治學(xué)教授必須開(kāi)發(fā)新課程,并熟悉數(shù)據(jù)科學(xué)家開(kāi)發(fā)的新技術(shù)。新課程應(yīng)該朝兩個(gè)方向發(fā)展。一門(mén)課程應(yīng)處理大數(shù)據(jù)的社會(huì)挑戰(zhàn)以及它們對(duì)政治的意義。Mergel(2016)為公共事務(wù)學(xué)院開(kāi)發(fā)了一門(mén)課程,其中包含一些相關(guān)的內(nèi)容,包括政治、政府、公共衛(wèi)生和智能城市中的大數(shù)據(jù)部分,但它沒(méi)有關(guān)于媒體的部分,也沒(méi)有直接關(guān)注大數(shù)據(jù)帶來(lái)的數(shù)據(jù)所有權(quán)和使用、隱私和工作崗位流失等政治問(wèn)題。第二門(mén)課程必須教給學(xué)生數(shù)據(jù)科學(xué)方法。對(duì)主要大學(xué)政治學(xué)系教授的方法課程的檢查表明,這一點(diǎn)正在順利進(jìn)行。這些課程包括用R或Python編程,強(qiáng)調(diào)理解統(tǒng)計(jì)學(xué)的重采樣方法,對(duì)上述數(shù)據(jù)源的概述,以及對(duì)進(jìn)行預(yù)測(cè)的方法和推斷因果關(guān)系的方法的仔細(xì)討論。此外,至少有一本輯錄(Alvarez 2016)總結(jié)了相關(guān)主題的良好選擇。這些課程都沒(méi)有涉及更深層次的理論問(wèn)題,比如我們的認(rèn)識(shí)論和本體論預(yù)設(shè)如何受到新方法的影響,社會(huì)中新的連接形式,以及人工智能的崛起。人們應(yīng)該對(duì)這種宏大的可能性持適當(dāng)?shù)膽岩蓱B(tài)度,但Rogers(2013)、Mayer-Sch?nberger & Cukier(2014)、Mosco(2014)、Boullier(2015)和Salganik(2017)對(duì)當(dāng)我們"讓世界自己意識(shí)和自我描述"(make the world self-aware and self-describing, Evans 2018, p. 141)時(shí)將會(huì)發(fā)生什么提供了一些思考。
新的研究管理方式:少數(shù)從事谷歌、Facebook或非常大的數(shù)據(jù)集的政治科學(xué)家可能要學(xué)習(xí)大數(shù)據(jù)架構(gòu)和處理大數(shù)據(jù)集的新的分散方法,如Hadoop、Hive、NoSQL和Spark,但對(duì)大多數(shù)人來(lái)說(shuō),這將是一種浪費(fèi)。相反,政治學(xué)家可能會(huì)更好地關(guān)注數(shù)據(jù)清理、數(shù)據(jù)管理、可重復(fù)科學(xué)、數(shù)據(jù)的生命周期管理和數(shù)據(jù)可視化的新軟件。在此,我簡(jiǎn)要地討論一下數(shù)據(jù)清洗和可重復(fù)性科學(xué)。一條推特(@BigDataBorat)描述了人們普遍認(rèn)為的數(shù)據(jù)清理占用了研究中的大部分時(shí)間,他說(shuō):"在數(shù)據(jù)科學(xué)中,80%的時(shí)間用于準(zhǔn)備數(shù)據(jù),20%的時(shí)間用于抱怨需要準(zhǔn)備數(shù)據(jù)。" 當(dāng)然,數(shù)據(jù)準(zhǔn)備是繁瑣而耗時(shí)的(Kandel等人,2012)。DataWrangler(Kandel等人,2011)在一個(gè)像電子表格一樣的交互式界面中顯示數(shù)據(jù),并允許研究者根據(jù)程序?qū)λ璧囊话戕D(zhuǎn)換的推斷,對(duì)數(shù)據(jù)的某一行進(jìn)行修改,并在所有其他行的數(shù)據(jù)中重現(xiàn)。隨著用戶與系統(tǒng)的互動(dòng),系統(tǒng)會(huì)改進(jìn)其推斷,甚至提出建議,從而幫助研究者進(jìn)行改進(jìn)。該系統(tǒng)會(huì)跟蹤對(duì)數(shù)據(jù)所做的工作,以便研究人員能夠確保它是成功的。它的免費(fèi)版本是Trifacta Wrangler。另一種清理數(shù)據(jù)的方法是Tidyverse,它是一個(gè)免費(fèi)的R程序集,可以用來(lái)創(chuàng)建一個(gè)整潔的數(shù)據(jù)集(Wickham 2014)??蓮?fù)制的科學(xué)旨在使其他的研究者有可能 "重新創(chuàng)建項(xiàng)目的最終報(bào)告結(jié)果,包括關(guān)鍵的定量發(fā)現(xiàn)、表格和數(shù)字,只需給出一組文件和書(shū)面說(shuō)明"(Kitzes等人,2017,第13頁(yè))。因?yàn)檫@些工具使我們更容易獲得和重現(xiàn)研究成果,因?yàn)槠诳絹?lái)越多地要求可重復(fù)性,因?yàn)檎恢痹谂σ笫苜Y助者這樣做,所以學(xué)習(xí)這些方法是非常值得的。
政治學(xué)家提出的新問(wèn)題
1. 數(shù)據(jù)科學(xué)從何而來(lái)?
數(shù)據(jù)科學(xué)的方法主要來(lái)自于計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)、圖書(shū)館或信息科學(xué),有些則源于生物學(xué)家為模擬人腦中神經(jīng)元之間的聯(lián)系所做的努力,以及認(rèn)知科學(xué)家(如多才多藝的政治學(xué)家赫伯特-西蒙)為發(fā)展人工智能所作的努力。這些不同流派的研究混合產(chǎn)生了混亂,因?yàn)轭?lèi)似的方法(如神經(jīng)網(wǎng)和邏輯回歸)在這些學(xué)科領(lǐng)域被稱為不同的名字,而使用人工智能或神經(jīng)網(wǎng)等名字會(huì)導(dǎo)致人們誤以為這些方法實(shí)際上是模仿人腦的工作方式。事實(shí)上,大多數(shù)方法可以直接翻譯成統(tǒng)計(jì)學(xué)語(yǔ)言(Sarle 1994, Warner & Misra 1996),與人類(lèi)智能的聯(lián)系更多的是比喻。這種混亂也有一部分來(lái)自于這樣一個(gè)事實(shí),即不同學(xué)科背景專(zhuān)家的關(guān)注點(diǎn)不同:直到最近,計(jì)算機(jī)科學(xué)家還在試圖解決模式識(shí)別問(wèn)題,并以最少的錯(cuò)誤推進(jìn)預(yù)測(cè)性機(jī)器學(xué)習(xí),而對(duì)統(tǒng)計(jì)模型沒(méi)有太多的了解和關(guān)注,而統(tǒng)計(jì)學(xué)家(尤其是計(jì)量經(jīng)濟(jì)學(xué)家和政治方法學(xué)家)則專(zhuān)注于模型的無(wú)偏或一致的估計(jì)者和因果影響的假設(shè)檢驗(yàn),對(duì)預(yù)測(cè)或?qū)W習(xí)沒(méi)有什么關(guān)注。信息科學(xué)家們也試圖找到快速有效的方法來(lái)索引和訪問(wèn)文件和知識(shí),強(qiáng)調(diào)預(yù)測(cè),而很少關(guān)注統(tǒng)計(jì)方法或模型。
由于強(qiáng)調(diào)模式識(shí)別,計(jì)算機(jī)科學(xué)家通常說(shuō)的是根據(jù)案例的特征將其歸類(lèi)(例如,根據(jù)體重、年齡、血清胰島素預(yù)測(cè)某人是否可以歸類(lèi)為糖尿病患者),而統(tǒng)計(jì)學(xué)家說(shuō)的是根據(jù)自變量或預(yù)測(cè)因素預(yù)測(cè)因變量的數(shù)值,盡管他們經(jīng)常處理相同的問(wèn)題。計(jì)算機(jī)科學(xué)家談?wù)摰氖羌せ詈瘮?shù)、訓(xùn)練集和學(xué)習(xí),而統(tǒng)計(jì)學(xué)家談?wù)摰氖呛瘮?shù)形式、樣本和估計(jì)。此外,計(jì)算機(jī)科學(xué)家談?wù)摰氖怯斜O(jiān)督和無(wú)監(jiān)督的學(xué)習(xí)問(wèn)題。前者指的是有相關(guān)類(lèi)別信息的問(wèn)題(例如,已經(jīng)分類(lèi)為獨(dú)立物種的標(biāo)本),后者指的是沒(méi)有這種信息的問(wèn)題。監(jiān)督學(xué)習(xí)使用有因變量的方法,如判別分析或邏輯回歸,而無(wú)監(jiān)督學(xué)習(xí)使用聚類(lèi)、因子分析或多維縮放。一旦數(shù)據(jù)科學(xué)領(lǐng)域的學(xué)者認(rèn)識(shí)到這些術(shù)語(yǔ)的差異,關(guān)于模式識(shí)別(Ripley 1995)、人工智能(Russell & Norvig 2009)、機(jī)器學(xué)習(xí)(Bishop 2011)和統(tǒng)計(jì)學(xué)習(xí)(Hastie等人2016)的書(shū)籍就顯得不那么玄乎,更容易接近。
數(shù)據(jù)科學(xué)變得如此流行的一個(gè)原因是,機(jī)器學(xué)習(xí)的一個(gè)變種,即深度學(xué)習(xí),已經(jīng)在困難的模式識(shí)別任務(wù)中取得成功,如語(yǔ)音和圖像識(shí)別、自然語(yǔ)言處理和生物信息學(xué)(LeCun等人,2015)。深度學(xué)習(xí)是典型前饋神經(jīng)網(wǎng)絡(luò)的一個(gè)變種,它涉及到多層分類(lèi)器,使用堆疊的邏輯或類(lèi)似的回歸(Sarle 1994, Schmidhuber 2015),其中輸入是要分類(lèi)的項(xiàng)目的特征。例如,對(duì)于被分類(lèi)為狗或貓的動(dòng)物,其特征可能是大或不大,是否發(fā)出狗叫,是否發(fā)出貓叫,溫順或不溫順,白色或非白色,以及有無(wú)尾巴。這些特征如果存在就用1來(lái)編碼,如果不存在就用-1來(lái)編碼。其中一些特征對(duì)于區(qū)分狗和貓比其他特征更有用。對(duì)于我們有數(shù)據(jù)的每只動(dòng)物,我們計(jì)算了這些L特征的M個(gè)加權(quán)線性組合,其中的權(quán)重反映了這些特征的診斷價(jià)值。在這些組合中的每一個(gè)被一個(gè)sigmoid激活函數(shù)(如logistic)轉(zhuǎn)換后,它構(gòu)成了一個(gè)隱藏層變量,也被稱為神經(jīng)元。第一個(gè)隱藏層包含了M個(gè)這樣的隱藏層變量,采用輸入變量的不同加權(quán)線性組合。然后,這個(gè)第一隱藏層中的這些隱藏層變量的結(jié)果被組合成另一個(gè)加權(quán)線性組合,并根據(jù)sigmoid函數(shù)進(jìn)行轉(zhuǎn)換,以決定動(dòng)物是狗還是貓(例如,接近1的值表示是狗,接近0的值表示是貓),或者創(chuàng)建一個(gè)有N個(gè)變量的第二隱藏層,對(duì)第一隱藏層中的M個(gè)隱藏層變量進(jìn)行加權(quán)線性組合。這個(gè)過(guò)程可以用越來(lái)越多的隱藏層繼續(xù)下去,直到達(dá)到最終的sigmoid函數(shù),預(yù)測(cè)動(dòng)物是狗還是貓。該模型的評(píng)價(jià)標(biāo)準(zhǔn)是它是否在大多數(shù)時(shí)候都能得到正確的答案。
當(dāng)該模型具有正確的權(quán)重,從而正確地將狗和貓分開(kāi)時(shí),它就是成功的。例如,一個(gè)大的、溫順的、會(huì)狗叫的動(dòng)物幾乎肯定不是貓,所以這些特征的權(quán)重應(yīng)該是較大的、正的,以便在sigmoid函數(shù)中產(chǎn)生一個(gè)接近1的值(表明是狗),但有尾巴或白色的權(quán)重應(yīng)該接近0,因?yàn)樗鼈儾皇呛苡性\斷價(jià)值的特征。為了使模型發(fā)揮作用,必須有足夠的隱藏層和隱藏變量,以提供適合所有可能的狗和貓的特征排列的靈活性,而且必須有高效的學(xué)習(xí)算法來(lái)確定正確的權(quán)重,以便對(duì)困難的情況進(jìn)行正確分類(lèi)。淺層機(jī)器學(xué)習(xí)模型只有幾個(gè)隱藏層,那些沒(méi)有隱藏層的模型被稱為感知器。深層機(jī)器學(xué)習(xí)模型有許多隱藏層。模型的整體復(fù)雜性取決于隱藏層的數(shù)量和隱藏變量或神經(jīng)元的數(shù)量。
同時(shí),不管是什么原因,深度學(xué)習(xí)方法似乎對(duì)模式識(shí)別問(wèn)題有明顯的效果,但鑒于其神秘的復(fù)雜性,它們的解釋往往是困難的。它們更擅長(zhǎng)于產(chǎn)生預(yù)測(cè),而不是解釋性的見(jiàn)解。
2. 數(shù)據(jù)科學(xué)可以解決哪些類(lèi)型的問(wèn)題?
關(guān)于大數(shù)據(jù)和數(shù)據(jù)科學(xué)有很多夸張的說(shuō)法,人們可能認(rèn)為我們已經(jīng)解決或避免了實(shí)證研究的四個(gè)最基本的問(wèn)題:(a)形成概念并提供對(duì)它們的測(cè)量;(b)提供可靠的描述性推論;(c)從過(guò)去的經(jīng)驗(yàn)中進(jìn)行因果推論;以及(d)對(duì)未來(lái)進(jìn)行預(yù)測(cè)。事實(shí)上,數(shù)據(jù)科學(xué)已經(jīng)為解決其中的每一個(gè)問(wèn)題做出了一些貢獻(xiàn),特別是形成概念和對(duì)未來(lái)進(jìn)行預(yù)測(cè),但它們?nèi)匀皇腔竞屠щy的問(wèn)題(Smith 2018)。讓我們依次考慮每個(gè)問(wèn)題。人工智能研究人員已經(jīng)使用了無(wú)監(jiān)督的機(jī)器學(xué)習(xí)方法,以便計(jì)算機(jī)學(xué)習(xí)概念,這與政治學(xué)家在歷史上使用因子或聚類(lèi)分析來(lái)識(shí)別概念的方式基本相同。
對(duì)概念形成最豐富的研究之一(Thagard 1992)使用人工智能模型來(lái)理解科學(xué)中的 "概念革命"。機(jī)器學(xué)習(xí)擅長(zhǎng)尋找模式,所以它對(duì)概念的形成很有幫助,但歸納或演繹地、現(xiàn)象學(xué)或本體論地、實(shí)用或理論地定義概念之間的相互作用等基本問(wèn)題仍然存在。我們確實(shí)有一些更好的工具來(lái)處理這些問(wèn)題,比如基于模型的聚類(lèi)技術(shù)(例如Ahlquist & Breunig 2012),可以對(duì)類(lèi)型學(xué)中的不確定性進(jìn)行評(píng)估,但是像原子、物種、民主或主題這樣的概念仍然是非常深刻的想法,這就是為什么科學(xué)中的概念革命(如量子理論、板塊構(gòu)造學(xué)、進(jìn)化論、相對(duì)論或主題分析)是如此重要的。它們反映了我們看待世界的方式的格式塔變化。這也是為什么這些方法的使用者必須謹(jǐn)慎行事的原因。
數(shù)據(jù)科學(xué)方法可以幫助我們探索和描述數(shù)據(jù),在其中找到有趣的模式,并有效地展示它們。大數(shù)據(jù)的使用有助于我們進(jìn)行描述性推論,因?yàn)樗?jīng)常提供一份完整的逮捕、登記選民、食品券領(lǐng)取者等的名單,但定義適當(dāng)?shù)目傮w的問(wèn)題仍然存在,因?yàn)槲覀兛赡芊謩e關(guān)心犯罪、潛在選民或有資格領(lǐng)取食品券的人。此外,互聯(lián)網(wǎng)樣本尤其有問(wèn)題,因?yàn)楹茈y界定它們代表什么總體,以及它們是如何從這個(gè)總體中取樣的。擁有大量的數(shù)據(jù)并不能確保它們以統(tǒng)計(jì)學(xué)上可靠的方式(例如,隨機(jī)抽樣)代表一個(gè)有趣的、可定義的總體。也許最有趣的,也是最令人擔(dān)憂的是,一些數(shù)據(jù)科學(xué)的倡導(dǎo)者忽視甚至拒絕因果推斷的需要,而緊緊抓住統(tǒng)計(jì)預(yù)測(cè)的狹窄概念。
這種傾向有三個(gè)來(lái)源。首先是認(rèn)為有大量的數(shù)據(jù)(許多案例或許多變量)就能自動(dòng)解決推斷問(wèn)題,當(dāng)然,這是錯(cuò)誤的。推斷需要我們以正確的方式選擇案例(例如,隨機(jī)抽樣),并且可用的變量包括實(shí)際的原因,并允許我們控制正確的東西,以避免虛假的相關(guān)性(見(jiàn)Lazer等人,2014,Titiunik 2015)。第二個(gè)來(lái)源是機(jī)器學(xué)習(xí),也許特別是深度學(xué)習(xí),讓其他的可能性解釋變得不存在。這個(gè)想法的基礎(chǔ)是關(guān)于深度學(xué)習(xí)是否真的提供了洞察力或者只是擬合曲線的問(wèn)題。Cukier和Mayer-Schoenberger(2013)說(shuō):"建立在因果關(guān)系重要性上的世界觀正受到大量相關(guān)關(guān)系的挑戰(zhàn)","我們可以從大量的信息中學(xué)習(xí)到我們?cè)谥皇褂幂^小數(shù)量時(shí)無(wú)法理解的東西"。第三種更有說(shuō)服力的觀念是,做出可靠的因果推斷是非常困難的,我們應(yīng)該把重點(diǎn)放在預(yù)測(cè)上。這個(gè)想法在40年前導(dǎo)致了宏觀經(jīng)濟(jì)學(xué)中的向量自回歸方法(Sims 1980, Christiano 2012),并且它是許多機(jī)器學(xué)習(xí)教科書(shū)的核心。Breiman(2001)為這種方法提出了一個(gè)優(yōu)雅的早期論點(diǎn);Berk(2008)提供了一個(gè)周到的長(zhǎng)篇處理;Shmueli(2010)討論了權(quán)衡問(wèn)題。
當(dāng)然也有一些實(shí)際和技術(shù)問(wèn)題,對(duì)于這些問(wèn)題,使用機(jī)器或統(tǒng)計(jì)學(xué)習(xí)實(shí)現(xiàn)良好的預(yù)測(cè)是一個(gè)令人滿意的,也許是最佳的解決方案。Kleinberg等人(2015)舉了一個(gè)例子,涉及到髖關(guān)節(jié)或膝關(guān)節(jié)手術(shù)的決策,只有當(dāng)病人活得足夠長(zhǎng),能夠度過(guò)通常漫長(zhǎng)的康復(fù)期,手術(shù)才有意義。Yarkoni和Westfall(2017)提供了來(lái)自心理學(xué)的例子,例如從Facebook頁(yè)面的點(diǎn)贊推斷 "五大 "人格特征,以及從fMRI數(shù)據(jù)推斷人們對(duì)臉部記憶的準(zhǔn)確性。Nickerson和Rogers(2014)展示了關(guān)于競(jìng)選捐款或投票率的預(yù)測(cè)分?jǐn)?shù)如何被用來(lái)提高競(jìng)選的效率。在研究問(wèn)題中,好的預(yù)測(cè)方法可以保證匹配方法中可接受的協(xié)變量平衡,根據(jù)某些特征對(duì)文件進(jìn)行高質(zhì)量的分類(lèi),對(duì)缺失值進(jìn)行準(zhǔn)確的估算,對(duì)回歸不連續(xù)設(shè)計(jì)中的曲線進(jìn)行良好的擬合,為工具變量估計(jì)提供強(qiáng)有力的工具,等等。
同時(shí),政治學(xué)家們需要更努力地思考如何將來(lái)自強(qiáng)有力的研究設(shè)計(jì)(如實(shí)驗(yàn)或準(zhǔn)實(shí)驗(yàn))的因果機(jī)制信息與復(fù)雜的預(yù)測(cè)方法和正式建模相結(jié)合,以提高我們對(duì)未來(lái)進(jìn)行預(yù)測(cè)的能力。這些預(yù)測(cè)應(yīng)該考慮到行為反應(yīng)、因果影響的異質(zhì)性,以及當(dāng)政策從小型實(shí)驗(yàn)中擴(kuò)大規(guī)模時(shí)出現(xiàn)的一般平衡效應(yīng)。Athey(2018)討論了一些方法,也許她最重要的主張是,數(shù)據(jù)科學(xué)方法使我們有可能根據(jù)數(shù)據(jù)開(kāi)發(fā)出更好的系統(tǒng)化模型選擇方法,而不是通常涉及多次估計(jì)和重復(fù)解析模型的規(guī)模搜索,直到一個(gè)事實(shí)上“虛假”的模型被提出。隨著樣本量和可用變量數(shù)量的增加,數(shù)據(jù)科學(xué)家和統(tǒng)計(jì)學(xué)家也在考慮權(quán)衡模型的復(fù)雜性和解析性(Powell 2017)?,F(xiàn)在,數(shù)據(jù)科學(xué)方法使得使用交叉驗(yàn)證和其他方法進(jìn)行數(shù)據(jù)驅(qū)動(dòng)的模型選擇成為可能,對(duì)許多模型進(jìn)行估計(jì)和平均,并考慮到模型的不確定性和數(shù)據(jù)的不確定性。
結(jié)論
大數(shù)據(jù)和數(shù)據(jù)科學(xué)提供了新的數(shù)據(jù)來(lái)源和研究方法。它們也在以催生新問(wèn)題的方式改變著世界。它們擴(kuò)大了可以完成的量化工作的種類(lèi),并通過(guò)對(duì)媒體的影響、城市的運(yùn)作、恐怖主義和網(wǎng)絡(luò)戰(zhàn)爭(zhēng)、投票和政治制度的設(shè)計(jì)以及許多其他領(lǐng)域的工作,以新的方式將政治科學(xué)家?guī)肷鐣?huì)事件。隨著這種情況的發(fā)生,政治學(xué)家肯定會(huì)做更多、更好的研究,但當(dāng)他們發(fā)現(xiàn)自己或自己的工作被用來(lái)創(chuàng)造新的政策或社會(huì)機(jī)制時(shí),他們也必須思考自己作為系統(tǒng)設(shè)計(jì)者的角色的知識(shí)和實(shí)踐價(jià)值。正如工程師、律師以及越來(lái)越多的經(jīng)濟(jì)學(xué)家利用他們的社會(huì)知識(shí)來(lái)設(shè)計(jì)社會(huì)機(jī)構(gòu)一樣,政治學(xué)家現(xiàn)在正在開(kāi)發(fā)重新設(shè)計(jì)政治系統(tǒng)的工具。這一角色在學(xué)術(shù)界將如何被重視?它提出了哪些倫理和知識(shí)問(wèn)題?在我看來(lái),參與制定新的政策和社會(huì)機(jī)制將是向拉斯韋爾(Harold Lasswell 1951;另見(jiàn)Turnbull 2008)所倡導(dǎo)的“政策科學(xué)”的有益回歸,但政治科學(xué)家無(wú)疑會(huì)發(fā)現(xiàn)自己正在承擔(dān)新的角色,這需要在學(xué)界更多的辯論和討論。
編譯|范屹檳
審核|紀(jì)雨佳
終審|Momo
?Political理論志

前沿追蹤/理論方法/專(zhuān)家評(píng)論
ID: ThePoliticalReview
“在看”給我一朵小黃花
原標(biāo)題:《大數(shù)據(jù)和數(shù)據(jù)科學(xué)為政治學(xué)帶來(lái)了什么? | Annual Review of Political Science》
本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司




