日本护士毛茸茸高潮,亚洲精品自偷自拍无码,久久精品国产一区二区三区,日韩人妻无码免费视频一二区

  • +1

美國CDC、JHU在用的疫情數(shù)據(jù)庫,來自這個(gè)武漢姑娘的華人團(tuán)隊(duì)

2020-06-09 18:53
來源:澎湃新聞·澎湃號·湃客
字號

原創(chuàng) 文摘菌 大數(shù)據(jù)文摘

大數(shù)據(jù)文摘出品

作者:劉俊寰

剛剛,根據(jù)CovidNet網(wǎng)站數(shù)據(jù),新冠肺炎導(dǎo)致的美國確診病例累計(jì)突破200萬,全球累計(jì)確診病例數(shù)突破700萬,除了美國,巴西、俄羅斯、西班牙、英國、印度和意大利6個(gè)國家累計(jì)確診數(shù)已經(jīng)超過20萬。

“身為武漢人,雖然我無法在武漢為他們做些什么,但我真的想以某種方式提供幫助?!边@是現(xiàn)居住于美國舊金山的華人郭昱在接受采訪時(shí)說的話,她和團(tuán)隊(duì)想要做的,就是深入疫情數(shù)據(jù),挖掘出有那些溫度的信息,幫助到全世界的人。

數(shù)字無法取代每一個(gè)鮮活的生命,但從這些看似冰冷的數(shù)字中,我們?nèi)匀豢梢缘贸鲆恍┯袦囟鹊男畔?,將這些信息分享給更多的人。

基于“一畝三分地”這個(gè)北美華人論壇的新型冠狀病毒世界疫情動(dòng)態(tài)追蹤平臺CovidNet,就是郭昱和團(tuán)隊(duì)正在著手經(jīng)營的項(xiàng)目,這是一個(gè)實(shí)時(shí)追蹤新冠疫情數(shù)據(jù)的網(wǎng)站,在1月初美國還沒有其他實(shí)時(shí)的疫情追蹤網(wǎng)站時(shí),郭昱就已經(jīng)開始和4位全職數(shù)據(jù)工程師著手打造這個(gè)網(wǎng)站了。

如今各國都建立起了實(shí)時(shí)疫情追蹤網(wǎng)站,其中最知名的或許要屬約翰霍普金斯大學(xué)(JHU)新冠追蹤網(wǎng)站,但其實(shí),該網(wǎng)站的美國數(shù)據(jù)完全引用于CovidNet的數(shù)據(jù)。3月26日,美國疾病控制與預(yù)防中心(CDC)正式采用CovidNet的數(shù)據(jù),這也是美國官方對民間數(shù)據(jù)網(wǎng)站的重要肯定。

CovidNet提供了全方位的交互式數(shù)據(jù)可視化工具,以供公眾參考。它有著比CDC更為細(xì)致的地理分布數(shù)據(jù),交互式地圖連通了各個(gè)省、州和郡、市的病例分布,數(shù)據(jù)表格可供讀者按照不同的統(tǒng)計(jì)量對各個(gè)國家和地區(qū)進(jìn)行篩選和排序。

讀者還可以進(jìn)行跨區(qū)域的疫情橫向比較,比如當(dāng)選中國家后可以用鼠標(biāo)滑過不同地區(qū)查看相應(yīng)地區(qū)的疫情數(shù)據(jù),除此之外,CovidNet還提供了各種動(dòng)態(tài)圖進(jìn)行展示。

在時(shí)間趨勢的呈現(xiàn)上,CovidNet同樣綜合了每天的疫情數(shù)據(jù),讀者對疫情可以有更宏觀的分析和掌握。

網(wǎng)站鏈接:

https://coronavirus.1point3acres.com/zh/world

不僅如此,為了讓更多人從中受益,5月14日,郭昱團(tuán)隊(duì)將CovidNet的建立過程和技術(shù)細(xì)節(jié)以預(yù)印本形式進(jìn)行了分享,并且向數(shù)據(jù)庫與數(shù)據(jù)挖掘領(lǐng)域的相關(guān)會議進(jìn)行了投遞。

預(yù)印本鏈接:

https://arxiv.org/abs/2005.10948?from=timeline&isappinstalled=0

截止到預(yù)印本發(fā)表時(shí)刻,CovidNet已經(jīng)覆蓋了英語、中文、法語、日語、西班牙語5種語言,共覆蓋國家或地區(qū)188個(gè),其中有州或省份級別數(shù)據(jù)的國家有25個(gè),覆蓋州、省份974個(gè),覆蓋北美郡、市3169個(gè),CovidNet的數(shù)據(jù)信息源總數(shù)達(dá)到了2038條,用戶提交的新聞線索報(bào)告數(shù)量達(dá)到16240條。

截止至本文發(fā)表,CovidNet已經(jīng)覆蓋39個(gè)國家的分省/州數(shù)據(jù),網(wǎng)站訪問量更是超過了2.25億。

由于數(shù)據(jù)發(fā)布的及時(shí)準(zhǔn)確,CovidNet已經(jīng)引起了海內(nèi)外不少媒體的興趣,包括《星島日報(bào)》、CGTN、鳳凰衛(wèi)視在內(nèi)的多家媒體都已對郭昱以及CovidNet進(jìn)行了跟蹤報(bào)道。

美國CDC、JHU引用的全球疫情實(shí)時(shí)數(shù)據(jù)庫

4月,美國著名學(xué)術(shù)期刊,根據(jù)Gardner的說法,她和實(shí)驗(yàn)室6名學(xué)生共同撐起了整個(gè)網(wǎng)站的運(yùn)作,她們的數(shù)據(jù)來源除了地方衛(wèi)生局和各地媒體,美國國內(nèi)3149個(gè)郡、市的實(shí)時(shí)疫情數(shù)據(jù)完全來源于CovidNet。

即使Gardner說得比較克制,但從她的介紹中,我們?nèi)匀荒軌蛳胂笠?shí)時(shí)更新的新冠疫情追蹤網(wǎng)站是有多么不易。相比于約翰霍普金斯新冠追蹤網(wǎng)站,郭昱團(tuán)隊(duì)最初只有4位全職工程師,如今CovidNet還擁有了超過50位志愿者。他們共同面對當(dāng)下最具挑戰(zhàn)性的全球性的數(shù)據(jù)追蹤問題,這不僅包括數(shù)據(jù)收集,還要進(jìn)行實(shí)時(shí)的數(shù)據(jù)核實(shí)和深入調(diào)查。

最重要的是,在全世界的監(jiān)督之下,這里的數(shù)據(jù)容不得一點(diǎn)差錯(cuò)。

首先,數(shù)據(jù)收集就是一個(gè)難關(guān)。郭昱表示,在公開數(shù)據(jù)上,CovidNet主要通過以下兩種方式獲取,一個(gè)是國家官方系統(tǒng)提供的開源數(shù)據(jù),另一個(gè)是官方統(tǒng)計(jì)的當(dāng)天最新數(shù)據(jù)。

這其中根據(jù)每個(gè)國家報(bào)道的范式不同,上述兩種方式還需要細(xì)分。

對于第一種情況,有的國家以病例為單位進(jìn)行報(bào)道,比如菲律賓或哥倫比亞,有的國家以行政區(qū)為單位進(jìn)行報(bào)道,比如意大利或西班牙。針對此,郭昱團(tuán)隊(duì)采取的做法是將前者聚合成后者的數(shù)據(jù)范式,這樣不僅能保持?jǐn)?shù)據(jù)一致性,還能為全面準(zhǔn)確地更新疫情數(shù)據(jù)提供良好的數(shù)據(jù)來源。

對于第二種情況,鑒于歷史數(shù)據(jù)大都以各種格式保存在歷史檔案或新聞存檔中,他們對能夠從官方存檔中獲取到所有的歷史數(shù)據(jù)進(jìn)行匯總,并且僅更新當(dāng)日官方報(bào)道的最新數(shù)據(jù)。

除此之外,根據(jù)全球各異的數(shù)據(jù)發(fā)布方式,郭昱團(tuán)隊(duì)設(shè)計(jì)了不同的數(shù)據(jù)處理機(jī)制。

很多時(shí)候,國家/地區(qū)-省/州-郡/縣各級衛(wèi)生機(jī)構(gòu)發(fā)布數(shù)據(jù)的時(shí)間節(jié)點(diǎn)不同步,如果以不同級別的信息源各為參照源,就會導(dǎo)致數(shù)據(jù)總和出現(xiàn)差異,例如,在某一時(shí)刻,各個(gè)郡/市的統(tǒng)計(jì)數(shù)據(jù)之和與省/州總數(shù)并不相等,他們會優(yōu)先選擇參照更基層的數(shù)據(jù)來源,同時(shí)在網(wǎng)站上公開解釋和高一級官方數(shù)據(jù)源不一致的原因。

除了數(shù)據(jù)上的整合之外,各國的診斷標(biāo)準(zhǔn)不同,從時(shí)間上看將出現(xiàn)病例匯報(bào)的渠道和方式的前后差異,比如,疫情初期通常是個(gè)例報(bào)道,每例都會提供詳細(xì)信息,但隨著確診人數(shù)的增加,個(gè)例報(bào)道逐漸演變成確診數(shù)字統(tǒng)計(jì),從空間上看每個(gè)國家處于疫情的不同階段,根據(jù)確診定義的發(fā)展數(shù)據(jù)標(biāo)準(zhǔn)也在同步變化。

這不只表現(xiàn)在不同國家之間,在其他級不同區(qū)域之間同樣存在類似情況,比如某些區(qū)域的數(shù)據(jù)增長過快,或者同一份報(bào)告中的數(shù)據(jù)不一致,在總趨勢中出現(xiàn)了累計(jì)統(tǒng)計(jì)總數(shù)下降等,都是需要考慮的地方。

針對上述種種變化,郭昱表示,為確保質(zhì)量控制和數(shù)據(jù)的準(zhǔn)確,他們結(jié)合自動(dòng)搜集和人工更改、查驗(yàn)的方式,同時(shí)也會按照當(dāng)?shù)匦l(wèi)生機(jī)構(gòu)統(tǒng)計(jì)的方法,隨時(shí)針對數(shù)據(jù)獲取和統(tǒng)計(jì)方式進(jìn)行修正,包括以人工核查的方式過濾掉媒體或者衛(wèi)生部門報(bào)告中的噪聲,在根據(jù)原始信息進(jìn)行更新的基礎(chǔ)上密切關(guān)注后續(xù)發(fā)展,對歷史數(shù)據(jù)進(jìn)行回查等。

這時(shí)候,就需要這支50多人組成的去中心化志愿者團(tuán)隊(duì)登場了。

根據(jù)郭昱介紹,CovidNet的工程師團(tuán)隊(duì)成員都屬于“一畝三分地”的全職工作人員;負(fù)責(zé)數(shù)據(jù)核查的50多位志愿者們則是通過網(wǎng)絡(luò)招募加入,主要是華人群體或北美留學(xué)生,他們中有數(shù)據(jù)科學(xué)家、工程師,也有各專業(yè)學(xué)生、學(xué)者、教授。盡管有著不同的職業(yè)或?qū)I(yè)背景,每個(gè)人都能在團(tuán)隊(duì)統(tǒng)籌下完成數(shù)據(jù)統(tǒng)計(jì)和核實(shí)工作,不少志愿者還對流程的制定和迭代優(yōu)化也做出了不小貢獻(xiàn)。

團(tuán)隊(duì)是在并行異步地更新數(shù)據(jù),為了保證減少時(shí)滯,同時(shí)避免數(shù)據(jù)多重更新等難題,團(tuán)隊(duì)設(shè)計(jì)了相應(yīng)的流程和分級處理,在規(guī)范統(tǒng)籌數(shù)據(jù)更新模式和流程之后,對于不同地區(qū)的數(shù)據(jù)整理和校對,也設(shè)有專人對應(yīng)地進(jìn)行負(fù)責(zé)。

郭昱表示,團(tuán)隊(duì)每兩個(gè)小時(shí)就會查看并檢查是否有最新數(shù)據(jù),如果有,便會把相關(guān)數(shù)據(jù)實(shí)時(shí)更新到數(shù)據(jù)庫中。

“我們秉承從所能獲取的最原始數(shù)據(jù)出發(fā)的原則,每次更新都對歷史數(shù)據(jù)進(jìn)行全面的核查校對,因此需要用戶在使用我們數(shù)據(jù)庫的時(shí)候需要及時(shí)更新全部的數(shù)據(jù)庫而僅非當(dāng)天數(shù)據(jù)。”郭昱說道。

事在人為,CovidNet的北美成長史

以北美為例,我們來看看CovidNet的成長史。

在CovidNet之前,全球范圍內(nèi)除了中國丁香園,絕大多數(shù)主流COVID-19追蹤平臺提供的是國家層級的數(shù)據(jù),比如國際衛(wèi)生組織(WHO)和歐洲疾病預(yù)防控制中心(ECDC)等國際組織,但這些數(shù)據(jù)往往滯后于快速發(fā)展的疫情,難以為身處混亂信息中的各地民眾帶來迫切需要的透明、及時(shí)的信息。

也正是在這個(gè)背景下,3月,北美確診病例數(shù)直線上升,成為世界疫情中心,但想要提供實(shí)時(shí)更新的數(shù)據(jù),除了要保證在全球?qū)蛹壣系母?、可靠和全面外,還面臨著美國公共衛(wèi)生系統(tǒng)的分級匯報(bào)機(jī)制帶來的挑戰(zhàn)。

事在人為。為了彌補(bǔ)官方公共衛(wèi)生渠道在實(shí)時(shí)性和一致性方面的不足,從1月21日開始,CovidNet數(shù)據(jù)團(tuán)隊(duì)展開了對北美確診、死亡、治愈(recover)三項(xiàng)統(tǒng)計(jì)數(shù)據(jù)的追蹤,也逐步引入了一系列查證、核實(shí)方式,綜合應(yīng)對當(dāng)?shù)胤旨墔R報(bào)系統(tǒng)帶來的額外挑戰(zhàn)。

同時(shí),CovidNet團(tuán)隊(duì)也與COVID Tracking Project團(tuán)隊(duì)展開合作,將檢測數(shù)量和病床占有數(shù)等統(tǒng)計(jì)指標(biāo)納入到數(shù)據(jù)展示中,構(gòu)建了對區(qū)域疫情更為完整清晰的刻畫。

比如在疫情爆發(fā)的不同階段,用戶對數(shù)據(jù)的關(guān)注點(diǎn)會有所變化,CovidNet在疫情爆發(fā)的不同階段采用了不同模式的數(shù)據(jù)整合方法,同時(shí)把使用不同模式的時(shí)期劃分成了疫情的三個(gè)階段:

主動(dòng)搜索模式階段:疫情浮現(xiàn)初期和中期,確診數(shù)目較低。在這一模式下,志愿者團(tuán)隊(duì)主動(dòng)搜索相關(guān)媒體新聞和官方報(bào)道,進(jìn)行多來源比對以保證不出現(xiàn)重復(fù)計(jì)算;

用戶匯報(bào)模式階段:疫情擴(kuò)展期,確診數(shù)目增加、地理擴(kuò)散加速。在這一時(shí)期,團(tuán)隊(duì)利用早期建立的用戶群基礎(chǔ),開辟用戶匯報(bào)通道。主動(dòng)搜索仍然發(fā)揮著重要角色,而用戶匯報(bào)通道模式的開辟也在很大程度上保證了CovidNet數(shù)據(jù)平臺的實(shí)時(shí)性;

自動(dòng)收集模式階段:疫情爆發(fā)期后,每日新增確診數(shù)目激增、地理覆蓋廣泛。在這一模式下,工程師團(tuán)隊(duì)建立了一套完整的自動(dòng)化更新系統(tǒng),實(shí)時(shí)追蹤可靠數(shù)據(jù)源的數(shù)據(jù)更新(包括各地官網(wǎng)和可信的主流媒體平臺),并及時(shí)反饋給志愿者團(tuán)隊(duì)。志愿者團(tuán)隊(duì)則主要負(fù)責(zé)進(jìn)一步查證,以確保數(shù)據(jù)歷史的一致性,完成最終數(shù)據(jù)錄入。

針對不同階段,基于數(shù)據(jù)源所提供信息的詳略程度,工程師團(tuán)隊(duì)對后端數(shù)據(jù)的存儲格式也持續(xù)進(jìn)行著相應(yīng)調(diào)整、更新,后端數(shù)據(jù)的儲存格式也會有相應(yīng)的變化:

信息細(xì)化型格式:不同的案例被分別單獨(dú)記錄。每一條記錄中包含以下信息:案例數(shù)目,確診/死亡日期,確診/居住地區(qū),性別,年齡,感染原因,數(shù)據(jù)來源,病例概述等。在疫情初期和中期,此格式作為主要格式被長期使用;

信息密集型格式:數(shù)據(jù)記錄只保留了時(shí)間和地點(diǎn)兩大信息。疫情大規(guī)模爆發(fā)后,各大數(shù)據(jù)源逐漸取消了對詳細(xì)案例信息的報(bào)道,這使得密集型格式成為更加合理和高效的選擇。這一格式從4月底成為CovidNet數(shù)據(jù)庫主要格式,一直沿用至今。

輔助統(tǒng)計(jì)表格:輔助統(tǒng)計(jì)表格不作為直接數(shù)據(jù)的記錄方式,用來存儲區(qū)域性數(shù)據(jù)的衍生統(tǒng)計(jì)信息。具體實(shí)例包括:州、郡數(shù)據(jù)的當(dāng)前案例數(shù)統(tǒng)計(jì)。

除了在數(shù)據(jù)整合和呈現(xiàn)上所做的貢獻(xiàn)外,CovidNet還開辟了美國醫(yī)護(hù)人員防護(hù)物資需求整合及發(fā)布板塊、疫情新聞板塊,希望能給更多收到疫情影響的人提供幫助。

提供真實(shí)數(shù)據(jù),是整個(gè)團(tuán)隊(duì)的初心

作為CovidNet的創(chuàng)建人和一畝三分地的聯(lián)合創(chuàng)始人,郭昱曾獲得哈佛大學(xué)生物統(tǒng)計(jì)學(xué)博士學(xué)位,目前在Uber自動(dòng)駕駛機(jī)器學(xué)習(xí)平臺任高級主管一職。

郭昱介紹道,目前她的主要工作是領(lǐng)導(dǎo)整個(gè)疫情地圖的開發(fā),決定收取怎樣的數(shù)據(jù),如何用不同的信息源進(jìn)行查證,怎樣做到真實(shí)可信,以及自動(dòng)化的實(shí)現(xiàn)等。

“除了吃飯睡覺和上班,我其余時(shí)間每一分鐘都用在這上面了。”郭昱說道。

她在領(lǐng)英中寫道:“由于新冠疫情,我的家庭成員和很多幼年朋友仍居家隔離中,2月我的叔叔感染病毒過世。雖然我無法在武漢為他們做些什么,但我真的想以某種方式提供幫助?!?/p>

如今美國疫情依舊肆虐,這對CovidNet來說,工作量也逐漸加強(qiáng),這就需要24小時(shí)有人維護(hù)和核實(shí)數(shù)據(jù),即使有50多位志愿者的加入和分擔(dān),這依然是不小的工作量。

說到志愿者團(tuán)隊(duì),郭昱介紹道,他們來自不同的地方,參加項(xiàng)目的原因各不相同。盡管如此,大家有一個(gè)共同的目標(biāo),就是希望通過疫情網(wǎng)站給用戶提供最接近真實(shí)的疫情發(fā)展信息。無論是好是壞,真實(shí)數(shù)據(jù)的傳達(dá)不僅可以幫助大家減少恐慌,也可以能幫助大家在疫情期間合理做決策。

這些人平時(shí)散落在各個(gè)角落,分布在街頭巷尾,就像每天上班途中地鐵上看到的每個(gè)普通人一樣,各自為生活努力著。他們和你我一樣,都會受到疫情影響,也會為疫情感到焦慮。

如今,CovidNet的網(wǎng)站訪問量已經(jīng)超過了2.25億,就產(chǎn)品角度而言這可以說是一次巨大的成功,郭昱也表示,“不可避免地會進(jìn)行產(chǎn)品層面上的關(guān)心,但更關(guān)心的是疫情得到控制。實(shí)際上,訪問量下降反而是一件好事,這表示疫情過去了”。

“我們做這件事得到了很多人的認(rèn)可,我們也覺得做的事情是很有價(jià)值的,希望能把更多信息的透明度帶給大家,在這個(gè)基礎(chǔ)上,群眾有什么其他的需求是我們能幫助滿足的,這些我們可以再想一想。如果你做的這個(gè)事情對于大多數(shù)人是有用的,那么會有很多人愿意參與進(jìn)來幫助你,也可以做出更大的事情來,對更多的人有更正面的影響?!惫耪f道。

原標(biāo)題:《剛剛,美國確診超200萬!美國CDC、JHU在用的疫情數(shù)據(jù)庫,來自這個(gè)武漢姑娘的華人團(tuán)隊(duì)》

閱讀原文

    本文為澎湃號作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2025 上海東方報(bào)業(yè)有限公司

            亚洲AV成人无码久久精品在现| a级久久久91香蕉成人| 婷婷六月天一区| 四虎国产精品永久在线| 亚洲人人夜夜澡人人爽| 亚洲国产精品嫩草影院| 97久久精品無碼| 久久精品又黑又粗| 成人乱码一区二区三区av0| 久久久久久国产精品国产 | 天天躁夜夜躁狠狠躁2021| aV色欲无码人妻中文字募| 精品亚洲成在人线av无码| 蜜月a∨精品一区二区三区| 国产黑人群交| 亚洲色av天天天天天天| 一本大道在线无码一区| 亚洲人妻成年人| 中文字幕黑人av| 国产麻豆视频一区二区| 综合在线 亚洲 成人 欧美| AV无码在线网站| 熟妇人妻中文字幕无码老熟妇| 国产偷国产偷亚洲高清人| 精品久久久久中文字幕人妻蜜臀| 亚洲一区二区三区无码专区 | A毛片毛片看免费| 四虎永久在线精品免费网址 | 久久精品国产字幕高潮| 国产精品久久久久久久久久吹潮| 国产亚洲欧美日韩在线一区二区三区| 国产三级性色AV| 日本乱人伦在线免费| 国产精品黄色片在线观看| 人妻丰满熟妇岳αv无码区| www.anyequ| 操老女人,老熟女| 丰满熟女大屁股水多多| 91久久人澡人人添人人爽小草| 少妇被草视频| 天堂国产在线|