日本护士毛茸茸高潮,亚洲精品自偷自拍无码,久久精品国产一区二区三区,日韩人妻无码免费视频一二区

  • +1

來(lái)自開(kāi)放數(shù)據(jù)的閃電新聞:如何從數(shù)據(jù)中找到新聞線索

2019-07-17 21:12
來(lái)源:澎湃新聞·澎湃號(hào)·湃客
字號(hào)

原創(chuàng):

        服老思

        

數(shù)據(jù)新聞是個(gè)很廣的概念,要理解這個(gè)詞語(yǔ),我們最好將其拆分?!皵?shù)據(jù)新聞”即是“數(shù)據(jù)”和“新聞”。

談及“數(shù)據(jù)新聞”,我們通常有兩種操作思路:一是通過(guò)「數(shù)據(jù)挖掘」(data mining),找到新聞點(diǎn);二是在已有的新聞中,添加呈現(xiàn)數(shù)據(jù)的元素。

其中,“數(shù)據(jù)挖掘”指從數(shù)據(jù)庫(kù)中尋找到有價(jià)值新聞點(diǎn)。這些從數(shù)據(jù)庫(kù)中爬取的信息可能會(huì)給新聞?wù){(diào)查帶來(lái)新的調(diào)查思路。最終呈現(xiàn)出來(lái)的作品也許根本就沒(méi)有完全反映數(shù)據(jù)的使用,好像還是傳統(tǒng)新聞那樣,主要還是內(nèi)容仍舊是采訪與照片。但其實(shí)這整個(gè)的新聞熱點(diǎn),都是科學(xué)地由數(shù)據(jù)挖掘而來(lái)。

另外一種方式,便是用數(shù)據(jù)來(lái)呈現(xiàn)、解釋新聞點(diǎn)。其中會(huì)涉及多種圖表和一些交互性功能的使用,在科學(xué)領(lǐng)域我們通常稱之“數(shù)據(jù)可視化”。

本篇文章側(cè)重講解“數(shù)據(jù)挖掘”(data mining),也就是探討如何從數(shù)據(jù)中挖掘新聞,或者說(shuō),找到新聞線索。

數(shù)據(jù)cookie:良好的新聞線索發(fā)掘能力是記者最重要的技能之一

從新聞線索發(fā)展為一個(gè)完整的新聞故事,則需要結(jié)合傳統(tǒng)的和新興的新聞操作手法。

本篇文章中,為了方便討論,我們使用“新聞”廣義的定義——公眾獲得了他之前所不了解的信息,也可以理解為“新的信息”。所以“新聞”有可能是當(dāng)前事件的最新?tīng)顟B(tài),或是對(duì)讀者來(lái)說(shuō)的“新知識(shí)”。

(某些知識(shí)可能對(duì)于一些領(lǐng)域的專業(yè)人士是常識(shí),但對(duì)于普通受眾而言,那就是全新的知識(shí)了。)

正如中文常說(shuō)的“大道至簡(jiǎn)”:最復(fù)雜的理論往往是用最簡(jiǎn)單的語(yǔ)言構(gòu)建 。

所以我們其實(shí)不用難懂的編程技巧,拋開(kāi)復(fù)雜的電子表格工具(spreadsheet),只用一些最最基礎(chǔ)的計(jì)算機(jī)常識(shí)(computer literacy),再加上我們敏銳的新聞嗅覺(jué),就已經(jīng)可以從數(shù)據(jù)中找到很多有意思的“新聞點(diǎn)”了。

接下來(lái),我們會(huì)通具體的例子來(lái)進(jìn)一步解釋如何在數(shù)據(jù)中尋找新聞。

這些例子都來(lái)源于新聞系的本科生。

這些數(shù)據(jù)表,是這些本科生們,在數(shù)據(jù)新聞的第二堂課上,用僅僅二十分鐘時(shí)間,從香港政府網(wǎng)站上爬取下來(lái)的。

我們從網(wǎng)站的公共數(shù)據(jù)集開(kāi)始,仔細(xì)審視這些數(shù)據(jù)表,來(lái)尋找有趣的新聞點(diǎn)。

這個(gè)過(guò)程十分快速,以至于我們給它取了一個(gè)猴塞雷的名字:「閃電新聞」(Lightning News)。

那么,應(yīng)該如何提高自己“Lightning News”的能力呢?

大量的日常訓(xùn)練!

大量的日常訓(xùn)練!

大量的日常訓(xùn)練!

大量的日常訓(xùn)練后,新聞敏感性和數(shù)據(jù)敏感性都會(huì)有很大提升。

讓我們從這篇文章開(kāi)始日常訓(xùn)練的第一步吧!

01 數(shù)據(jù):按年及性別劃分的年齡中位數(shù)(不包括外籍家庭傭工)
數(shù)據(jù)來(lái)源:https://www.bycensus2016.gov.hk/tc/bc-mt.html

【分析】

1. 最后一排展現(xiàn)的是香港過(guò)去幾十年的年齡變化情況。

2. 比較男性和女性的年齡中位數(shù),重點(diǎn)關(guān)注紅色圓圈圈起來(lái)的數(shù)字,我們發(fā)現(xiàn):不包含外籍家庭傭工的情況下,女性普遍比男性年長(zhǎng)。

3. 單看男性的數(shù)據(jù),我們可以發(fā)現(xiàn),包含和不包含外籍家庭傭工的兩組數(shù)據(jù)并沒(méi)有顯著的差異。

問(wèn)題就來(lái)了:是因?yàn)闆](méi)有男性的外籍家庭傭工嗎?還是有數(shù)據(jù)背后隱藏著細(xì)小的區(qū)別呢?事實(shí)是,還真有男性的外籍傭工存在。

所以接下來(lái),你就可以進(jìn)一步去挖掘他們的故事了。

02 數(shù)據(jù)庫(kù):政府在教育方面的開(kāi)支

數(shù)據(jù)來(lái)源:https://www.edb.gov.hk/en/about-edb/publications-stat/figures/gov-expenditure.html

【分析】

很容易發(fā)現(xiàn),政府在教育上花費(fèi)的開(kāi)支絕對(duì)數(shù)字是在增長(zhǎng)的(綠色方框標(biāo)注),但是教育開(kāi)支占所有開(kāi)支的比例卻是在減少的(紅色方框標(biāo)注)。

那么,新聞線索便呼之欲出:政府在教育上的投入到底是增加了?還是減少了?

03 數(shù)據(jù)庫(kù):按種類劃分的平均固體廢物數(shù)量

數(shù)據(jù)來(lái)源:https://www.censtatd.gov.hk/hkstat/sub/sp420.jsp?productCode=D5600560

【分析】

1.相比之前的例子,這張圖表上有更多有價(jià)值的數(shù)據(jù)點(diǎn)。

通常情況下,為了便于更清楚地發(fā)現(xiàn)最重要的信息,我們會(huì)使用“低亮”(與“高亮”相反的操作)的方法,即通過(guò)灰白色來(lái)隱藏一些繁瑣的細(xì)節(jié)。

在序列數(shù)據(jù)中,它的起點(diǎn)/終點(diǎn)/中間點(diǎn)這三部分是我們最關(guān)注的。

當(dāng)拿到一張圖表示,你只需要快速掃視圖表中的的這三個(gè)關(guān)鍵數(shù)據(jù),便能很快判斷出整體的變化情況。

變化情況一般分為四種:上升,下降,先下降后上升或者先上升后下降(符號(hào)表示:/, , V, ^)。

通過(guò)對(duì)于整體趨勢(shì)的判斷,一個(gè)有關(guān)趨勢(shì)的故事就能信手拈來(lái)了。

舉例如下:

這場(chǎng)圖表總體來(lái)看,【城市固體廢物】排放量不斷增加,其中【生活垃圾】略有減少,【商業(yè)垃圾】幾乎翻了一番,而【工業(yè)垃圾】則增加了一半。

通過(guò)以上信息分析,【商業(yè)類】和【工業(yè)類】固體廢物的迅速增長(zhǎng),是否表明城市經(jīng)濟(jì)正在進(jìn)行結(jié)構(gòu)上的轉(zhuǎn)變?

注意,這些數(shù)據(jù)還很適合通過(guò)折線圖的方式進(jìn)行展示。

詳細(xì)可參考HOWTO 這篇文章(點(diǎn)擊閱讀原文觀看)和下面的例子:

04 上網(wǎng)費(fèi)津貼(寬帶補(bǔ)貼)計(jì)劃統(tǒng)計(jì)數(shù)字
https://data.gov.hk/sc-data/dataset/hk-wfsfaa-sfo_01-sia-stats

分析

1. 從圖表中我們發(fā)現(xiàn),無(wú)論是申請(qǐng)補(bǔ)助計(jì)劃的人數(shù),以及申請(qǐng)成功的案例,其數(shù)量都在減少。

2. 那么,是什么原因?qū)е聸](méi)有那么多成功的申請(qǐng)者的呢?

這種趨勢(shì)是否表明整體經(jīng)濟(jì)形勢(shì)在變好,所符合補(bǔ)助資格的人數(shù)在變少?

或者僅僅是因?yàn)樯暾?qǐng)成功的標(biāo)準(zhǔn)在變嚴(yán)格?

05 15歲及以上人口的教育程度分布

https://data.gov.hk/sc-data/dataset/hk-edb-figustat-fig-stat-population-aged-15

分析

1.從上表中我們發(fā)現(xiàn),教育程度在「小學(xué)及以下」和「中學(xué)」的人數(shù)在減少。這是否表明全民教育成功普及?

或只是因?yàn)槟贻p人教育程度普遍較高,同時(shí)低學(xué)歷的老年人去世,導(dǎo)致教育程度較低的人數(shù)整體減少?

2.學(xué)位課程有哪些潛在途徑?更普遍的問(wèn)題是,小學(xué)畢業(yè)后,學(xué)生的教育路徑/職業(yè)晉升路徑是什么?

互聯(lián)網(wǎng)的發(fā)展讓很多非本地讀者也能瀏覽到當(dāng)?shù)氐男侣劇?/p>

只經(jīng)歷過(guò)數(shù)十年標(biāo)準(zhǔn)化/統(tǒng)一教育體系的內(nèi)地讀者很快就會(huì)發(fā)現(xiàn),在香港,中學(xué)教育通??缭?-7年,大學(xué)教育跨越2-5年。這和內(nèi)地的教育體系有很大的不同。

資料來(lái)源:

http://www.hkihrm.org/index.php/component/phocadownload/category/16-business-case-business-knowledge?download=80:jul29-post-secondary-education-in-hong-kong-profkwan

06 跨境(內(nèi)地和香港)車(chē)流量

https://www.info.gov.hk/gia/general/201805/23/P2018052300535.htm

分析

1.上圖是按類型和年份統(tǒng)計(jì)的過(guò)境巴士數(shù)量表格??梢钥吹?,過(guò)去16年間,跨境車(chē)輛的數(shù)量有了很大的變化。最明顯的一點(diǎn):過(guò)境的人變多了,過(guò)境的貨變少了。

2.這種趨勢(shì)是否意味著兩邊的交流變多?抑或這種現(xiàn)象是由于邊境政策放松所導(dǎo)致?

3.進(jìn)一步挖掘表內(nèi)信息,比如,工作日流量,邊境管制點(diǎn)流量,香港境內(nèi)/目的地流量,香港境外/目的地流量,乘客人數(shù)百分比,以旅行為目的,在香港/大陸逗留的時(shí)間等等,恰好可以回答了我們?cè)谛侣勆a(chǎn)中常常會(huì)問(wèn)到的六個(gè)問(wèn)題:who, what, when, where, how and why。

單一的數(shù)據(jù)往往不能回答我們以上的所有問(wèn)題。當(dāng)我們發(fā)現(xiàn)有價(jià)值的新聞點(diǎn)時(shí),我們需要做更全面的調(diào)查進(jìn)一步的挖掘背后的故事,以6個(gè)W的問(wèn)題為線索深入。

PS:拿到數(shù)據(jù)后,我們首先要注意清晰主要的故事點(diǎn),而用波形圖(Sparkline)來(lái)展示數(shù)據(jù)的變化是一個(gè)很不錯(cuò)的方式。

但在繪制折線圖之前,我們首先要對(duì)原始數(shù)據(jù)進(jìn)行整理。

另外需要注意的是,Excel2010及之前的版本或者是在兼容模式之下,是不能用折線圖的,所以我們可以在處理數(shù)據(jù)之前,另存為新的格式,或者重新打開(kāi)Excel。

07 2016-2024年按區(qū)議會(huì)劃分的人口推算數(shù)字
https://www.pland.gov.hk/pland_en/info_serv/statistic/tables/Lock_WGPD%20Report_2015-2024.pdf

分析

縱觀香港三個(gè)主要地區(qū)近年的人口變化(綠色框),香港島的人口在減少,而九龍和新界的人數(shù)有了很大程度的增加。

根據(jù)所發(fā)現(xiàn)趨勢(shì),我們可以進(jìn)一步思考:這種趨勢(shì)的發(fā)生是自然出生/死亡率下的正常波動(dòng)導(dǎo)致的呢?還是因?yàn)樾陆绾途琵埖貐^(qū)更適宜居住,導(dǎo)致了人口的大量遷移?

由紅色框數(shù)據(jù)可知,整體來(lái)看,香港島的人數(shù)在下降,但香港島南部的人數(shù)卻沒(méi)有下降,反而有細(xì)微的增加。是否是因?yàn)榇说貐^(qū)近年交通運(yùn)輸方式的改善(比如南港島線)?還是因?yàn)榻甏说貐^(qū)提供了更多的工作機(jī)會(huì)(比如說(shuō),香港島南部的數(shù)碼港)?

08 二零零七年食物中毒病原體統(tǒng)計(jì)數(shù)字

https://www.chp.gov.hk/en/statistics/data/10/26/43/289.html

分析

1.二零零七年的食品中毒案例中,細(xì)菌和病毒是兩個(gè)主要病原體。

2.細(xì)菌病原體導(dǎo)致中毒的事件主要發(fā)生在夏季,而病毒病原體導(dǎo)致的中毒事件主要發(fā)生在冬季。

不同病原體導(dǎo)致的中毒事件的發(fā)生根據(jù)季節(jié)變化有明顯不同,季節(jié)是否為其中重要的影響因素?還是2007年有特殊的事件發(fā)生?

產(chǎn)生這樣的疑問(wèn)后,一方面,為進(jìn)一步驗(yàn)證我們的猜測(cè),我們需要查找更多年份的相關(guān)數(shù)據(jù)。

另一方面,我們也得到了一個(gè)重要的信息:季節(jié)是食物中毒的重要影響因素。

可見(jiàn),數(shù)據(jù)庫(kù)中的異常值是應(yīng)該重點(diǎn)關(guān)注的,它們很有可能給我們帶來(lái)一些新的思考。

09 工資指數(shù)

數(shù)據(jù)來(lái)源:http://www.censtatd.gov.hk/showtablenewexcel.jsp?tableID=024&charsetID=2

分析

1.最后,上圖是一個(gè)已經(jīng)進(jìn)行過(guò)可視化的圖表,從中我們依舊可以關(guān)注到一些有意思的信息,譬如,金融保險(xiǎn)行業(yè)在近幾十年中平均工資始終遙遙領(lǐng)先,另外,除了制造業(yè)以及能源產(chǎn)業(yè),其余行業(yè)與金融行業(yè)間的工資差距在慢慢減小。

2.但,僅憑這樣一張圖表就開(kāi)始撰寫(xiě)新聞顯然是不嚴(yán)謹(jǐn)?shù)?,我們需要始終葆有懷疑的態(tài)度,進(jìn)一步檢查所用數(shù)據(jù)是否有一定的局限性。

圖表的左上角的標(biāo)示顯示,這些數(shù)據(jù)展示的“中層經(jīng)理與專業(yè)人才”的薪金變化。

表中數(shù)據(jù)是在這樣有職位限制的情況下收集的,這就能很好地解釋為什么各行業(yè)之間的平均工資差距比我們印象中的要小很多,這是因?yàn)樗占臄?shù)據(jù)都來(lái)自各行業(yè)內(nèi)的管理層人員。

方法總結(jié)

通過(guò)以上的案例分析,我們總結(jié)出兩種從數(shù)據(jù)中挖掘新聞的方法。

一種是縱觀所有數(shù)據(jù)后,尋找趨勢(shì),模式,共同規(guī)律,普遍現(xiàn)象。

另一種是尋找數(shù)據(jù)中的異常,由此探討異常背后的原因。

那么,如何尋找趨勢(shì)呢?

一個(gè)比較快速便捷的方式是,我們可以通過(guò)抓取起點(diǎn)值/中點(diǎn)值/終點(diǎn)值迅速分析數(shù)據(jù)的大致變化趨勢(shì)(是上升?還是下降?是先降后升?還是先升后降?)

不過(guò),盡管數(shù)據(jù)可視化圖表可以讓我們清晰觀察到整體趨勢(shì),我們依然需要根據(jù)實(shí)際情況進(jìn)行進(jìn)一步的分析和判斷。

那么又如何尋找異常呢?

最有效的方法是關(guān)注最大值和最小值。

相比尋找到數(shù)據(jù)的平均值/中位數(shù),最大值和最小值更易被發(fā)現(xiàn)。

對(duì)于復(fù)合結(jié)構(gòu)或者多維結(jié)構(gòu)的數(shù)據(jù)表格來(lái)說(shuō),向下鉆取數(shù)據(jù)(drill-down)非常有用,常常被應(yīng)用地理緯度表格,以及日期時(shí)間緯度表格。

當(dāng)發(fā)現(xiàn)一個(gè)新聞/新聞點(diǎn)時(shí),我們需要通過(guò)詢問(wèn)6個(gè)W的問(wèn)題進(jìn)一步推進(jìn)。

在數(shù)據(jù)領(lǐng)域,這時(shí),我們就需要查找其他相關(guān)的數(shù)據(jù),找到更有力的證據(jù)。

最后需要注意的是, 數(shù)據(jù)常常可以直接回答我們Who/What/When/Where這幾個(gè)問(wèn)題,

很少回答我們關(guān)于How的問(wèn)題,

而幾乎不會(huì)回答我們關(guān)于why的問(wèn)題。

此時(shí),就要靠高素質(zhì)的新聞?dòng)浾呷ゲ樽C,挖掘出新聞點(diǎn)背后的真相,回答how and why了。

原文首刊登于The Data & Society News

時(shí)間為2018,02,22

閱讀原文

    本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。

            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號(hào)

            滬公網(wǎng)安備31010602000299號(hào)

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116

            ? 2014-2025 上海東方報(bào)業(yè)有限公司

            国产精品视频午夜福利| www.久久久久久| 丰满岳妇乱一区二区三区 | 无码国内精品久久人妻毛片| 人妻久久久一区二区三区| 男女性杂交内射女bbwxz| 亚洲色婷婷婷婷五月基地| 国产日产欧产美韩系列影片| 狠狠狠狼鲁亚洲综合网| 欧美国产激情二区三区| 丰满人妻中伦妇伦精品app| av免费不卡国产观看| 国产成人一区二区三区影院免费| 日本中文一二区有码在线| 18一19一级毛片| 最刺激黄a大片免费观看下载| 午夜福利在线永久视频| 九久九久热精品| 免费的av网站| 少妇高潮一区二区三区99| 久久久精品国产亚洲AV忘忧草| 久久精品亚洲熟女AV蜜柚小站| 國產尤物AV尤物在線觀看| 超碰人人人看| 无码专区永久免费av网站| 你懂的在线视频| 肉色丝袜91| 午夜天堂精品久久久久| 欧美性爱网-樱花视频 | 国产 AV 白浆 喷水| 奶头好大揉着好爽视频午夜院| 亚欧成人精品一区二区乱| 成人av片免费看| 国产成人综合色在线观看网站| 日本精品人妻无码77777| 456日本人妻日日爽| 国产激情二区| 国产人妻鲁鲁一区二区| 国产精品久久久久久AV色戒| 日本多毛熟妇| 久久se精品一区二区三区|