- +1
研究速遞:從百萬(wàn)詞匯語(yǔ)料庫(kù)挖掘性別差異,原來(lái)People = Man?
原創(chuàng) 郭瑞東、劉志航 集智俱樂(lè)部

摘要
People和Person這兩個(gè)詞本應(yīng)該是中性的,用來(lái)指代個(gè)人或群體,并不意味著男性或女性。然而,發(fā)表在 Science Advances 雜志上的一項(xiàng)最新研究,從超過(guò) 6300 億個(gè)英語(yǔ)單詞的語(yǔ)料庫(kù)中提取的相似性指標(biāo),發(fā)現(xiàn)這些標(biāo)簽的感知意義偏向男性。簡(jiǎn)而言之,不管人們用什么詞匯來(lái)描述普通人,他們往往在精神上默認(rèn)為“男性”。社會(huì)的“個(gè)人”概念的男性偏向,表明我們?nèi)祟?lèi)對(duì)自身的集體看法中存在一種根本性偏見(jiàn)。集體觀念不僅反映,而且灌輸和強(qiáng)化關(guān)于男女的廣泛思維方式。因此,使用計(jì)算社會(huì)科學(xué)的方法來(lái)研究普遍意義的性別刻板印象對(duì)社會(huì)發(fā)展有重要意義。
研究領(lǐng)域:計(jì)算語(yǔ)言學(xué),計(jì)算社會(huì)科學(xué),NLP,性別偏見(jiàn)
郭瑞東、劉志航 | 作者
鄧一雪 | 編輯

論文題目:
Based on billions of words on the internet, people = men
論文鏈接:
https://www.science.org/doi/10.1126/sciadv.abm2463
1. 詞嵌入技術(shù)發(fā)現(xiàn)集體概念中的性別偏見(jiàn)
自然語(yǔ)言處理技術(shù)的進(jìn)展使得精確測(cè)量任意兩個(gè)詞來(lái)表示概念的相似程度成為可能,這種語(yǔ)言相似性度量可以提供對(duì)語(yǔ)言社區(qū)的集體概念(collective concept)的洞察,這些概念反映并加強(qiáng)了大眾普遍的思維方式?!皞€(gè)人/人們(person/people)”作為人類(lèi)社會(huì)最重要的集體概念之一 ,構(gòu)成了幾乎所有社會(huì)決策和政策制定的基礎(chǔ)。因此,對(duì)這一集體概念的理解一定程度上表征了我們社會(huì)的價(jià)值和實(shí)踐的體系特征,是超越個(gè)人并融入更廣泛的社會(huì)系統(tǒng)和歷史傳統(tǒng)的思想存在。然而,哲學(xué)、社會(huì)學(xué)和語(yǔ)言學(xué)的理論長(zhǎng)期以來(lái)一直認(rèn)為,男性被視為“默認(rèn)”人類(lèi)個(gè)體,存在女性的性別偏差。例如,男性與科學(xué)和工作的關(guān)系更為密切。
為了驗(yàn)證上述假設(shè),研究人員使用詞嵌入技術(shù)分析了名為Common Crawl的大規(guī)模網(wǎng)絡(luò)文本數(shù)據(jù)庫(kù)。該數(shù)據(jù)包含29.6億個(gè)網(wǎng)頁(yè)(包括博客、論壇和政府網(wǎng)站),超過(guò)6300億個(gè)英語(yǔ)單詞。研究人員通過(guò)觀察兩個(gè)單詞在上下文文本的相似程度(單詞在向量空間中的余弦相似度),來(lái)衡量這一集體概念。這種方法的新穎之處在于,分析更具一般性,能揭示隱藏得更深的集體認(rèn)知偏見(jiàn)。而傳統(tǒng)的衡量性別偏見(jiàn)的方法是通過(guò)問(wèn)卷或行為測(cè)量個(gè)人的刻板印象。相比之下,通過(guò)計(jì)算集體概念偏向性能更普遍地反映人類(lèi)社區(qū)中個(gè)人的信仰,揭示在潛移默化中向下一代灌輸和加強(qiáng)對(duì)于男性和女性普遍的思維模式。
2. “人”傾向于指男性,
女性更容易被刻板化
研究人員通過(guò)三項(xiàng)研究考察了描述人的一般性詞匯,以及相鄰形容詞和動(dòng)詞的意義,并比較其意義和男性與女性的相似度。在第一項(xiàng)研究比較了描述人的詞匯(例如,“個(gè)人”)和描述男性的詞匯(例如,“他”和“男性”)及描述女性詞匯(例如,“她”和“女性”)在意義上的相似性。研究發(fā)現(xiàn),描述人的單詞和男性在語(yǔ)義上更加相似,其意思更加類(lèi)似于男性的單詞,而不是女性的單詞,而且具有統(tǒng)計(jì)學(xué)意義上的顯著差異。換句話說(shuō),“人”這個(gè)集體概念更多地與“男人”這個(gè)概念重疊,而不是與研究詞匯中的“女人”這個(gè)概念重疊。

圖1. 描述人的一般單詞與男性和女性單詞的余弦相似度
在第二項(xiàng)研究中,研究小組沒(méi)有關(guān)注人的詞匯,而是比較了538個(gè)在以前的工作中確定為對(duì)人常見(jiàn)描述的特征詞,例如外向、勇敢和富有同情心等詞匯。之前關(guān)于個(gè)人對(duì)女性和男性的心理刻板印象的研究中,性別刻板印象經(jīng)常被發(fā)現(xiàn)是對(duì)稱(chēng)的。 例如,女性被認(rèn)為具有同情心等公共特征,而不是勇敢等具體特征,而相反男性被認(rèn)為擁有的具體特征多于公共特征。但性別刻板印象往往是不對(duì)稱(chēng)的?!澳行浴痹谟梅ㄉ峡赡芘c許多常見(jiàn)的人稱(chēng)特征相似(例如,“勇敢”和“富有同情心”),而“女性”在用法上可能與一組更具體的特征相似(如“富有同情心”而不是“勇敢”)。研究者比較了在過(guò)去研究中發(fā)現(xiàn)的數(shù)百個(gè)描述人類(lèi)的特質(zhì)詞匯和針對(duì)女性和男性的同類(lèi)詞匯表,發(fā)現(xiàn)“女性”更多地出現(xiàn)在與女性刻板印象的特征詞環(huán)境,意味著性別刻板印象具有不對(duì)稱(chēng)性,女性更容易被標(biāo)簽化。

圖2. 描述個(gè)性特征的刻板印象詞匯和男性及女性的余弦相似度
在第三項(xiàng)研究中,研究人員關(guān)注動(dòng)詞的使用情況,具體來(lái)說(shuō),如果“人”的一般概念與“男人”的概念重疊的程度大于與“女人”的概念重疊的程度,那么描述“人們”做了什么以及對(duì)“他們”做了什么的詞語(yǔ)(例如,”愛(ài)”、”騷擾”),也更有可能在語(yǔ)境意義上與表示男人的詞語(yǔ)相似,而不是表示女人的詞語(yǔ)。研究者比較了描述“人們”行為的250多個(gè)動(dòng)詞(例如,“便利”、“傻笑”和“威脅”)和表示男性的詞匯與表示女性的詞匯之間的意義相似性,發(fā)現(xiàn)男性與所有動(dòng)詞都有關(guān)聯(lián),而女性與傳統(tǒng)意義上的女性相關(guān)的動(dòng)詞(例如傻笑)關(guān)聯(lián)更密切。
3. 集體概念偏見(jiàn)的現(xiàn)實(shí)啟示
“人”的集體概念構(gòu)成了許多社會(huì)觀念表述和決策制定的基礎(chǔ)。因?yàn)槟腥撕团烁髡家话?,在我們所謂的“人”的集體觀念中,優(yōu)先考慮男人,基于這種觀念的決策會(huì)給女性造成不平等。對(duì)此,在寫(xiě)作和決策過(guò)程中,要注意避免這樣的偏差。
雖然有的讀者會(huì)覺(jué)得前面敘述的是一個(gè)顯而易見(jiàn)的觀念,但經(jīng)過(guò)大數(shù)據(jù)得出的結(jié)論,不僅比基于直覺(jué)的更為可靠,還能反映更多的細(xì)節(jié)。例如關(guān)注動(dòng)詞的研究,指出人們認(rèn)為某些行為更多和女性有關(guān),這對(duì)于男性是不是也是一種隱含的歧視呢?而關(guān)注形容詞的研究,指出人們描述性格時(shí)是以男性為標(biāo)準(zhǔn)的,這對(duì)女性更容易被刻板化,是否會(huì)促使成功女性不得不以男性的方式做事這樣自我實(shí)現(xiàn)的預(yù)言?
Common Crawl 的海量數(shù)據(jù)可以用于多種目的,例如用這些數(shù)據(jù)來(lái)訓(xùn)練人工智能工具,包括語(yǔ)言翻譯網(wǎng)站和聊天機(jī)器人。而在使用包含內(nèi)置偏見(jiàn)的數(shù)據(jù)集時(shí),很有可能會(huì)產(chǎn)生以下惡性循環(huán):人工智能從人類(lèi)身上學(xué)習(xí),然后反作用于人類(lèi)。這個(gè)問(wèn)題令人擔(dān)憂(yōu),因?yàn)樗砻?,如果我現(xiàn)在打個(gè)響指,神奇地?cái)[脫每個(gè)人自身的認(rèn)知偏見(jiàn),不再把普遍意義上的人看作男人而不是女人,我們的社會(huì)仍然會(huì)有這種偏見(jiàn),因?yàn)檫@種偏見(jiàn)植根于人工智能工具中。因此該研究指出,需要對(duì)自然語(yǔ)音模型中的偏見(jiàn)予以糾正。
最后,該研究主要是基于英文文本,而基于中文文本庫(kù)能否得出類(lèi)似的結(jié)論?對(duì)比不同類(lèi)型,如體育、娛樂(lè)、社會(huì)新聞、經(jīng)典小說(shuō)、網(wǎng)絡(luò)小說(shuō)等來(lái)源的文本,是否會(huì)發(fā)現(xiàn)某些來(lái)源的性別偏見(jiàn)的程度更高?如果使用用戶(hù)產(chǎn)生內(nèi)容網(wǎng)站(UGC,諸如微博、知乎)的文本,將男性和女性產(chǎn)生的數(shù)據(jù)分開(kāi)訓(xùn)練詞向量,或者按不同地區(qū)、不同年齡段用戶(hù)對(duì)文本進(jìn)行分組訓(xùn)練,并分別計(jì)算性別偏見(jiàn)的程度,預(yù)期是否會(huì)存在差異?這些差異反映了哪些社會(huì)及文化變遷的一般規(guī)律?這些仍待后續(xù)研究工作解決。
論文 Abstract
Recent advances have made it possible to precisely measure the extent to which any two words are used in similar contexts. In turn, this measure of similarity in linguistic context also captures the extent to which the concepts being denoted are similar. When extracted from massive corpora of text written by millions of individuals, this measure of linguistic similarity can provide insight into the collective concepts of a linguistic community, concepts that both reflect and reinforce widespread ways of thinking. Using this approach, we investigated the collective concept PERSON/PEOPLE, which forms the basis for nearly all societal decision- and policy-making. In three studies and three preregistered replications with similarity metrics extracted from a corpus of over 630 billion English words, we found that the collective concept PERSON/PEOPLE is not gender-neutral but rather prioritizes men over women—a fundamental bias in our species’ collective view of itself.
復(fù)雜科學(xué)最新論文
集智斑圖頂刊論文速遞欄目上線以來(lái),持續(xù)收錄來(lái)自Nature、Science等頂刊的最新論文,追蹤復(fù)雜系統(tǒng)、網(wǎng)絡(luò)科學(xué)、計(jì)算社會(huì)科學(xué)等領(lǐng)域的前沿進(jìn)展?,F(xiàn)在正式推出訂閱功能,每周通過(guò)微信服務(wù)號(hào)「集智斑圖」推送論文信息。
原標(biāo)題:《研究速遞:從百萬(wàn)詞匯語(yǔ)料庫(kù)挖掘性別差異,原來(lái)People = Man?》
本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司




