- +1
如何跳出推薦算法的信息繭房?Nature子刊闡釋人與AI自適應(yīng)動(dòng)力學(xué)推動(dòng)繭房涌現(xiàn)
原創(chuàng) 劉志航 集智俱樂部=

導(dǎo)語
基于 AI 技術(shù)的推薦系統(tǒng)為我們高效地呈現(xiàn)了豐富的個(gè)性化內(nèi)容,成功避免了信息的過度泛濫。然而,這種技術(shù)卻無聲息地將我們束縛在信息繭房?jī)?nèi),讓我們不知不覺陷入單調(diào)內(nèi)容的漩渦,無形中加深了我們的固有偏見。清華大學(xué)的研究團(tuán)隊(duì)近期在 Nature Machine Intelligence 期刊上發(fā)表研究,利用兩大數(shù)據(jù)集并構(gòu)建了一個(gè)描述人類與推薦系統(tǒng)自適應(yīng)的動(dòng)力學(xué)模型,深入探討了信息繭房的涌現(xiàn)機(jī)制,并為我們提供了突破這一繭房的實(shí)用策略。
研究領(lǐng)域:信息繭房,自適應(yīng)動(dòng)力學(xué),信息熵,反饋機(jī)制,推薦算法
劉志航 | 作者

論文題目:
Human–AI adaptive dynamics drives the emergence of information cocoons
論文鏈接:
https://www.nature.com/articles/s42256-023-00731-4
1. 推薦算法背后的信息繭房
無論是新聞媒體,短視頻娛樂還是線上交友和購物,基于人工智能的推薦算法已經(jīng)滲透到現(xiàn)代生活的方方面面,幫助我們篩選和消化海量的在線信息。然而,這些系統(tǒng)是否總是為我們提供了真正有價(jià)值、多樣化的信息呢?還是在無形中將我們限制在一個(gè)狹窄的信息繭房中,使我們陷入單一內(nèi)容的陷阱?
“信息繭房”(Information Cocoon)這一術(shù)語形象地描述了一個(gè)人僅僅被展示與其過去的喜好、行為和觀點(diǎn)相符的信息,而與外部多樣化的信息隔離的狀態(tài)。這種現(xiàn)象可能導(dǎo)致社會(huì)的兩極分化,加劇人們的偏見和刻板印象,抑制創(chuàng)新和創(chuàng)造力,甚至影響決策的質(zhì)量。
現(xiàn)代搜索引擎和社交媒體通過算法為用戶提供個(gè)性化內(nèi)容,結(jié)合人們的選擇性曝露和社交媒體的回聲室效應(yīng),導(dǎo)致了信息繭房的形成。盡管以往研究探討了這些現(xiàn)象之間的相關(guān)性,但深度學(xué)習(xí)的“黑箱”特性和缺乏對(duì)人與AI之間共同演化機(jī)制的深入了解,使得信息繭房的根本機(jī)制仍是一個(gè)謎團(tuán)。
在最新發(fā)表于 Nature Machine Intelligence 的一項(xiàng)研究中,清華大學(xué)的研究團(tuán)隊(duì)使用了兩大數(shù)據(jù)集來探索我們?nèi)绾闻cAI互動(dòng)。其中一個(gè)數(shù)據(jù)集來自中國(guó)的熱門短視頻平臺(tái),記錄了超過11萬新用戶的行為,另一個(gè)數(shù)據(jù)集則來自 Microsoft News,涵蓋了14個(gè)新聞主題和9萬用戶的互動(dòng)。令人驚訝的是,研究發(fā)現(xiàn)大部分的用戶在與AI互動(dòng)后,接觸到的信息種類實(shí)際上減少了(圖1a-c),這意味著他們可能被困在了所謂的“信息繭房”中。這項(xiàng)發(fā)現(xiàn)引發(fā)了一個(gè)緊迫的問題:是什么使得我們?cè)谂cAI的日常互動(dòng)中逐漸失去了信息的多樣性?

圖1. 對(duì)信息繭房的實(shí)證研究和自適應(yīng)信息動(dòng)力學(xué)模型。(a)Δs 展示了超過57%的活躍用戶接受到的推薦結(jié)果越來越同質(zhì)化。根據(jù) Δs,這些用戶被均勻地分為五組。(b)隨時(shí)間變化的信息熵 s,線條代表不同 Δs 的用戶組。隨著互動(dòng)的增加,總體用戶中的11%(第1組)的熵從2.32下降到1.75(下降了24.8%)。(c)第1組中隨機(jī)選擇的一個(gè)用戶示例,該用戶被AI驅(qū)動(dòng)的推薦算法強(qiáng)烈地限制在同質(zhì)化的信息中。(d-f) 歸一化信息熵與基于相似性的匹配強(qiáng)度(d)、正反饋樣本比例(e)和負(fù)反饋樣本比例(f)之間的關(guān)系。(g)自適應(yīng)信息動(dòng)力學(xué)模型的概覽,其中人類和AI驅(qū)動(dòng)的推薦算法相互互動(dòng),形成一個(gè)反饋循環(huán)。AI基于估計(jì)的相似性(β)匹配用戶和項(xiàng)目,用戶提供反饋,AI從用戶的正反饋(γ+)和負(fù)反饋(γ?)中學(xué)習(xí),以及隨機(jī)的自我探索(σ),然后進(jìn)行進(jìn)一步的推薦。
2. 自適應(yīng)信息動(dòng)力學(xué)模型
為了實(shí)證地量化用戶可訪問的信息多樣性,研究者使用了信息熵(information entropy)的概念。與隨機(jī)熱力學(xué)理論類似,人和推薦算法的整體系統(tǒng)最初是遠(yuǎn)離平衡的。在基于相似性匹配生成(推薦與用戶過去喜歡主題信息)的有效力場(chǎng)作用下,信息主題逐漸從多樣化狀態(tài)演變?yōu)樾畔⒗O房狀態(tài),這一相變的特點(diǎn)是信息熵下降。
通過對(duì)一年內(nèi)的熵變化進(jìn)行測(cè)量,研究發(fā)現(xiàn)超過57%的活躍用戶的信息熵有所下降(圖1a),這意味著他們接觸到的信息變得越來越單一。特別是,有11%的用戶在使用平臺(tái)的初期就經(jīng)歷了信息多樣性的急劇下降,一年后他們的信息熵下降了24.8%(圖1b)。更進(jìn)一步,研究者隨機(jī)選擇了一個(gè)信息多樣性下降最多的用戶進(jìn)行觀察。令人震驚的是,這名用戶在開始時(shí)可以接觸到各種各樣的話題,但在與平臺(tái)互動(dòng)一年后,他幾乎只被推薦了一個(gè)話題的內(nèi)容(圖1c)。
進(jìn)一步的實(shí)證觀察發(fā)現(xiàn),信息熵與相似性匹配強(qiáng)度呈負(fù)相關(guān),即推薦系統(tǒng)越推薦用戶過去喜歡的主題,信息繭房越可能出現(xiàn)(圖1d,負(fù)相關(guān)),并且如果表示出積極的反饋,會(huì)加劇這種信息繭房(圖1e,負(fù)相關(guān)),而負(fù)面的反饋則會(huì)緩解信息熵下降的趨勢(shì)(圖1f, 正相關(guān))。
基于這些,作者提出了一個(gè)用于復(fù)雜的人工智能交互系統(tǒng)的自適應(yīng)動(dòng)力學(xué)建模框架,以解釋信息繭房的出現(xiàn)。與包含數(shù)十億參數(shù)的基于深度學(xué)習(xí)的模型不同,這個(gè)提議的模型只依賴于四個(gè)參數(shù)。這些參數(shù)既來源于實(shí)證觀察,也來源于當(dāng)前推薦算法的工作原理。該模型在建??蚣苤姓狭嘶谙嗨菩缘钠ヅ洹⒂脩舴答伜腿祟愄剿餍袨椋ㄈ鐖D1g所示)。
模型的基于相似性的匹配 (β) 參數(shù)描述了用戶的喜好與推薦內(nèi)容之間的相似度。當(dāng)β值較大時(shí),與用戶相似的內(nèi)容更有可能被推薦。用戶對(duì)推薦內(nèi)容的反饋分為正反饋和負(fù)反饋,分別由參數(shù)γ+和γ?表示。正反饋意味著用戶喜歡某個(gè)推薦,而負(fù)反饋則表示不喜歡。主動(dòng)探索 (σ) : 用戶不僅僅依賴于推薦系統(tǒng),他們還會(huì)主動(dòng)地通過其他途徑(如搜索引擎)探索內(nèi)容。σ 參數(shù)捕獲了這種隨機(jī)自我探索的程度。
3. 人類與算法自適應(yīng)導(dǎo)致繭房的涌現(xiàn)
模型顯示,當(dāng)推薦系統(tǒng)過度依賴于用戶與內(nèi)容之間的相似度(即β值增加)時(shí),用戶更容易陷入所謂的“信息繭房”(圖2a)。簡(jiǎn)而言之,這意味著系統(tǒng)會(huì)過度推薦與用戶過去喜好相似的內(nèi)容,導(dǎo)致信息的多樣性減少。

圖2. β 和 ∣γ+∣ 參數(shù)對(duì)信息繭房的影響。(a)隨著β值的變化,相對(duì)信息熵 P 的分布也發(fā)生了變化。這意味著,當(dāng)推薦系統(tǒng)更強(qiáng)烈地依賴用戶與內(nèi)容之間的相似度時(shí),用戶接觸到的信息多樣性會(huì)減少。(b)正反饋強(qiáng)度 ∣γ+∣ 的變化也影響了相對(duì)信息熵的分布。這進(jìn)一步證實(shí)了,當(dāng)系統(tǒng)過度依賴用戶的正反饋時(shí),信息繭房的現(xiàn)象更為明顯。(c)描述了在不同狀態(tài)下的過度推薦和欠推薦的程度。
此外,正反饋的過度使用也被發(fā)現(xiàn)是導(dǎo)致信息繭房的另一個(gè)關(guān)鍵因素(圖2b)。當(dāng)用戶頻繁地給出正反饋,推薦算法可能會(huì)過度依賴這些反饋,從而過度推薦某些話題,而忽視了其他可能對(duì)用戶有價(jià)值的話題。
但是,有希望的是,研究還發(fā)現(xiàn),負(fù)反饋的有效利用和用戶的隨機(jī)自我探索行為,都可以幫助他們擺脫信息繭房的束縛(圖3a-b)。具體來說,當(dāng)用戶給出負(fù)反饋,或者主動(dòng)探索新的內(nèi)容,推薦算法可以更全面、準(zhǔn)確地捕捉到用戶的真實(shí)喜好,從而提供更多樣化的推薦。

圖3. ∣γ?∣ 和 σ 參數(shù)對(duì)信息繭房的影響。(a)這部分展示了隨著∣γ?∣(負(fù)反饋的使用強(qiáng)度)的變化,相對(duì)信息熵的分布。這意味著,當(dāng)算法更多地依賴用戶的負(fù)反饋時(shí),用戶接觸到的信息多樣性如何受到影響。(b)這部分展示了隨著σ(用戶的自主探索行為)的增加,相對(duì)信息熵的分布。這意味著,當(dāng)用戶更多地進(jìn)行自主探索時(shí),他們接觸到的信息多樣性如何受到影響。(c-d)這兩部分對(duì)比了在不同的γ?和σ值下,隨機(jī)選取的用戶的初始和可訪問的話題分布。
4. 跳出AI的“繭”:如何避免信息繭房困境
最后,文章的圖4為我們揭示了一個(gè)清晰的信息繭房狀態(tài)相變圖。這些三維狀態(tài)圖展示了在不同的參數(shù)組合下,如相似性匹配、正反饋和負(fù)反饋,以及自我探索,系統(tǒng)可能會(huì)經(jīng)歷不同的信息繭房狀態(tài),能夠據(jù)此預(yù)測(cè)三種狀態(tài)之間的臨界轉(zhuǎn)變:多樣化、部分信息繭房和深度信息繭房。
值得注意的是,這些圖表揭示了一個(gè)關(guān)鍵發(fā)現(xiàn):即使相似性匹配的強(qiáng)度很高,只要適當(dāng)?shù)卦黾迂?fù)反饋和鼓勵(lì)用戶的自我探索,系統(tǒng)就可以從信息繭房狀態(tài)轉(zhuǎn)移到多樣化狀態(tài)。這意味著,通過調(diào)整這些關(guān)鍵參數(shù),我們可以有效地避免或至少減輕信息繭房的效應(yīng)。具體來說,我們可以通過更多地關(guān)注用戶的負(fù)反饋和鼓勵(lì)他們進(jìn)行自我探索,來打破這個(gè)“繭”。

圖4. 不同狀態(tài)之間的相變。(a-b)由視頻數(shù)據(jù)集(a)和新聞數(shù)據(jù)集(b)初始化的模擬中的三維狀態(tài)圖。(c-h)由視頻數(shù)據(jù)集(c-e)和新聞數(shù)據(jù)集(f-h)初始化的三維模擬圖的橫截面。
人與AI之間的交互構(gòu)建了一個(gè)復(fù)雜的系統(tǒng),涉及多個(gè)實(shí)體和反饋機(jī)制。這項(xiàng)研究的核心發(fā)現(xiàn)為我們跳出信息繭房提供了策略,我們可以采取兩種實(shí)際方法來減輕現(xiàn)實(shí)世界的信息困境:(1) 有效地利用負(fù)反饋,通過識(shí)別用戶的不喜歡來提供關(guān)于用戶偏好的新視角;(2) 促進(jìn)自我探索,通過賦予用戶對(duì)算法更大的自主權(quán)來多樣化可用的信息。
總的來說,這項(xiàng)研究不僅為基于AI的推薦算法提供了實(shí)際的方向,還為我們提供了一種理解由于復(fù)雜的人工智能交互系統(tǒng)中的自適應(yīng)動(dòng)力學(xué)而產(chǎn)生的主要社會(huì)問題的理論方法。
原標(biāo)題:《如何跳出推薦算法的“信息繭房”?Nature子刊闡釋人與AI自適應(yīng)動(dòng)力學(xué)推動(dòng)信息繭房涌現(xiàn)》
本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問http://renzheng.thepaper.cn。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司




