高數(shù)你考過了嗎？學(xué)霸多巴胺神經(jīng)元拿了A

2021-03-24 07:27

來源：澎湃新聞·澎湃號·湃客

原創(chuàng) Veronica 神經(jīng)現(xiàn)實收錄于話題#神經(jīng)前研 | NeuroHub130個

文獻(xiàn)：Rothenhoefer, K.M., Hong, T., Alikaya, A. et al. Rare rewards amplify dopamine responses. Nat Neurosci (2021).

DOI：https://doi.org/10.1038/s41593-021-00807-7

導(dǎo)讀作者：Veronica | 封面：Rick Ritara

從前有一棵樹叫高數(shù)，上面掛了很多人，你有沒有（險些）掛在上面？《概率論和數(shù)理統(tǒng)計》這一本薄薄的教程，改變了無數(shù)個原本可以通宵打游戲、煲劇的大學(xué)夜晚。筆者現(xiàn)在還記得大學(xué)時坊間流傳的段子：“二項式在密度函樹下展開標(biāo)準(zhǔn)分布，布里包了兩個釵釵，分別是標(biāo)準(zhǔn)釵和方釵?！?/p>

最近，一群來自匹茲堡大學(xué)和卡耐基梅隆大學(xué)的研究人員發(fā)現(xiàn)，我們大腦里的多巴胺神經(jīng)元，其實是一群能自學(xué)成才的學(xué)霸。通過記錄恒河猴多巴胺神經(jīng)元的放電情況，他們發(fā)現(xiàn)這些神經(jīng)元竟然能讀懂統(tǒng)計學(xué)概念上的分布特征：這些學(xué)霸猴只需要很短時間的學(xué)習(xí)，就能分辨出每一種情況下的獎勵頻率是均勻分布，還是正態(tài)分布的，然后做出最大化獎勵的選擇。

研究人員給猴設(shè)計了一個“被動觀看任務(wù)”（passive viewing task），讓猴子在兩種不同的視覺提示（cue）中做選擇。這兩種提示分別對應(yīng)兩種不同概率分布的糖水獎勵，一種為均勻分布，一種為正態(tài)分布。在均勻分布的情況下，猴子喝到0.2ml，0.4ml，0.6ml糖水的概率都是1/3；而在對稱正態(tài)分布下，喝到0.2ml糖水的概率是2/15，0.4ml的概率是11/15，0.6ml的概率是2/15。為了喝到最多的糖水，它們必須從每一次試驗中強(qiáng)化學(xué)習(xí)，掌握每一個提示背后的分布秘密。

- Rothenhoefer et al., Nat Neurosci. -

猴子的表現(xiàn)著實令人震驚。雖然第一次試驗時是隨機(jī)選擇其中一個視覺提示，但很快它們就學(xué)會了選擇糖水更多的那一個。研究者通過標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)模型（standard reinforcement learning model）計算發(fā)現(xiàn)，不論是正態(tài)分布模塊，還是均勻分布模塊，學(xué)霸猴們都有一條剛開始不斷上升（active learning phase）、到后期慢慢接近平臺期的學(xué)習(xí)曲線（asymptotic phase）。有意思的是，學(xué)霸猴學(xué)會正態(tài)分布模塊的時間比學(xué)會均勻分布模塊的更短，表現(xiàn)也更好。不僅如此，如果在正態(tài)分布模塊的早期學(xué)習(xí)階段，猴子遇到概率很小的糖水獎勵時，它的瞳孔大小也會隨之變化，表明此時的學(xué)霸猴更警醒，喚醒水平更高。

那么多巴胺神經(jīng)元在學(xué)習(xí)中的表現(xiàn)如何呢？研究人員在任務(wù)中同時記錄了多巴胺神經(jīng)元的動作電位。他們發(fā)現(xiàn)，如果對學(xué)霸猴來說，兩種選擇得到的糖水期望價值相同的時候（即期望效用相同），多巴胺神經(jīng)元的放電水平在兩種分布下的反應(yīng)強(qiáng)度也是相似的。但如果正態(tài)分布中出現(xiàn)了小概率的0.6ml的糖水獎勵時，多巴胺神經(jīng)元的放電水平則會變得高于在均勻分布中出現(xiàn)同樣多糖水時的放電水平。相反的，如果正態(tài)分布中出現(xiàn)了小概率的0.2ml的糖水獎勵，多巴胺神經(jīng)元的放電水平就會低于均勻分布中同樣是0.2ml糖水時的放電水平。也就是說，多巴胺神經(jīng)元的反應(yīng)在正態(tài)分布中的正反兩個方向都被放大了：糖水出乎意料多的時候，細(xì)胞反應(yīng)更強(qiáng)，出乎意料少的時候，細(xì)胞反應(yīng)更弱。