《科學》雜志主編：“對影響因子的狂熱沒有任何意義”

2021-09-23 07:36

來源：澎湃新聞·澎湃號·湃客

近年來，科研評價改革呼聲越來越高，但成效一直并不明顯。政府和科研管理人員仍然希望運用定量指標來評價一切，包括對普通教師、教授、課程、科研項目和大學的評價。

國際知名科技政策專家伊夫斯·金格拉斯的批判性著作《大學的新衣：對基于文獻計量學的科研評價的反思》，圍繞文獻計量方法展開了熱烈的討論，通過聚焦評價的基本問題及其對科研的影響，厘清科研評價中很多似是而非的概念，幫助評價者和被評價者更合理地理解和使用目前在新興的科研評價市場上盛行的排名“黑匣子”里的許多指標；同時也探究了大學急于讓無效指標影響其科研戰(zhàn)略的緣由，提出問題：盡管大多數(shù)的大學領(lǐng)導(dǎo)者、聰明的學者、有經(jīng)驗的管理人員認為排名并不具有科學價值，但他們?nèi)匀皇褂门琶麨槠錂C構(gòu)做宣傳并應(yīng)用于資源投入、教師聘任和晉升等重要戰(zhàn)略決策，是否是在重演“皇帝的新衣”這個古老的故事？

大學排名是“皇帝的新衣”嗎？定量指標可以評價一切嗎？什么才是有效的科研評價標準？如何評判指標是否有效？本書探討基于文獻計量學的科研評價如何被濫用，及其如何影響大學及教師發(fā)展，解答上述疑問。

期刊影響因子

為何要精確到小數(shù)點后三位？

文 | 伊夫斯·金格拉斯

來源 | 《大學的新衣：對基于文獻計量學的科研評價的反思》

在科研評價中使用引文數(shù)據(jù)帶來的最大問題可能是反映期刊引文影響力的指標被用來評價論文的水平?？茖W期刊已經(jīng)成為一個非常有利可圖且競爭激烈的市場。期刊使用影響因子作為推廣工具，說服作者提交他們水平最高的論文，并向圖書館出售訂閱服務(wù)。20世紀90年代末以來，影響因子不僅被視為衡量期刊質(zhì)量的指標，而且還被誤認為是衡量論文質(zhì)量的標準。但是，對影響因子的日益關(guān)注導(dǎo)致了一種丑陋的行為，即試圖干擾科學家的引用行為來提高期刊影響因子。要理解一個簡單的指標是如何導(dǎo)致了這種極端行為，首先要回顧一下期刊影響因子的發(fā)明。

作者伊夫斯·金格拉斯，圖片來源：來自蒙特利爾魁北克大學官網(wǎng)

期刊影響因子的起源

1975年以來，湯森路透每年根據(jù)WoS的數(shù)據(jù)發(fā)布《期刊引證報告》(Journal CitationReports)，期刊在某一年度的影響因子(IF)是某期刊前兩年發(fā)表的論文于該年度獲得的總被引頻次除以該期刊在這兩年內(nèi)發(fā)表的論文總數(shù)。因此，影響因子用來表征期刊，而不是論文。例如，某一期刊2006年度的影響因子是該期刊在2004年和2005年發(fā)表的所有論文在2006年的總被引頻次除以該期刊這兩年發(fā)表的論文總數(shù)。

當然，選擇兩年的短時間窗口來評價影響力有可能會產(chǎn)生不良后果。毫無疑問，它會給自然科學期刊帶來高影響因子，而給社會科學期刊帶來低影響因子。這種差別在很大程度上是由所選擇的時間窗口導(dǎo)致的，因為社會科學研究通常比自然和生物醫(yī)學研究的周期長。因此，將引用的時間窗口延長到10年，才能使社會科學期刊的影響因子與自然科學影響因子一樣具有可比性。例如，1980年醫(yī)學期刊《柳葉刀》(The Lancet)近兩年論文的篇均被引頻次是2.4，而《美國社會學評論》(AmericanSociological Review)則為1.8。然而，引用的時間窗延長到10年，結(jié)果卻截然相反：社會學期刊(20.9)的篇均被引頻次大大超過了醫(yī)學期刊(14.0)。很明顯，不同領(lǐng)域的期刊影響因子是不可比的，對同一研究領(lǐng)域的期刊進行比較時，這些數(shù)值才有意義。

影響因子的另一個重要特征是包括自引(self-citations)，即在一本期刊獲得的總被引頻次中，包括了期刊自身的引用。盡管這一問題可以追溯到20世紀70年代該指標的創(chuàng)建時期，但是直到20世紀90年代才成為一個問題。在這一時期，影響因子成為期刊之間相互競爭的重要工具，并開始被用作衡量科研人員論文質(zhì)量的指標。影響因子的戰(zhàn)略重要性導(dǎo)致期刊編輯和出版商要求作者引用更多自己期刊中的論文作為論文錄用的隱性條件。根據(jù)定義，期刊自引的增加有提高影響因子的作用，即使在其他期刊的引用(一種更好的顯示度指標)不變甚至減少的情況下。這種給作者造成的過度壓力始于20世紀90年代的后半期，此后一直備受爭議。

自引與影響因子的關(guān)系

在一定程度上，這個問題是技術(shù)性的。既然可以排除自引重新定義影響因子，并使操縱指數(shù)變得更加困難，那么將需要形成一個期刊交互引用的聯(lián)盟。正如接下來將看到的，盡管令人驚訝，但是一些期刊似乎已經(jīng)邁出了這一步。雖然《期刊引證報告》仍基于最初的定義(包括自引)來計算影響因子的常用值，但已經(jīng)調(diào)整了結(jié)果，將這些可能的行為考慮在內(nèi)，并且還發(fā)布了排除期刊自引后得到的影響因子。此外，還計算了期刊的自引比例，為測量外部顯示度提供了一個有用的指標。

盡管一些期刊編輯要求作者更多引用該期刊已發(fā)表的論文，但這一現(xiàn)象并不應(yīng)該讓期刊自引“妖魔化”，實際上這是正常的表現(xiàn)。事實上，在同一本期刊上發(fā)表的論文因其研究對象或主題具有某種相關(guān)性，繼而相互引用，這是完全合理的。期刊通常服務(wù)于一個有限的、專業(yè)的學術(shù)團體。以數(shù)學上的紐結(jié)理論為例，這一研究領(lǐng)域的專門期刊并不多，事實上只有一本期刊，即《紐結(jié)理論及其分支》(The Journal ofKnot Theory and Its Ramifications)。盡管其他綜合類期刊也接收相關(guān)主題的論文，但那些從事紐結(jié)理論研究的專家們都想要在該期刊上發(fā)表論文。

去除自引對期刊的影響因子會有什么影響呢？很顯然是影響因子變小了。參考2009年的《期刊引證報告》，可以發(fā)現(xiàn)《紐結(jié)理論及其分支》的影響因子是0.523，但去除自引后，這個數(shù)字下降到0.311，自引占40％。但這真的改變了什么嗎？事實上，影響因子在期刊評價中不應(yīng)該有任何重要性，因為很明顯只有專業(yè)從事紐結(jié)理論研究的人才知道這本期刊的好壞。如果另一本影響因子是0.822的數(shù)學期刊只發(fā)表了幾篇關(guān)于紐結(jié)理論的論文，那也并不意味著這本數(shù)學期刊的質(zhì)量更高，因為在其他條件相同的情況下，影響因子取決于研究領(lǐng)域的大小。如果從事X主題研究的只有100人，那么與從事同一主題研究的科研人員多10倍的情況相比，總是會獲得更少的引用(假設(shè)參考文獻是常量)。因此，對于一些特殊專業(yè)的領(lǐng)域，自引比例很高并不奇怪。

期刊黑名單

然而，一些期刊似乎存在異常的引用水平。由于擔心操縱影響因子的爭議影響產(chǎn)品的價值，湯森路透介入了這場爭論，并于2007年創(chuàng)建了一份期刊黑名單，羅列了涉嫌操縱影響因子的期刊。為了遏制操縱行為，一旦認定影響因子被操縱，湯森路透便不會再公布該期刊的影響因子。2007年就有9本期刊受到懲罰。這種監(jiān)測還包括對期刊之間的交互引用(citationexchanges)行為的監(jiān)測。這種行為更難辨別，但湯森路透已經(jīng)開發(fā)出可以監(jiān)測的軟件。因此，在2013年的《期刊引證報告》中，有37本期刊被列入黑名單，其中14本是由于交互引用。而2012年，只有3本期刊屬于這一類。在重新評價之前，這些違規(guī)期刊將被列入黑名單兩年。應(yīng)該指出的是，這些違規(guī)期刊在WoS所有期刊中的占比不到1％。

就像發(fā)表壓力帶來了學術(shù)欺詐行為一樣，過分強調(diào)影響因子也加劇了期刊編輯的違規(guī)行為。2013年夏天，巴西醫(yī)學期刊《診所》(Clinics)的編輯因試圖通過加入引用聯(lián)盟來最大化其期刊的引文數(shù)量而被解雇。這種違規(guī)行為是政府政策可預(yù)見的負面影響導(dǎo)致的，因為巴西政府頒布了一項政策，要求根據(jù)學生論文發(fā)表期刊的影響因子來評價研究生的課程質(zhì)量。

巴西的期刊編輯們批評這種簡單化的評價制度，并要求對其進行修正。對于一本全國性期刊來說，為尋求最大限度地擴大其所發(fā)表論文的顯示度，要求作者引用本國的相關(guān)論文而不是只參考國外的研究成果，這可能確實是無可厚非的。因此，如果不將影響因子轉(zhuǎn)化為科研人員的評價標準，這些操縱影響因子的行為并沒有任何重要意義，也不會被視作違規(guī)行為。

無論如何計算，影響因子仍然是與期刊相關(guān)的一個評價標準，但是與期刊發(fā)表的論文沒有關(guān)系。這一指標用來評價個體科研人員的論文價值也是有缺陷的，其根本原因在于：一本期刊上發(fā)表的論文獲得的實際引用分布遵循與阿爾弗雷德·洛特卡定律類似的冪定律，這就意味著大多數(shù)論文實際上很少被引用。只有少數(shù)論文被頻繁引用，它們提升了影響因子的價值。對于這類分布，平均值并不能很好地反映中心趨勢，這只適用于所謂的正態(tài)分布和鐘形分布。

“對影響因子的狂熱沒有任何意義”

簡言之，一篇發(fā)表在高影響因子期刊上的論文可能實際上從未被引用過。如果想要評價一篇論文的質(zhì)量或顯示度，那么就要看它發(fā)表后的幾年里實際的被引情況。當然，這需要時間，但那些喜歡“簡單快速”的評價方法的人不愿意等上3～5年。所以，他們使用期刊的影響因子評價論文的質(zhì)量和影響，即使這樣的測量是完全不合適的。正如我們在后文中將看到的，以所謂的“補充計量學運動”(altmetricsmovement)為基礎(chǔ)的評價同樣也缺乏耐心。

事實上，20世紀90年代中期以來，文獻計量學的專家們一直呼吁警惕使用影響因子評價個體科研人員的荒謬性，但這并沒有阻止決策者以及許多被認為理性的科學家組成的評價委員會對影響因子的不當使用。許多國家（如巴基斯坦、韓國和日本）的政府官員和研究機構(gòu)，甚至建立了直接以期刊影響因子為基礎(chǔ)的經(jīng)濟激勵措施。根據(jù)2006年《自然》的一項研究，巴基斯坦科學部（PakistanMinistry of Science）通過計算科研人員年度發(fā)表論文影響因子的總和，設(shè)立了1千美元到2萬美元不等的獎金。中國科學院北京生物物理研究所當時也建立了一項類似的制度：影響因子在3到5之間，每分250美元；如果影響因子超過10，每分875美元。在這種背景下，一些科研人員被懷疑為了在某些頂級期刊上發(fā)表論文而操縱同行評價。于是這些頂級期刊的編輯們以欺騙性的同行評價為由撤回了他們的論文。

同期，《自然》的一篇社論譴責了這種關(guān)于影響因子的無稽之談。2013年，《科學》的主編布魯斯·艾伯茨（Bruce Alberts）重申，“對影響因子的狂熱沒有任何意義”。大約在同一時期，400多家科學組織和一萬多位科研人員簽署了“舊金山科研評價宣言”(San FranciscoDeclaration on Research Assessment)，宣言堅稱影響因子不應(yīng)被用作替代工具來評價個體科研人員的論文質(zhì)量，也不應(yīng)用于聘用、晉升、資助及以某種方式評價個體科學家。

無論人們?nèi)绾慰创秊榭蒲腥藛T提供的獎勵，真正的問題是評價過程中使用了有缺陷的指標。最好的數(shù)學期刊的影響因子等同于最好的醫(yī)學期刊，這是不可能的。任何理智的人都不會簡單地根據(jù)論文發(fā)表期刊的影響因子給予醫(yī)學論文作者更高的獎勵。

最后，值得注意的是期刊影響因子被精確到小數(shù)點后三位！在科學中，我們認為很少有自然現(xiàn)象可以精確到這種程度。例如，有誰想知道溫度是20.233攝氏度嗎？一個突出的問題是，為什么不將影響因子限制為整數(shù)：1、2、3……20、21……呢？顯然，基于影響因子的各種排名將會因此喪失他們的大部分價值。經(jīng)濟學家們特別喜歡用影響因子對他們的期刊進行排名。

以2011年WoS中經(jīng)濟學期刊及其影響因子的列表為例，使用精確到小數(shù)點后三位的影響因子來對這256本期刊進行排名。很明顯，很少出現(xiàn)排名并列的情況，只有3本期刊的影響因子同為1.000，2本同為0.757，3本同為0.743。將這些期刊排在22到24名之間，好像它們是不同的?，F(xiàn)在，由于沒有人能準確說這些小數(shù)有任何真正的意義，讓我們看一下把影響因子精確到個位數(shù)的排名情況。于是，我們看到：脫穎而出的只有兩本期刊——《經(jīng)濟文獻雜志》(Journal ofEconomic Literature)和《經(jīng)濟學季刊》(Quarterly Journal ofEconomics)，影響因子分別為9和6；兩本期刊影響因子同為4；12本期刊影響因子同為3；1/3的期刊影響因子同為2；118本期刊的影響因子同為1。總之，這些相同影響因子的群體并不能真正被區(qū)分，多增加一個小數(shù)位數(shù)只是一種創(chuàng)建不同排名的方法。經(jīng)濟學家可能會告訴我們，小數(shù)點后保留一位就可以了。但仍有4本期刊的影響因子為2.7(排在11～14)，18本與《世界銀行經(jīng)濟評論》(World BankEconomic Review)在同一組，影響因子為1.1(排在70～83)?？梢姡摷俚木_性掩蓋了其根本上的不準確性。

基本上，濫用排名和表面看似精確的指標說明對所用指標的屬性一無所知。我不必在這里贅述使用這些有缺陷指標帶來的負面效應(yīng)。沒有人相信這種系統(tǒng)是合理的，所以就不必討論這種系統(tǒng)是否公平公正了。只有那些從不合適的獎勵制度中獲益的機會主義研究者以及利用影響因子來達到某種評價目的的期刊編輯們可能會相信(無論如何都假裝相信)。

2014年“自然指數(shù)”(Nature Index)的出現(xiàn)為研發(fā)排名搶占出版市場提供了一個有趣的案例，該指數(shù)根據(jù)他們定義的“高質(zhì)量科學期刊”的論文數(shù)來對國家和機構(gòu)排名。與評價市場上其他排名不同，它隸屬于麥克米蘭(Macmillan)的自然出版集團(NaturePublishing Group)，現(xiàn)在與最大的科學期刊出版商之一的施普林格(Springer)合并?！白匀恢笖?shù)”以68本期刊為基礎(chǔ)，包括自然出版集團旗下的17本期刊(25％)，據(jù)說這個排名提供了一個“基于已發(fā)表的、高質(zhì)量論文的視角”，“為機構(gòu)提供了一個簡單的方法來識別和突出他們最好的科學研究”。

很明顯從表面上看，這樣的排名意味著機構(gòu)應(yīng)該給科研人員施加壓力，讓他們向這些期刊投稿，而不是把論文投到其他期刊。這個新排名的依據(jù)不是引文，也不是影響因子，而是論文數(shù)量。實質(zhì)上，它以同樣的方式定義了高質(zhì)量的科學研究，即在其認定的68本期刊上發(fā)表論文。即使像數(shù)學這樣的重要學科并沒有在“抽樣”的68本期刊中，但是自然指數(shù)發(fā)布幾年后，可能會有些機構(gòu)將簡單地把排名結(jié)果解讀為表征高質(zhì)量科學研究的一個“黑匣子”，并調(diào)整其行為以提升在排名中的名次。這一做法從根本上對指數(shù)研發(fā)團隊及相關(guān)期刊是有利的。然而，與影響因子的情況一樣，自然指數(shù)的根本缺陷在于，它是以特定期刊作為衡量論文質(zhì)量的標準，而不是看論文本身及它是否得到真正引用。根據(jù)洛特卡分布規(guī)律，在上文提及的68本期刊中發(fā)表論文并不能證明科學共同體認為其是有用或有趣的。

THE END