高被引學者
遴選目的與方法學

每年發佈的科睿唯安《高被引學者》(Highly Cited Researchers™) 名單,旨在遴選全球自然科學和社會科學領域最具影響力的研究人員。2020年11月發佈的名單共包含21個自然科學和社會科學領域的約3900位高被引學者,以及近2500位在多個領域有傑出表現的高被引學者。該名單著眼於近期的研究成果,因而選取了2009-2019年11年間 Web of Science核心合輯 (SCIE, SSCI) 所收錄的自然科學和社會科學期刊中的高被引論文進行分析(高被引論文即在同年度、同學科領域中引文影響力排在前1%的論文)。

該名單的資料來源於科睿唯安的 Essential Science Indicators (ESI) 資料庫,採用 ESI 的21個按照期刊劃分的大學科領域遴選,對於《Science》、《Nature》等交叉學科的期刊,會依據對論文參考文獻的分析,將論文逐一劃分到對應的21個學科領域。高被引論文對同年發表的論文進行相互比較,因此這種基於百分位的篩選方法消除了較早發表論文相對於近期發表論文的引用優勢。

在ESI學科領域中發表高被引論文的研究人員被認為是有影響力的,因此,能夠發表多篇排名前1%的論文也被認為是具有卓越的影響力。這種分析方法比基於多年累計總被引次數的分析方法更可能使相對年輕的研究人員脫穎而出,這也是高被引學者遴選的目的之一:我們希望在識別資深研究人員的同時,也能夠彰顯處於科研生涯早期和中期的研究人員的成果。2020年名單中各領域入選研究人員的數量取決於相關領域研究人員的總量,即2009年到2019年期間,該領域所有高被引論文中(姓名正規化後)的作者數量。各ESI領域在規模上有很大區別:在研究人員數量和高被引論文數量方面,臨床醫學的規模最大,經濟與商業的規模最小。各領域作者總數的平方根決定了需要篩選的人數。

高被引學者遴選的兩個指標之一,是研究人員的高被引論文必須獲得足夠多的被引次數,使其在所屬ESI領域的總被引次數排名位於前1%。符合該領域這一標準的高被引論文作者,會根據其名下的高被引論文數量進行排名。同時也會根據該領域所有高被引論文中經過姓名正規化的作者數量的平方根,來確定進入此名單的閾值。所有發表高被引論文數量超過文章數閾值的作者都可以進入名單,即使最終入選人數超過了平方根計算所得出的數量。

此外,為了彌補僅依據閾值進行遴選的不足,高被引論文數量低於閾值一篇,但其高被引論文的總被引次數能夠使其排在按照閾值標準入選人員前50%的作者,也被列入該名單。科睿唯安的引文分析師們根據分析實踐發現,這一調整方法能夠有效識別有影響力的研究人員。

當然,可能還是會有許多擁有卓越成就和影響力的研究人員,未能通過上述方法被選入2020年高被引學者名單。無論採用什麼方法進行遴選,都可能存在上述現象。每種評估方法或每個系列指標,無論是總被引次數、h-index、相對引文影響力,還是平均百分位等等都強調了不同類型的表現和成就。這裡我們遇到了大眾對此類排名十分期待但通常難以解決的難題:是否有最佳且最完美的績效評估方法?不論是詮釋我們的名單、或是其他頂尖研究者名錄,唯一的合理做法,就是完全瞭解資料和結果背後的方法論,以及為何使用這個方法論。基於此認知,使用者最終可以判斷結果是否與他們的需求或關注點相關。

 

具體方法

用於分析和遴選2020年《高被引學者》的資料來源於ESI資料庫 2009-2019年間的高引用論文。按照ESI學科和出版年,每一篇論文的總被引次數排名位於前1%。

 

Essential Science Indicators

ESI收錄了 Web of Science 中的SCIE和SSCI中的文獻,即科學以及社會科學的期刊文章。此分析進一步限於研究論文 (article) 和評論性文獻 (review),不包括讀者來信、更正通知以及其他文獻類型。

 

分類

在ESI中,所有論文,包括高被引論文被劃分到22個廣泛的領域(第22個領域為多學科領域,見下文)。ESI的每一種期刊都僅被劃分到一個領域,並且在該期刊中出現的論文也同樣被分配到該領域。對於多學科期刊如《科學》(Science)、《自然》(Nature) 等都會對其進行特別的分析。此類出版物中的每篇文章會被單獨評估,包括對參考文獻中引用的期刊領域歸屬進行分析。最後,將該論文重新歸類到其參考文獻中最頻繁出現的領域。

 

最終名單

對於每個ESI領域,通過先進的聚類法對作者姓名進行正規化,計算類聚的個數,每個類聚代表一個單獨的科研人員。計算每個領域裡面類聚(科研人員)的個數的平方根。用這個數字來判斷每個ESI領域上榜研究人員的大概數目。在某一個領域中高被引論文排名的作者名單中,平方根數值的作者的論文數目決定了該領域入選高被引科學家榜單需要發表的高被引論文數的閾值。

如果一個作者發表的高被引論文數低於閾值一篇,但是其被引次數能令其排在按照閾值入選榜單的科研人員的前50%,這些作者也將入選。此外,入選者全部高被引論文的總被引次數必須達到2009年到2019年間ESI作者的總被引次數閾值,即在該ESI領域排名前1%。

範例:

ESI Field First Name Last Name HCPs Citation to HCPs Field Paper Threshold Field Citation Threshold Field Citation Threshold if One Fewer Papers than Threshold Number Status
Field 9 Mary Pandit 17 2838 11 1112 2920 Selected
Field 9 William Clever 10 3677 11 1112 2920 Selected
Field 9 Judith Sage 10 1338 11 1112 2920 Not Selected

 

2018年起新增具有跨領域影響力的研究人員

對過去《高被引學者》名單的爭議在於忽視了對具有跨領域影響的研究者遴選:研究者可能在幾個不同的領域發表多篇高被引論文,但是在任何單個領域均不能達到入選所需要的高被引論文的閾值。我們十分歡迎這些有意義的爭論。因此為了找到與單一領域具有同樣影響的研究者,我們規範了跨領域高被引論文的分值計算,這樣一篇來自臨床醫學與一篇來自農業科學的論文就具有相同的權重。為了達到這個目的,我們根據每個領域的閾值來分別計算高被引論文分值,如此一來,一篇農業科學的論文就比臨床醫學領域的論文得分更高(農業科學領域入選需要發表的論文數閾值低於臨床醫學)。如果,我們收集了一位研究者在所有領域的高被引論文,發現總的論文分值大於等於1,這表明該作者的影響力類似於那些單領域影響力研究者。被引次數使用相同的方法計算,作為篩選的第二個標準。

範例:

ESI Field First Name Last Name Number of HCPs Field Paper Threshold Field Paper Score Citation to HCPs Field Citation Threshold Field Citation Score
Field 3 Joseph Savant 1 22 0.045 98 1857 0.053
Field 6 Joseph Savant 7 8 0.875 2937 946 3.105
Field 14 Joseph Savant 3 6 0.500 663 676 0.981
Field 16 Joseph Savant 4 16 0.250 3397 2223 1.528
Cross-Field Joseph Savant 1.670 5.667

 

2009 – 2019年間,虛構的研究員Joseph Savant 在四個ESI領域發表了15篇高被引論文。在領域6中有七篇論文,領域篩選閾值為8,為Joseph Savant 贏得了0.875(或7/ 8)分。在領域14中有三篇論文,領域篩選閾值為6,得分0.5分。每個領域中的論文分值加在一起能得出1.67的跨領域論文分值。1分及更高的分值表示該研究者的影響力相當於某一特定ESI領域中入選的研究者的影響力。高被引學者的第二個篩選標準是在某一領域的引用量排名前1 %。同樣,不同領域的被引次數以類似於論文的方式進行分類。在上面的例子中,作為一名有影響力的跨領域研究人員,Joseph Savant 獲得了超過五倍的被引次數。

 

例外

上述方法以往適用於除物理和太空科學(天文學和天文物理學)以外的所有ESI學科領域。物理學和太空科學的許多高被引論文會分別涉及高能實驗和大型團隊太空任務,通常有數百個作者。使用此計數方法會生成一份只包括高能物理學家或參與大型太空團隊任務的物理學家的名錄,將其他子領域的物理學家排除在外。因此,我們決定在評選時排除物理和太空科學類別中有多於30個機構地址的論文。這解決了高能物理或太空任務大型團隊的過度加權問題。

近幾年我們注意到超多作者署名的文章數量有增加的趨勢,且不限於物理及太空科學領域。例如在2009-2019的資料中,分子生物學與遺傳學領域有高達5%的高被引論文擁有超過30個機構地址。為了給予每一位作者適當的評比權重,不論是在ESI 的哪一個學科領域,今 (2020) 年的分析中我們排除了有超過30個機構地址的高被引論文。

 

排除

最後,我們在分析高被引論文時排除了撤稿的論文。此外,那些被研究機構、政府機構、基金資助機構或出版商在正式通告中認定有不當科學行為的研究人員也被排除在高被引學者之列。

自2019年起我們開始排除自我引用比例過高的高被引論文作者。我們的專家分析每一個 ESI 學科領域的作者自我引用數統計分佈,針對處在極端離群值的會另外單獨檢視。如欲進一步了解我們如何排除過度自我引用的作者,可參考 Adams, J., Pendlebury, D. and Szomszor, M., “How Much is Too Much? The Difference between Research Influence and Self-Citation Excess,” Scientometrics, 123 (2):1119–1147, May 2020.。