arXiv創立三十周年之際,創始人在Nature發文:arXiv是資訊共享的先鋒

  • 2021 年 8 月 17 日
  • AI

AI科技評論報道

編譯 | 王曄

此文章於8月4日發表在nature reviews physics期刊,作者為arXiv的創立者Paul Ginsparg。該文講述了arXiv三十年的發展變化,從創立初期便為社會資訊共享作出了巨大貢獻,在社會共享資訊方面積累的大量經驗。arXiv作為巨大的資訊資源庫,為公眾和研究團隊提供了公平的資訊競爭環境。

自30年前arXiv創立,社會資訊傳播模式發生了巨大的變化——並不總是向好發展。arXiv創立者Paul Ginsparg討論了電子預印本的學術經驗是怎樣為更加廣泛的資訊共享提供參考的。

三十年前,arXiv創立之時,許多人都對互聯網的潛力持樂觀態度,認為它可以培養了解更多資訊的公民,並創造公平的資訊競爭環境。在arXiv這樣的新平台上,學術界引領了這一潮流。但是現在,這些最初的理想似乎難以實現,政治上的兩極分化因資訊「回聲室效應」而加劇,甚至對什麼是客觀證據也不再達成共識。在如此危急情況之下,也許我們學術界可以重拾30年前的領先地位,通過展示如何負責任地、有成效地分享資訊,重燃新的希望。


1

更為簡約的品質控制的興起

在其早期,arXiv實施了衛生和內容相關形式的品質控制,後者隨著arXiv對公眾透明度的增加而變得越來越重要(更多關於arXiv的歷史見下文)。這裡的 “衛生 “指的是淺層次的——文本應該可以提取;參考文獻、作者和摘要應該包括在內;不應該有分散注意力的行號或水印,等等——可以直接自動進行檢測。在內容方面,arXiv早期實施了一種最低標準的品質控制,僱用了一批活躍的科學家,對收到的稿件(通常只根據標題和摘要)進行掃描,並迅速判斷它是否對目標研究群體有合理的興趣。這種監督是為了保護讀者不受離題內容的影響,並保持與最低學術標準的一致性。它還預見到一直存在的風險,即邪惡分子的行為不一定符合社會的最佳利益,這種風險在後來的幾年裡或許沒有得到社交媒體公司的足夠重視——見證了自由流通的虛假資訊所帶來的高風險的社會損失。


2

arXiv的三十年
arXiv創立於1991年的純印刷時代。始於美國洛斯阿拉莫斯國家實驗室,在1998年之前被稱為xxx.lanl.gov,目的是通過提供平等的時間來獲取最新科研成果,從而為全球研究提供公平的競爭環境。在萬維網出現之前,當時的出版商和圖書館員對任何短期內向數字內容的過渡都持懷疑態度。在20世紀90年代初,arXiv作為一個自動資料庫發揮了先鋒作用,第一個實現了使用文章摘要登陸網頁,並與相關資源鏈接,包括全文附註和pdf。arXiv在開放存取運動中也優先發揮了作用,催化了PubMedCentral等資源、PLoS等出版商以及後來其他預印本伺服器,包括bioRxiv和medRxiv。

十年後,arXiv需要一個合適的機構,以繼續其從短期的軟體實驗過渡到更長期的可持續服務。在學術交流領域,傳統的參與者是機構圖書館和專業協會。2001年,我選擇了進入康奈爾大學圖書館(1981年在此獲得物理學博士學位),理由是圖書館不會與自己的期刊出版業務有潛在的利益衝突。儘管是出發點是好的,但隨著時間的推移,這種配合變得越來越糟糕。大學圖書館的主要任務是為其內部社區提供由他人認證的內容,而arXiv的職權範圍是向全球研究人員社區傳播有時難以辨別出處的資料。

2019年,康奈爾大學內部對arXiv的監督從圖書館轉移到了電腦和資訊科學,但長期規劃受到了大流行病相關問題的阻礙。也許arXiv會在康奈爾內部找到一些新的平衡點,也許專業協會會利用自己的出版經驗,幫助創建一個更加分散和可持續的長期資源。arXiv仍然是許多全球研究社區的主要研究交流模式,提供了必不可少的基礎設施。每天的提交率正在迅速增長(見圖;主題由arxiv.org上使用的標準縮寫標明),預計2021年的新文章總數約為19萬篇。不管arXiv未來的具體情況如何,預印本的傳播不再是異端,目前傳播量增加的趨勢不太可能逆轉。

3

24小時的AI審查
但是,arXiv的運作方式是無情的每日周轉, 所以近年來,我創建的自動機器學習框架對人工審核進行了補充,以標記和保留有潛在問題的提交材料,以便進行額外的人工審查。自動程式不會休假、生病、分心或繁忙,並能在幾毫秒內全面評估全文內容,包括對照整個後台資料庫檢查每份新提交的文件是否有重複或過多的文字重疊。現在,大部分的內部人力都被用於調解和裁決各種人類和機器人的規模性疏忽。

4

從健康隱患到救命稻草
儘管早期有人懷疑預印本的分發會與高能物理學以外的領域有關,但它是在使用量激增的催化下,持續向新領域發展的。例如,2001年對二硼化鎂超導體的關注,以及後來從2008年開始對鎳鐵超導體的關注,導致相關的實驗團體使用arXiv來報告突破性的結果並提出先例。最近,機器學習界在2015年左右大規模地採用了arXiv。這些研究人員仍然是忠實的用戶;到目前為止,沒有一個採用arXiv進行快速傳播的社區後來放棄了使用。

但是,與更廣泛的社會中的資訊共享問題最相關的預印本使用量的飆升是由COVID-19大流行引發的bioRxiv和medRxiv的增長。這些預印本伺服器在大流行的第一年就容納了超過10,000篇文章(bioRxiv的數據;medRxiv的數據),這種增長很可能成為其他研究領域的一個轉折點。回顧1995年《新英格蘭醫學雜誌》關於預印本的一篇社論,它表達了合理的公共衛生關切,因為 “互聯網上關於健康問題的許多資訊,如藥物的風險和各種食物對健康的影響,都是不確定的來源 “。儘管近期似乎加強了對其的關注,但我想說,迄今為止多種證據表明,開放預印本的分發並不是當前問題的根源,而且在許多情況下可以幫助緩解這些問題。

與COVID-19有關的向bioRxiv和medRxiv提交的材料並沒有造成重大的公共衛生危害(儘管可以肯定的是這些資源比arXiv受到了更嚴格的審查 )。相反,最嚴重的非法者反而發表在傳統的參考文獻中。其中包括一篇頌揚羥氯喹優點的文章(其出版商發布了一封關注信,但沒有撤回),以及其他基於捏造數據的研究,這些研究很快被《柳葉刀》和《新英格蘭醫學雜誌》撤回。也許這些雜誌和其他雜誌的編輯會因為在出版前看到更多的專家公開評論而受到啟發:迄今為止,已經有超過120篇經同行評審的COVID-19文章被撤回或撤銷。相比之下,一項以預印本形式發布的COVID-19研究,高估了先前的感染率,並很快被媒體報道,專家們很快說明了其統計學上的缺陷。一份預印本報告了關於藥物地塞米松的嚴格臨床研究的結果,導致該研究在作為期刊出版物出現之前的半年內被使用,可能挽救了許多生命。而正是這篇預印本對實際的健康危害進行了反擊,糾正了長期以來假定的(落下的)飛沫和(空中的)氣溶膠之間的5微米界限背後的錯誤觀念,並表明需要對COVID-19傳播的健康預防措施進行更有效的修訂。


5

窺探未來
我並不是說預印本的發行是解決同行評議期刊出版延誤和偏見的良方,而是說在適當的情況下,其利遠大於弊。記者在提到預印本伺服器上的文章時,經常會加上 “尚未審查 “的警告語,並且通常會諮詢專家以核實事實,避免誤導公眾。儘管並非所有的數字媒體都對COVID-19預印本進行了必要的限定,但肯定有可能對 “正在審查 “的某些表述進行標準化處理,以表達不確定性。如果我們確實不可避免地要在更多領域公開傳播預印本,那麼所有參與者——研究人員、同行評議的期刊和大眾媒體——都需要接受這一趨勢,並設計各種方法,讓研究人員更好地了解情況,讓普通公眾少受誤導。
原文鏈接://www.nature.com/articles/s42254-021-00360-z

雷鋒網雷鋒網雷鋒網