不到 3 天截稿!NeurIPS 2020 新要求提交的「影響陳述」還不會寫怎麼辦?
- 2020 年 6 月 1 日
- AI
今年 2 月份,NeurIPS 組委會發佈了NeurIPS 2020 在提交和評審機制上做出的一些重大更改,其中一項便是要求作者在投稿論文中單獨擬一個「影響陳述」章節來探討他們這項工作將帶來的更廣泛的影響,包括可能帶來的正面或負面的社會影響。
現在離截稿僅剩不到 3 天,還不知道怎麼寫「影響陳述」的同學該怎麼辦?
本文中,分別聚焦於人工智能治理、人工智能倫理以及機器學習的幾位研究人員,就從 NeurIPS 投稿作者的角度,針對如何分析機器學習研究的影響這一問題,提出了相關建議,並給大家呈上了一份「不那麼正式」的撰寫指南。還在為「影響陳述」發愁的同學們,不妨重點參考下幾位研究人員的建議哦~
一、評估機器學習研究的影響的七大建議
隨着機器學習成果應用達到各個領域,其在對社會產生積極影響的同時,也存在着消極影響的隱患。這項舉措,對於評估ML 研究的社會影響而言,至關重要,也是作者本身思考並向其他科學家解釋研究的動機和背景的一個機會。
隨着時間的推移,評估機器學習研究的影響,將能夠增強機器學習研究社區在科技治理方面的專業能力,並有助於建立起研究人員與決策者之間的紐帶。不過,這件事情想要做好,還是困難重重、充滿挑戰性的。
那應該如何對機器學習研究的影響進行評估呢,不妨從以下幾個方面着手考慮:
1、強調研究帶來的益處和風險。
NeurIPS要求「作者應注意討論積極和消極的結果」。系統地這樣評估研究的兩面性,將有助於研究者克服各種偏見,避免個人和機構偏向過度積極或過度消極的評估。畢竟,很少有科學進步是完全積極或者完全消極的,更重要的是,要探討科學進步積極或消極的原因,並且將時態發展引向更積極的方向。
2、強調不確定性。
眾所周知,預測研究尤其是基礎研究的影響,非常困難。我們建議你在陳述中承認你對研究影響的不確定性,與此同時還要體現這種不確定性並不會阻礙你思考其影響。這會讓其他研究者了解到,能夠基於哪些地方做進一步研究,以及如何理解你陳述中的不確定性。
3、聚焦於易於處理、被忽視以及特別重要的影響。
科學研究往往會帶來一系列令人困惑的潛在影響,更多的是因為研究是偏基礎性的,或者考慮的影響是長期的。把所有的影響都考慮在內是不現實的。你可能會特意將評估範圍限制在那些特別易於分析的影響上,例如最明顯的直接影響。但實際上,你可以把重點放在與你的專業知識特別相關的、具有比較優勢的影響上。你可以關注那些容易被忽視的影響。
對於研究人員來說,覆蓋例如視覺系統等可能存在的所有潛在影響,比像其他所有人一樣在同一個細節層次上討論最顯而易見的問題(例如眾所周知的濫用監視系統的風險),會更有成效。你可以關注那些特別重要的影響,比如那些可能破壞或加強民主制度中的公共審議的應用,即便這些影響的推測成分比較大。
4、結合論文簡介。
從論文簡介開始,你可能就談到了研究工作的相關影響。但影響陳述不僅僅是發表一份科學出版物的「附加部分」,而是一個思考如何推進你的進一步研究工作的機會,並為你額外提供了進行這項思考的空間。
5、討論,閱讀,反思。
如果時間允許,吸收他們更廣泛的思考將有益於影響評估。方法有:與同事以及其他有思想的人討論你的研究可能產生的影響;關注相關技術的公開討論;閱讀人工智能和技術相關影響的案例研究;閱讀關於技術治理的相關學術文獻;大膽地問你自己:如果研究項目成功了會怎麼樣呢?
6、即使是理論工作,也要考慮其影響。
NeurIPS 組織者表示,非常理論性或通用性研究的作者可以寫下「不適合討論更廣泛的影響」。然而實際上,理論性工作確實會產生下游影響,因為這畢竟是許多理論性工作的動機,所以我們鼓勵研究人員嘗試更廣泛地思考其研究對相關子領域的影響。
7、建立影響評估的支撐結構。將評估影響融入到你的思考習慣中。
如果你能創建一個研究小組或機構,不妨正式建立影響評估的支撐結構來實現這一點:在小組對話中分配時間,認可並獎勵典範的相關貢獻,或者也可以建立一個由研究員領導的機構審查流程。具體到NeurIPS 2020,雖然要求在6月3日提交的完整論文中包含影響陳述部分,但作者也可以利用截止日期更晚些的補充材料來詳細陳述影響評估。
二、「影響陳述」撰寫指南
在影響評估過程中,你可以先問自己三個問題:
Q1:應用——你的研究人會對ML 應用產生怎樣的影響?
Q2:影響——這些應用會產生怎樣的社會影響?
Q3:舉措——怎樣的研究或舉措能夠提高社會產出?我們先使用影響堆棧架構來分析前兩個問題:
最下面一層是基礎性研究,它能夠為ML 技術的研究注入新的活力。Q1 要問的是,這些研究如何影響 ML 應用;Q2 要問的是,這些應用會由企業或政府等群體帶來哪些現實實踐,會產生哪些社會影響;而 Q3 問的則是如何降低研究的應用風險以及實現收益最大化,例如通過應對規範、政策、研究機構以及選擇最佳實踐來是實現這一點。
下面將系統地探討這些問題。
首先,將你的研究貢獻匹配到影響堆棧架構上,並確定它對於其他各層的主要影響。例如,基準或軟件工具的引入可能加速特定技術(第1層)或應用(第2層)的進展;大腦的神經科學模型可能為模型優化(第0層)或神經網絡架構(第1層)提供思路。
接下來,針對上述三個問題一一展開討論。
Q1:應用——你的研究會對ML 應用產生怎樣的影響?
想一下你的研究如何通過堆棧架構影響到ML 應用,即特定任務的工具或解決方案。這些應用可以是廣義的,如圖像分類,也可以是狹義的,例如唇讀。具體可以從以下幾個方面考量:
-
你的研究對已有應用會帶來什麼影響,以及如何產生影響。例如,你在transformer上的研究成功可能改善各類NLP 應用。
-
你的研究可能會推動哪些新應用的誕生,並解釋清楚如何做到?可能受你研究影響的應用,都有什麼屬性?這是考慮到應用了你的研究思路的ML 應用,可能會跟其他應用有所不同。增加可解釋性、樣本效率和準確性,都會對下游應用產生不同的影響。
-
研究過程中相關的道德考量,比如說使用的數據是否存在隱私或公平性問題。
關於這一問題,可以考慮的因素包括:可解釋性和透明度,性能指標,公平性,數據、存儲以及計算要求,魯棒性和可泛化性,對抗魯棒性(例如數據中毒等),誤差、事故以及失效模式、偏見,反饋迴路,對個人隱私的影響等等。
Q2:影響——這些應用會產生怎樣的社會影響?
基於對Q1的答案 ,你要考慮這些應用走出實驗室後,會帶來哪些社會作用。例如,在訴訟中,一個唇讀工具可以用來轉錄閉路電視錄像作為證據。需要考慮的點有:
-
對於不同實體(企業、政府以及個人)而言可能存在的用途,尤其要考慮到新穎的用處以及惡意的、善意這樣的用途。
-
這些用途造成的社會影響範圍,包括對終端用戶、企業以及政府等各個群體的預期和非預期、短期和長期影響。在考慮潛在風險時,可以考慮事故、惡意使用和結構性風險。
-
確定用途的主要屬性帶來的影響。特別是,需要確定由於失誤或局限性(例如隱私、公平、透明)所帶來的影響。
Q3:舉措——怎樣的研究或舉措能夠提高社會產出?
可以做些什麼來增加研究帶來的正面影響和減少負面影響?不妨從以下幾個方面着手:
-
對ML研究的建議,例如如何讓研究轉變成有益應用、提高對風險的理解或控制技術(比如診斷工具或讓算法更加魯棒的策略)等方面的思路。
-
ML 領域以外的研究建議,如心理學、經濟學、政治學、哲學等。你提到的想法可能會揭示新的技術可能性,對此就需要更多的社會研究來理解其含義,並設計非技術性的控制機制。
-
其他舉措,包括對其他類型的行為體,如公司、決策者、教育者、監管機構和媒體如何應對研究帶來的可能性的建議。
三、案例分析
為了讓大家更具體地了解「影響陳述」該怎麼寫,下面來看三個案例。
1、GNN Explainer —為圖神經網絡生成解釋
這篇論文中,作者介紹了一種為基於圖神經網絡的模型的預測提供解釋的與模型無關的方法:GNN Explainer。
影響陳述:
GNN 可廣泛應用於很多領域,包括計算機視覺、自然語言處理、推薦系統、流量預測、生成模型等。我們的研究可用來為這些應用中使用的 GNN 提供解釋,提高對單個決策以及底層模型的理解。
一般而言,使用GNN 確實會帶來一些比較重要的影響,但在這裡,我們着重討論使用GNN Explainer 為此類系統提供解釋會產生的影響。
使用這種工具有許多好處,例如提高決策關鍵型應用的透明度、降低公平性、隱私和安全風險。不過,增加可解釋性反過來也存在潛在風險,而這一點通常較少受到關注。這些潛在風險包括:1)自動化偏差的風險,即對模型過度信任;2)如果使用解釋意味着系統現在可能被ML專業水平較低的人使用,而這可能會增加模型或其輸出被錯誤使用的風險;3)如果只在發展階段使用解釋,之後又對模型進行再訓練,改變其行為,就可能給人帶來錯誤的「安全感」。
現在,有不少將 GNNExplainer 應用於積極目的的研究,例如研究 GNNExplainer 是否能夠提高算法公平。為了降低使用其生成的解釋的風險,我們建議研究人員了解在特定真實場景中使用GNNExplainer帶來的影響,比方說,在這些場景中,使用者是否了解其給出的解釋並做出相應行為而不至於淪為自動化偏見的犧牲品?隨着時間的推移,使用這些系統是否能增加或減少人類的領域專業知識。
2、SuperGLUE —NLP 基準
在這篇論文中,研究者介紹了一個面向 通用語言理解系統的基準——SuperGLUE。
影響陳述:
我們提出的新基準,將有助於加速NLP 應用的發展進程,與此同時還能像GLUE一樣,推動通用語言系統的開發。這些語言系統可以完成一系列任務,包括從問答、情感分析到詩歌乃至角色扮演遊戲等等。
在此基準的支持和推動下,NLP 系統將有助於實現技術的廣泛應用,包括客戶服務、服務台、零售和銷售、醫療服務、金融和法律服務以及營銷。
這些應用都有可能產生廣泛的社會影響:服務台使用對話系統代替人工,可以節省成本並消除重複性勞動,不過另一方面也可能導致人類失業;搭載於智能家庭設備中的個人語音助理,可以增加老年人行為上的自主性,但也可能會帶來一些關於加強性別模式、收集個人數據以及黑客攻佔私人信息風險的問題。特別需要注意的是,NLP 模型很可能被一些人惡意利用,來傳播錯誤信息或營造不信任、不確定的信息環境(GPT-2發佈之初也引發了相關問題的討論)。
另外也有一些與基準本身相關的重要考量因素。任何被廣泛使用的基準,都有可能在某個方面「扭曲」研究本身。例如,我們的這一基準可能會偏向於在英文語言上表現較好的方法的研究,此外在有偏數據上訓練出來的模型,可能會延續這些數據固有的偏見,比如說性別偏見。為了降低這一風險,我們的基準內嵌了Winogender這一分析工具,來說明模型是否體現出了性別偏見。
我們將開展進一步的研究工作,來理解 SuperGLUE 中使用的數據集的偏見和局限性。我們也提倡其他基準也應採取相關舉措,包括使用檢測性別偏見和其他局限性的分析工具。與此同時,我們也鼓勵研究人員開發用於有益任務的NLP 系統,例如基於文本的諮詢系統。
我們認為,社區也有必要開展理解和減輕NLP 應用中風險的研究。比如針對機器生成錯誤信息的問題,此前一個解決方法是開發檢測系統來檢測錯誤,然而,隨着NLP 技術的改進,這些檢測系統的有效性會逐漸降低。因而,我們建議研究人員和政策制定者尋找方法,來利用平台來檢測和阻止惡意內容的傳播,而不是機器生成的內容。
3、Pluribus — 在多人撲克比賽中戰勝人類的AI
在這篇論文中,作者介紹了一個在6人德州撲克比賽中打敗了頂級職業人類玩家的系統——Pluribus。
影響陳述:
對於撲克遊戲系統的影響,我們認為應該主要聚焦於開發隱藏信息設置中的策略能力帶來的長期影響。這樣的能力能夠應用於廣泛的場景,例如拍賣、匹配、日程安排、定價以及網絡安全等。
隨着隱藏信息策略遊戲中參與者在技能方面的不斷優化,可能會對福利產生複合效應,這取決於這些能力的分佈方式和策略設置的特徵。例如在撲克遊戲中,當設置接近零和時,技能的任何變化只可能會將價值轉移到那些技能提高得更多的一方身上。如果富人能夠獲得更多的技能,就有可能促進財富的集中。如果設置為帕累托改進(Pareto Improvement) ,在貿易談判等場景中,可能會增加總福利。也就是說,最終這項技術能給社會帶來有害或者有益的影響,取決於動機不良或動機純良的公民誰能夠利用好這項技術進步。
我們建議社會科學和機器學習領域的研究人員嘗試研究如下問題:
-
從這項研究和相關研究中獲得的思路,可以應用到其他哪些應用中?
-
如果這一系列研究確實提高了特定領域的策略能力,那麼這些能力將如何分佈?
-
如果這些能力分佈不均,總體福利效果如何?如果這些能力均勻分佈呢?
其他參考資料:
1、關於 AI 倫理和治理的相關資料,可參考
-
The Ethics and Governance of Artificial Intelligence,//blogs.harvard.edu/jzwrites/files/2017/07/1_19_Ethics-and-Governance-of-AI-Syllabus.pdf
-
The ethics of artificial intelligence: Issues and initiatives,//www.europarl.europa.eu/RegData/etudes/STUD/2020/634452/EPRS_STU(2020)634452_EN.pdf
-
AI Governance: A Research Agenda,//www.fhi.ox.ac.uk/wp-content/uploads/GovAI-Agenda.pdf
2、關於撰寫 NeurIPS「影響陳述」的相關資料:
-
NeurIPS官網,//neurips.cc/Conferences/2020/PaperInformation/NeurIPS-FAQ
-
Suggestions for Writing NeurIPS 2020 Broader Impacts Statements,//medium.com/@BrentH/suggestions-for-writing-neurips-2020-broader-impacts-statements-121da1b765bf
3、計算領域的影響陳述相關資料:
-
It』s Time to Do Something: Mitigating the Negative Impacts of Computing Through a Change to the Peer Review Process,//www.brenthecht.com/papers/FCADIscussions_NegativeImpactsPost_032918.pdf
4、實現負責任研究的一些工具資源:
-
A Framework for Responsible Innovation,//onlinelibrary.wiley.com/doi/10.1002/9781118551424.ch2
-
RRI,//www.rri-tools.eu/about-rri 雷鋒網 雷鋒網 雷鋒網
via //medium.com/@operations_18894/a-guide-to-writing-the-neurips-impact-statement-4293b723f832