一周內容精選 | 熱門雙語圖文(12.21-12.25)
1.《Kaggle 2020年度調查:65.9%的數據科學家不到35歲,多數程式碼經驗不足10年》譯者:聽風1996
基於20,036名Kaggle會員的回饋結果,Kaggle官方創建了這份報告,重點關注其中大約13%的數據科學家(2,675名受訪者)。對於數據科學家群體來說,存在嚴重的性別不平衡,大多數人為男性。 絕大多數數據科學家不到35歲,超過一半的數據科學家擁有研究生學位。而有關教育與就業方面,除正規教育之外他們還繼續保持學習……
2.《發現和綜述醫療 / 科學最新論文,快看看這個開源神器 paperai !》譯者:Y.Wen、Born alone°
為了讓研究人員聚焦自己的核心工作, paperai 可以自動執行繁瑣的文獻綜述工作。該工具運行 query 篩選出符合特定標準的論文,並執行基於問答提取技術的 report 功能,從一組醫療 / 科學論文中找出關鍵問題的答案。
3.《與 Python 相比,C++速度有多快?》譯者:ss3b3、成語風、Born alone°
Python與C語言有什麼區別? 本文將通過一個簡單的示例向您展示C ++與Python相比有多快。這個例子和成千上萬的其他挑戰表明,即使數據科學家正在處理大量呈指數型增長的數據,也應該了解C ++之類的語言。
4.《機器學習類面試問題與思路總結,怎麼回答才能讓面試官滿意?》譯者:瑪瑞•阿拉貝
機器學習有幾種類型並且對它們進行簡要說明? 給我舉個監督學習的例子,再舉一個無監督學習的例子?你搭建了一個深度學習模型,訓練時你發現在一定數量的epoch後精度下降了。發生了什麼問題?如何修正它? ……這份清單涵蓋了面試中的常見問題,希望能幫助你拿下offer,到底怎麼回答問題會更加有專業性呢?
5.《文本識別系統是怎麼「看」的 》譯者:低調貓熊
文本識別系統的神經網路「黑盒子」里發生了什麼 ?文本識別系統學習任何有助於提高它所訓練的數據集的準確性的東西。如果一些隨機的像素有助於識別正確的類,那麼系統就會使用它們。如果系統只需要處理左對齊的文本,那麼它將不會學習任何其他類型的對齊。我們必須提供不同的數據(例如混合多個數據集或使用數據增強),以確保系統真正學習文本特徵,而不只是一些作弊。
6.《DistilBERT微調多標籤文本分類》譯者:低調貓熊
多類別分類是指將樣本分為三個或多個可用類別中的一個。假設我們有10個水果。它們可以分屬於「蘋果」、「芒果」和「香蕉」這三類。如果我們被要求對這些特定類別的水果進行分類,它們只能屬於這些類別中的一個。因此,這是一個多類分類問題。 在這篇文章中,我將解釋如何調整多標籤文本分類任務的DistilBERT。


