一周内容精选 | 热门双语图文(12.21-12.25)

1.《Kaggle 2020年度调查:65.9%的数据科学家不到35岁,多数代码经验不足10年》译者:听风1996

基于20,036名Kaggle会员的反馈结果,Kaggle官方创建了这份报告,重点关注其中大约13%的数据科学家(2,675名受访者)。对于数据科学家群体来说,存在严重的性别不平衡,大多数人为男性。 绝大多数数据科学家不到35岁,超过一半的数据科学家拥有研究生学位。而有关教育与就业方面,除正规教育之外他们还继续保持学习……

2.《发现和综述医疗 / 科学最新论文,快看看这个开源神器 paperai !》译者:Y.Wen、Born alone°

为了让研究人员聚焦自己的核心工作, paperai 可以自动执行繁琐的文献综述工作。该工具运行 query 筛选出符合特定标准的论文,并执行基于问答提取技术的 report 功能,从一组医疗 / 科学论文中找出关键问题的答案。 

3.《与 Python 相比,C++速度有多快?》译者:ss3b3、成语风、Born alone°

Python与C语言有什么区别? 本文将通过一个简单的示例向您展示C ++与Python相比有多快。这个例子和成千上万的其他挑战表明,即使数据科学家正在处理大量呈指数型增长的数据,也应该了解C ++之类的语言。 

4.《机器学习类面试问题与思路总结,怎么回答才能让面试官满意?》译者:玛瑞•阿拉贝

机器学习有几种类型并且对它们进行简要说明? 给我举个监督学习的例子,再举一个无监督学习的例子?你搭建了一个深度学习模型,训练时你发现在一定数量的epoch后精度下降了。发生了什么问题?如何修正它?  ……这份清单涵盖了面试中的常见问题,希望能帮助你拿下offer,到底怎么回答问题会更加有专业性呢?

5.《文本识别系统是怎么“看”的 》译者:低调猫熊

文本识别系统的神经网络“黑盒子”里发生了什么 ?文本识别系统学习任何有助于提高它所训练的数据集的准确性的东西。如果一些随机的像素有助于识别正确的类,那么系统就会使用它们。如果系统只需要处理左对齐的文本,那么它将不会学习任何其他类型的对齐。我们必须提供不同的数据(例如混合多个数据集或使用数据增强),以确保系统真正学习文本特征,而不只是一些作弊。 

6.《DistilBERT微调多标签文本分类译者:低调猫熊

多类别分类是指将样本分为三个或多个可用类别中的一个。假设我们有10个水果。它们可以分属于“苹果”、“芒果”和“香蕉”这三类。如果我们被要求对这些特定类别的水果进行分类,它们只能属于这些类别中的一个。因此,这是一个多类分类问题。 在这篇文章中,我将解释如何调整多标签文本分类任务的DistilBERT。