NLP 算法工程师相关的面试题

2019 年 10 月 31 日
筆記

【导读】本项目记录了面试NLP算法工程师常会遇到的问题，作者songyingxin。

1. 编程语言基础

该文件夹下主要记录 python 和 c++ 的一些语言细节，毕竟这两大语言是主流，基本是都要会的，目前还在查缺补漏中。

C++面试题
Python 面试题

2. 数学基础

该文件夹下主要记录一些数学相关的知识，包括高数，线性代数，概率论与信息论，老宋亲身经历，会问到，目前尚在查缺补漏中。

概率论
高等数学
线性代数
信息论

3. 计算机基础理论知识

这部分内容一般不怎么考，因此，没有把重心放在上面，至少现在几乎没有遇到问这方面的，有意思的是，投了阿里某部的NLP算法，居然来了个不懂NLP的来面，全程真的瞎聊，全是开发。

4. 机器学习基础

这部分已经开始进入正题了，事实证明，部分大厂会提及一些基础的机器学习算法知识，因此，这部分我觉得几个核心的模型是要会的。

机器学习项目流程
判别模型 vs 生成模型
频率派 vs 贝叶斯派
数据预处理
特征工程
特征工程-关联规
模型 – SVM
模型 – 聚类算法
模型 – 决策树
模型 – 逻辑回归
模型 – 朴素贝叶斯
模型 – 随机森林
模型 – 线性回归

5. 深度学习基础

这部分主要讲述深度学习方面的基础知识，是核心点，但很多情况下，很多面试官的题基本差不多，不过我个人觉得，有这种全局的，全面的知识框架是有益的。

深度学习项目流程

5.1 基础理论部分

基础理论 – 多任务学习
基础理论 – 集成学习
基础理论 – 分类问题评估指标
基础理论 – 距离度量方法
基础理论 – 目标函数，损失函数，代价函数
基础理论 – 偏差 vs 方差，欠拟合 vs 过拟合
基础理论 – 数据角度看深度学习
基础理论 – 梯度消失，梯度爆炸问题
基础理论 – 维数灾难问题
基础理论 – 指数加权平均
基础理论- 局部最小值，鞍点
基础理论 – 集成学习
基础理论 – 集成学习

5.2 基本单元

基本单元 – CNN
基本单元 – MLP
基本单元 – RNN

5.3 调参相关

调参 – 超参数调优
调参 – 激活函数
调参 – 权重初始化方案
调参 – 优化算法

5.4 Tricks

Trick – Dropout
Trick – Normalization
Trick – 融合训练集，验证集，测试集
Trick – 提前终止
Trick – 学习率衰减
Trick – 正则化

6. 统计自然语言处理

这部分前期的笔记做的不多，因此还没怎么开始。

7. 深度学习自然语言处理

这部分算是核心的知识了，这部分还需要逐渐完善，时间有点紧啊。

文本数据预处理
各大任务的评价指标
改进 NLP 模型的一些思路

7.1 词向量三部曲

词向量 – Word2Vec
词向量 – Glove
词向量 – FastText

7.2 预训练语言模型

预训练语言模型 – BERT改进研究
预训练语言模型 – 融入知识图谱
预训练语言模型 – 自然语言生成

7.3 Attention 机制7.4 文本分类7.5 语义匹配7.6 阅读理解

8. 源码阅读

这部分主要推荐一些自己阅读过的一些源码，有些源码是 NLP 相关，有些是深度学习相关的，部分源码我个人有做注释，会相应的列出来。

原文链接：

https://github.com/songyingxin/NLPer-Interview