2020年NLP演算法秋招「神仙打架」,我該如何應對?

  • 2019 年 10 月 7 日
  • 筆記

自然語言處理無非是目前最大的風口,從Word2Vec、ElMo、GPT、Bert到XLNet, 我們見證了這個領域的高速發展以及未來的前景。互聯網中的大量的文本以及IOT時代賦予我們的全新交互帶來了這個領域的爆發。

第一階段 演算法與機器學習基礎

【核心知識點】

. 時間複雜度,空間複雜度分析

. Master's Theorem,遞歸複雜度分析

. 動態規劃以及Dynamic Time Warpping

. Earth Mover's Distance

. 維特比演算法

. LR、決策樹、隨機森林、XGBoost

. 梯度下降法、隨機梯度下降法、牛頓法

. Projected Gradient Descent

. L0, L1, L2, L-Infinity Norm

. Grid Search, Bayesian Optimization

. 凸函數、凸集、Duality、KKT條件

. Linear SVM、Dual of SVM

. Kernel Tick, Mercer's Theorem

. Kernelized Linear Regression、Kernelized KNN

. Linear/Quadratic Programming

. Integer/Semi-definite Programming

. NP-completeness/NP-hard/P/NP

. Constrained Relaxation、Approximate Algorithm

. Convergence Analysis of Iterative Algorithm

【部分案例講解】:

. 基於Sparse Quadratic Programming的股票投資組合優化策略編寫

. 基於Earth Mover's Distance的短文本相似度計算

. 基於Projected Gradient Descent和非負矩陣分解的詞向量學習

. 基於Linear Programming的機票定價系統

. 基於DTW的文本相似度分析

第二階段 語言模型與序列標註

【核心知識點】

. 文本預處理技術(tf-idf,Stemming等)

. 文本領域的特徵工程

. 倒排表、資訊檢索技術

. Noisy Channel Model

. N-gram模型,詞向量介紹

. 常見的Smoothing Techniques

. Learning to Rank

. Latent Variable Model

. EM演算法與Local Optimality

. Convergence of EM

. EM與K-Means, GMM

. Variational Autoencoder與Text Disentangling

.有向圖與無向圖模型

. Conditional Indepence、D-separation、Markov Blanket

. HMM模型以及參數估計

. Viterbi、Baum Welch

. Log-Linear Model與參數估計

. CRF模型與Linear-CRF

. CRF的Viterbi Decoding與參數估計

【部分案例講解】:

. 基於無監督學習方法的問答系統搭建

. 基於監督學習的Aspect-Based 情感分析系統搭建

. 基於CRF、LSTM-CRF、BERT-CRF 的命名實體識別應用

. 基於語言模型和Noisy Channel Model的拼寫糾錯

第三階段 資訊抽取、詞向量與知識圖譜

【核心知識點】

. 命名實體識別技術

. 資訊抽取技術

. Snowball, KnowitAll, RunnerText

. Distant Supervision, 無監督學習方法

. 實體統一、實體消歧義、指代消解

. 知識圖譜、實體與關係

. 詞向量、Skip-Gram、Negative Sampling

. 矩陣分解、CBOW與Glove向量

. Contexualized Embedding與ELMo

. KL Divergence與Gaussian Embedding

. 非歐式空間與Pointcare Embedding

. 黎曼空間中的梯度下降法

. 知識圖譜嵌入技術

. TransE, NTN 的詳解

. Node2Vec詳解

. Adversial Learning與KBGAN

【部分案例講解】:

. 利用非結構化數據和資訊抽取技術構建知識圖譜

. 任務導向型聊天機器人的搭建

. 包含Intent與Entity Extraction的NLU模組實現

. 基於SkipGram的推薦系統實現(參考Airbnb論文)

第四階段 深度學習與NLP

【核心知識點】

. Pytorch與Tensorflow詳解

. 表示學習,分散式表示技術

. 文本領域中的Disentangling

. 深度神經網路與BP演算法詳解

. RNN與Vanishing/Exploding Gradient

. LSTM與GRU

. Seq2Seq與注意力機制

. Greedy Decoding與Beam Search

. BI-LSTM-CRF模型

. Neural Turing Machine

. Memory Network

. Self Attention,Transformer以及Transformer-XL.

. Bert的詳解

. BERT-BiLSTM-CRF

. GPT,MASS, XLNet

. Low-resource learning

. 深度學習的可視化

. Laywer-wise Relevance Propagation

* 由於此領域的飛速發展,我們會在課程進行過程中也會及時更新,確保2周之內新出的重要技術第一時間可以理解並使用。

【部分案例講解】:

. 利用純Python實現BP演算法

. 基於Seq2Seq+注意力機制、基於Transformer的機器翻譯系統

. 基於Transformer的閑聊型聊天機器人

. 基於BI-LSTM-CRF和BERT-BiLSTM-CRF在命名實體中的比較

. 利用Laywer-wise RP可視化端到端的機器翻譯系統

第五階段 貝葉斯模型與NLP

【核心知識點】

. 概率圖模型與條件獨立

. Markov Blanket

. Dirichlet分布、Multinomial分布

. Beta分布、Conjugate Prior回顧

. Detail Balance

. 主題模型詳解

. MCMC與吉布斯取樣

. 主題模型與Collapsed Gibbs Sampling

. Metropolis Hasting, Rejection Sampling

. Langevin Dyamics與SGLD

. 分散式SGLD與主題模型

. Dynamic Topic Model

. Supervised Topic Model

. KL Divergence與ELBO

. Variantional Inference, Stochastic VI

. 主題模型與變分法

. Nonparametric Models

. Dirichlet Process

. Chinese Restarant Process

. Bayesian Deep Neural Network

. VAE與Reparametrization trick

. Bayesian RNN/LSTM

. Bayesian Word2Vec

. MMSB

【部分案例講解】:

. 利用Collapsed Gibbs Sampler和SGLD對主題模型做Inference

. 基於Bayesian-LSTM的命名實體識別

. 利用主題模型做文本分類在

. LDA的基礎上修改並搭建無監督情感分析模型

第六階段 開放式項目 (Optional)

【項目介紹】

開放式項目又稱為課程的capstone項目。作為課程中的很重要的一部分,可以選擇work on一個具有挑戰性的項目。通過此項目,可以深入去理解某一個特定領域,快速成為這個領域內的專家,並且讓項目成果成為簡歷中的一個亮點。

【項目流程】:

Step 1: 組隊

Step 2:立項以及提交proposal

Step 3: Short Survey Paper

Step 4: 中期項目Review

Step 5: 最終項目PPT以及程式碼提交

Step 6: 最終presentation

Step 7: Technical Report/部落格