bert深入分析以及bert家族总结(待续太多了也)

  • 2021 年 3 月 29 日
  • AI

本文主要对bert以及各类bert based model做一个总结,在总结的过程中,对bert的各种细节(分词算法、相对\绝对为止编码、预训练任务等)进行整理,主要是因为在研究bert家族的过程中发现bert的各种变体基本都是从这些细节层面入手进行的魔改。所以其实bertology的models理解起来并不是非常复杂。

首先从tokenize开始

马东什么:tokenizers(待续,太烦了)zhuanlan.zhihu.com图标

可见上,暂时没写完..感觉还是要好好看看huggingface的官方设计文档,网上说的太乱了也

总的来说:

wordpiece:bert,electra,distilbert

BPE:GPT,RoBERTa,XLMNET

Bytelevel BPE:GPT2

unigram:Unigram不能直接用于transformers中的任何模型,但可以与SentencePiece结合使用,模型包括了有:ALBERTXLNetMarianT5