词向量在各个历史阶段的经典模型

shiiiilong / 2023-05-03 / 原文

one-hot

词表有多大,每个词的词向量就有多少维

不足

  1. 稀疏。
  2. 没有语义信息。

Word2Vec

两种训练框架:

  • CBOW:上下文预测中心词
  • skip-gram:中心词预测上下文 (word embedding多用这种)

word2vec的词向量考虑到了词的前后一定窗口内的上下文语义信息,且表示更加稠密。

不足

  1. 词向量是静态的,一词多义无法解决。

ELMo

使用双向LSTM来对句子的每个词建模

  • 相比于word2vec具有更深的网络层次,可以捕获到更高级别的语法、语义等信息;

  • 同时结合了前向和后向表征,有效地融合了上下文特征,更好地表征一词多义;

不足

  1. 并行能力差
  2. LSTM处理长依赖问题弱于bert

Bert

使用Attention机制代替RNN,解决长依赖问题,可以并行化