d
目前大模型都是预测下一个词。从Andrew Karpathy的教程中可以看到第一步要tokenizer把英语/语言文本输入映射到向量空间中,类似于word2vec但不一样。
11
**
您提出了一个很好的问题。虽然tokenizer和word2vec都涉及将文本映射到向量空间,但它们的目的和方法有一些重要区别:
- 目的:
- Tokenizer主要是将文本分割成离散的token单元,为模型输入做准备。
-
Word2vec旨在学习词的分布式表示,捕捉词之间的语义关系。
-
输出:
- Tokenizer通常输出token的ID或索引。
-
Word2vec输出连续的词向量。
-
映射方式:
- Tokenizer通常使用预定义的词表进行简单的查找映射。
-
Word2vec通过神经网络训练学习词向量。
-
向量空间:
- Tokenizer本身不创建向量空间,而是为后续的嵌入层准备输入。
-
Word2vec直接创建了一个语义丰富的向量空间。
-
上下文敏感性:
- 基本的tokenizer不考虑上下文。
- Word2vec考虑词的局部上下文。
总的来说,tokenizer更多是一个预处理步骤,而word2vec是一个学习词表示的模型。在Transformer架构中,tokenizer之后通常会有一个嵌入层,这个嵌入层的功能更接近于word2vec,但它是作为整个模型的一部分进行训练的。