Embedding--Word2Vec，未完成

Embedding就是用一个低维的向量表示一个物体，可以是一个词，能保留其含义。

word2vec作为Embedding，目的不是为了得到一个预测模型，而是为了得到模型训练完后的副产物：模型参数，也就是词向量。然后将学好的词向量矩阵抽出交给下游的预测模型去推测。

传统的one-hot编码仅仅只是将词符号化，不包含任何语义信息，且维度过大占用过多资源。

word2vec模型中比较重要的概念是词汇的上下文。
通过从输入层到隐藏层或隐藏层到输出层的权重矩阵去向量化表示词的输入，学习迭代的是两个权重矩阵。

对数似然是Minitab 为了确定估计系数(β) 的最优值而最大化的表达式。由于对数似然是样本数量的函数，因此它们的值不能单独作为拟合值的指数使用，但可以用来比较不同系数的拟合值。由于您要最大化对数似然，因此值越大越好。