FlagEmbedding
FlagEmbedding copied to clipboard
关于LLaRA的loss疑问
您好,你们的LLaRA工作太棒啦。不过对于里面的loss我有一些疑问。这里的W是指embedding矩阵还是由0/1组成的表明位置的矩阵。loss的意义是使得输出的向量距离原始文本/下一句所有token的向量距离之和最近吗?
loss是通过logits来进行计算的,通过bag of words的方式,预测句子本身/下一句所包含的tokens所在的位置的logits的概率增加