attention
attention copied to clipboard
K,Q,V映射
我想问一下多头attention那里,通过一次线性映射产生K,Q,V,paper中说要8次不同的映射。代码实现时,是因为,8次不同的映射可以一次完成,只要权重参数的数量已经相当于8次映射的数量了么?
我想问一下多头attention那里,通过一次线性映射产生K,Q,V,paper中说要8次不同的映射。代码实现时,是因为,8次不同的映射可以一次完成,只要权重参数的数量已经相当于8次映射的数量了么?