Sohu-LuckData-Image-Text-Matching-Competition
Sohu-LuckData-Image-Text-Matching-Competition copied to clipboard
你这个模型的loss 函数是啥
你好,大致的思想正如首页readme所说,分别得到图和文的embedding,然后计算两者的L2距离作为loss,其目的是最小化图/文embedding之间的距离。
具体来说,有一些更复杂的实现。代码请见tensorflow代码 这里运用了top_K loss,简单来说就是选取最难的样本来训练,提高收敛效率和训练效果。具体这里就不赘述了,请参考上述链接的代码,代码量很少。
感觉可以搞个端到端的模型训练,不然前面还需要准备图文文本特征