Zane Zhao

Results 4 comments of Zane Zhao

我的想法是它的任务,不是把这个小方块里的所有像素信息(比如“一些红色的像素、一些白色的高光、一些黑色的窗框线条”)原封不动地打包。 相反,它会把这些像素信息,通过深度神经网络,“压缩”成一个高维的数学向量(VPE)。这个向量,代表了模型对这个区域的“语义理解”。 关键点:这个“压缩”过程是有损的。模型在预训练时,学会了将世界上千千万万的图像区域,都映射到同一个有限的“概念空间”里。对于一个没有明确物体(比如不是一只猫,不是一个杯子)的区域,模型会尽力去找到一个最接近的已知概念来描述它。 对于“车窗左上角”这个区域,它可能包含了红色车身的曲线、玻璃的反光、远处背景的绿色等多种视觉元素。模型在“压缩”后得到的VPE,可能就成了一个“带有一点红色曲线和绿色块状物的、有反光的区域”的模糊概念。

144-64=80种,期望得到80种(貌似)

我看他底层好像是写死的80种类?我直接把数字调了,但效果不好