JunX
JunX
# DTD - Describable Textures Dataset - **可描述纹理数据集** - 用一系列以人为中心的属性进行注释,灵感来自纹理的感知属性 - **目标**是在机器中重现人类对纹理提取的能力。 - 数据来源于互联网 Google & Flickr  ## DTD Details ``` 由 5640 张图像组成,根据从人类感知中获得灵感的 47 个术语(类别)列表进行组织。 每个类别有 120 张图像。图像尺寸在...
# LFA - Linear Feature Alignment 重新对齐视觉语言特征 - 通过最小二乘法问题的闭式解进行初始化,然后通过最小化重排序损失进行迭代更新  ## Arch ### Approximating Soft Prompts with a Linear Transformation - 设 $Y \in \mathbb{R}^{C ×d}$ 是以矩阵形式表示的类名嵌入 - 设 $Y'...
# MTA - 基于均值漂移算法 - 通过优化潜在的内点变量(inlierness variables)自动管理测试时增强的视图,直接在优化过程中集成对增强视图的评估,无需训练模型的参数或提示 - 通过不断迭代更新模式估计值,使得模式逐渐收敛到数据的密集区域,从而找到数据的一种代表性模式。 - 通过交替更新内点分数和模式,以实现对测试时增强的稳健多模态均值漂移,从而提高视觉 - 语言模型的测试时零样本泛化能力 ## Reference - [On the test-time zero-shot generalization of vision-language models: Do we really need prompt learning?](https://arxiv.org/abs/2405.02266)...
# BitFit - 冻结大部分 Transformer 编码器参数,只训练 `bias-terms` & `task-specific final linear classifier layer` ## Arch - 编码器由L层组成,其中每一层 ℓ 都以M个自注意力头开始 - 一个自注意力头 $(m, \ell)$ 具有键、查询和值编码器,每个都采用线性层的形式: - $Q^{m, \ell}(x)=W_{q}^{m, \ell} x +...
# VPT - Visual Prompt Tuning - 在 Transformer 层中插入输入可学习参数 - **VPT-deep**: 每一层 Transformer 编码器层输入中添加一组可学习参数 - **VPT-shallow**: 仅在第一个 Transformer 编码器层输入中插入参数 - 针对下游任务,只需存储部分参数 对于一个具有\(N\)层的普通视觉Transformer(ViT)[19],输入图像被划分为\(m\)个固定大小的 patches(小块) $\({I_{j} \in \mathbb{R}^{3 ×h ×w} |...
# CaFo - 分别利用 GPT-3/CLIP/DINO/DALL-E 从 Prompt/Generate/CacheModel 方面提升模型性能 ## Arch - 1 利用 GPT-3 生成更丰富语义的 Prompt - 2 利用 DALL-E 生成 Prompt 相关的 Image - 3 将生成的 Image 和 Training...
# Tip-Adapter - 利用 CLIP,从少量样本训练集中构建`键值缓存模型`来作为适配器,结合 CLIP 的输出综合生成结果 - 无需训练 - 非参数方式,训练的话更优 - **推理:** 测试图像特征与缓存键计算相似度,聚合缓存值形成预测,再与 CLIP 原始预测通过残差连接结合 - 其中涉及计算查询 - 键亲和力及线性组合缓存值等操作,通过调整残差比率平衡两项预测。 - **Tip-Adapter-F**: 当few-shot 数量增加时,性能不如CoOP & CLIP-Adapter,所以提出了 `Tip-Adapter-F` - 将缓存模型的键作为可学习参数并微调,冻结缓存值和 CLIP...
# CoOP - Context Optimization(CoOP) - 通过自动优化提示词,提高 VLM 模型下游任务的性能,减少人工提示工程的工作量 - **PET** `Prompt` --> `Best pizza ever! It was ___` - **AutoPrompt** --> ` [T] [T] [T] [T] [T] [P]` -...
# OpenCV Mat ## elemSize - 元素大小 - 元素指 CV_8UC1/CV_8UC3/CV_32FC1/... - `elemSize1` : elemSize 一个通道 size TYPE | elemSize | elemSize1 -- | -- | -- CV_8UC1 | 1 |...
### Describe the bug ## INT8 Performance As the NNCF document says, when quantizing a Transformer model, the parameter model_type should be set to TRANSFORMER. In my tests, if it...