深入探究
现在让我们更详细地探讨 LAVIS 的主要功能。
LAVIS 支持超过 10 个常用语言视觉任务,涵盖 20 多个公共数据集,且仍在不断增长。这些任务和数据集为评估语言视觉模型提供了全面统一的基准。我们优先考虑那些标准化且广泛采用、拥有公开数据集的任务,用于评估。这些任务包括:
多模态检索任务:给定一种模态的查询,搜索另一种模态的目标,例如图像↔文本检索,或视频↔文本检索
多模式问答:回答有关图像或视频的问题;例如,视觉问答(VQA)、视频问答(VideoQA)
图像字幕:为图像生成语言描述
多模态分类:为多模态或单模态输入分配类别标签;例如,图像分类、图像文本分类
多模式对话:进行涉及多模式内容的对话。
最先进且可重复的语言视觉模型
LAVIS 库支持访问四个热门基础模型(ALBEF、BLIP、CLIP 和 ALPRO)的 30 多个预训练和针对特定任务进行微调的模型检查点。这些模型在使用通用指标评估的多个任务中均取得了优异的性能。我们还提供训练、评估脚本和配置,以促进可重复的语言视觉研究和应用。
ALBEF是一个图文模型。它采用ViT(Vision Transformer)作为图像编码器,使用 BERT 的早期层作为文本编码器,并通过添加交叉注意机制将 BERT 的后期层重新用作多模态编码器。它提出了新颖的图像文本对比 (ITC) 损失函数,用于在用多模 手机号数据库列表 态编码器融合单模态特征之前对其进行对齐。它也是首批无需区域信息即可展现强大多模态理解能力的模型之一。
BLIP主要处理图文转换任务,同时在视频文本转换任务中也展现出强大的零样本迁移能力。它采用 ViT 作为图像编码器,BERT 作为文本编码器。为了促进多模态理解和生成,BLIP 提出了一种编码器-解码器混合模型 (MED),将 BERT 重新用于多模态编码器和解码器,并进行合理的权重共享。BLIP 提出数据集引导技术,通过去除噪声文本并生成新的多样化文本来提升预训练语料库中的文本质量。除了比 ALBEF 更强大的理解能力外,BLIP 还突出了其强大的文本生成能力,能够生成准确且描述性强的图像字幕。当应用于视频文本转换任务时,BLIP 会对采样帧进行操作,同时串联这些帧的特征来表示视频。
CLIP是一系列强大的图文模型。与 ALBEF 和 BLIP 不同,CLIP 模型采用两个单峰编码器来获取图像和文本表征。CLIP 最大化了正例图文对之间的相似性,并在 4 亿个图文对上进行了训练,最终呈现出强大且鲁棒的单峰表征。
ALPRO是一个视频文本模型,用于处理视频文本检索和视频问答任务。它使用 TimeSformer 提取视频特征,并使用 BERT 提取文本特征。与 ALBEF 类似,ALPRO 使用对比损失来对齐单模态特征,但它选择使用自注意力机制来建模多模态交互。这种架构选择支持一项额外的基于视觉的预训练任务——提示实体建模 (PEM)——来对齐细粒度的视频文本信息。ALPRO 在提取区域视频特征方面表现出色,并且在各种数据集的视频理解任务中保持竞争力。
表 2:LAVIS 中支持的任务、模型和数据集。