探索多模态大模型VLM:深入解析Clip和ViT架构及其部件
本文探讨了多模态大模型(VLM)的技术发展现状与挑战。文章首先指出当前VLM主要实现"看图说话"功能,而非图像生成,其核心架构通常由视觉编码器(如CLIP)和语言模型组成。接着分析了三种典型VLM模型(LLaVA、Qwen2.5-VL、GPT-4v)的架构差异,并详细介绍了视觉编码器CLIP和ViT的工作原理。最后指出当前VLM尚未解决图像生成与文本生成的融合问题,架构仍需创新
DeepSeek V3/R1实现了大语言模型(LLM)的普惠,多模态大模型(VLM--Vision Language Model)也就自然变成了下一个关注的热点。我一直有一个好奇的问题,大语言模型的自回归生成(autoregression)的基础,是文本有一个token级别的词汇表,大约只有32k~160k左右。图片image是由像素pixel构成,其词汇表是什么呢?
带着这个问题,我看了几篇典型的VLM文章。我发现,VLM并没有图片的词汇表。实际上,现在大部分的VLM,并没有生成图片的能力,只能生成文本,也就是说,只有“看图说话”的能力。图片或者视频只是作用在输入端,经过一个vision encoder变成一个vector,插入到文本序列,作为一个LLM的输入。这个encoder通常需要用“iamge to text”这样的平行语料进行训练。
“看图说话”的反函数是“文生图”,也是一项成熟的技术。看似将二者结合,就可以得到一个真正的多模态大模型。但这并不容易,因为文生图的基础是扩散diffusion模型,其架构与自回归生成(autoregression)截然不同。
这篇文章介绍多模态大模型的三个技术:VLM的架构,常用的vision encoder模型(Clip),以及基于Transformer的image encoder架构:ViT。
一 VLM的架构
LLaVA【1】是比较早的开源VLM模型,发表在计算机视觉顶会CVPR2024,作者是University of Wisconsin–Madison和美国的微软研究院。下图是其架构。

LLaVA的视觉编码器vision encoder采用了CLIP视觉编码器ViT-L/14。视觉编码器的输出(图像表征)再经过一个简单的线性投影层W,转变为文本token的嵌入空间,作为一个vector,加入到文本序列,作为基础大语言模型的输入。如上图所示,最后的输出是语言(文本)。
阿里巴巴的通义模型有个VLM的版本:Qwen2.5 - VL【2】,大约是2025年2月发布的。其架构如下图所示。总体上与LLaVA类似,只是在视觉编码器(vision encoder)和视觉-语言合并器(LLaVA中的线性投影层W)的具体实现上,有一些创新。与LLaVA直接使用clip作为vision encoder不同,Qwen2.5 - VL用了大量的“图片-文本”进行训练,并且对ViT的结构也做了一些重新设计。

下面的表格清晰地列出了通义VLM的3个部件和各自的规模:

OpenAI的VLM模型GPT-4v【3】发布得比LLaVA更早,在2023年3月,就开始应用。他们还做了一个项目:定位于盲人用户,为智能手机拍摄的照片提供描述。但我没有找到他们的实现架构,只是在Qwen2.5 - VL有如下描述:“GPT - 4V 打破了传统的 “视觉编码器 + 语言解码器” 拼接模式,将视觉和语言信息在同一 Transformer 架构中统一处理,支持任意分辨率和宽高比图像输入,通过自适应视觉 Token 机制动态生成合适数量视觉 token ,文本 token 和视觉 token 在同一注意力矩阵交互,实现深度跨模态理解。”
二 常用的vision encoder模型(Clip)
Clip模型源自OpenAI,发布于2021年。训练时使用了从互联网上收集的4亿(图像,文本)对数据。其架构如下:

CLIP联合训练一个图像编码器和一个文本编码器,分别将图片和对应的文本转化为一个vector,然后图片vector和正确对应的文本vector较高的互信息(mutual information)来调整权重,从而学习到一批(图像,文本)训练示例的正确配对。
我之前对于Clip的使用,有一个疑问:在Clip训练的时候,会同时训练一个text encoder和vision encoder,二者是匹配的。而应用Clip的时候,通常只用后者。比如在VLM中,vision encoder之后的LLM模型,有可能会使用不同tokenization、得到与Clip不同的token词汇表。相当于text encoder已经被替换了,Clip的对齐还有效吗?
后来请教一位做VLM的老师,他回答说:在应用Clip的时候,还需要用(图像,文本)对数据训练,使得vision encoder与后续的LLM进行再次对齐。
三 基于Transformer的image encoder架构:ViT
Clip的vision encoder有多种实现方式,其中一种使用了基于Transformer的ViT架构,该架构源自2020年Google的一篇文章,如下图所示:

ViT的输入是图片的一小块。他们将图像分割成固定大小的图块,对每个图块进行线性嵌入,添加位置嵌入,然后将得到的向量序列输入到标准的Transformer编码器中。Encoder的输出类似于以前BERT的class头,ViT在输出层的最前面增加了一个MLP的头,其输出为一个vector,即为该图片的编码encoding。
ViT的研究发现,当训练数据比较小的时候,ViT的性能要逊色于传统的卷积神经网络(CNN)。但当数据集达到千万、上亿的时候,ViT的性能就接近或者超越了最先进的水平。所以这又是一个大力出奇迹的例子。
四 总结
VLM的技术发展历程:2020年Google的ViT、2021年的Clip、2023年的GPT-4v、2024年的LLaVA、2025年的通义Qwen2.5 - VL。
现在主流的VLM模型还没有解决“图像生成”与“文本生成”的融合,架构仍有待创新。
AI大模型从0到精通全套学习大礼包
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
只要你是真心想学AI大模型,我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来,我也真心希望帮助大家学好这门技术,如果日后有什么学习上的问题,欢迎找我交流,有技术上面的问题,我是很愿意去帮助大家的!
如果你也想通过学大模型技术去帮助就业和转行,可以点扫描下方👇👇
大模型重磅福利:入门进阶全套104G学习资源包免费分享!
01.从入门到精通的全套视频教程
包含提示词工程、RAG、Agent等技术点
02.AI大模型学习路线图(还有视频解说)
全过程AI大模型学习路线


03.学习电子书籍和技术文档
市面上的大模型书籍确实太多了,这些是我精选出来的

04.大模型面试题目详解


05.这些资料真的有用吗?
这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。
所有的视频由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。


智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势,构建起"前沿课程+智能实训+精准就业"的高效培养体系。
课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事!

如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!
应届毕业生:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。
零基础转型:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界。
业务赋能 突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型。
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓
更多推荐

所有评论(0)