作者: 大模型解码室
作者简介: 在大模型解码室,我将带你深入每个模型的故事,体验解码的冒险。从理论到实战,记录数据到推理的每一步,分享大模型生态的实战落地与最新动态
描述: 首先综述当前多模态RAG的发展共3个阶段:MRAG1.0到3.0的演进 其次从零到一实现了一个多模态RAG的实现: 实现思路: 离线阶段 将布局识别->提取图像和表格->调用glm4v进行总结->使用bge-large-zh-v1.5向量化-> 保存图像的元信息以及图像总结到milvus 在线阶段 用户query->使用milvus检索信息->解析图像中的元信息:图像路径->将图像内容+用户query拼接后发送给glm4v