Prefix Caching原理和对大模型推理加速影响 #小工蚁

作者: 小工蚁创始人

作者简介: 小工蚁创始人张文斌原土豆网第九个员工，土豆网技术总监

描述: Prefix Caching原理和对大模型推理加速影响 #小工蚁

Prefix Caching原理和对大模型推理加速影响 #小工蚁

推荐视频

通义千问Qwen1.5多个LoRA 同时部署和推理加速演示 #小工蚁

通义千问Qwen1.5多个LoRA 同时部署和推理加速演示 #小工蚁

上传者: 小工蚁创始人

AutoLabel：自动标注，比人快100倍，准确度和人一样！#小工蚁 #大语言模型

AutoLabel：自动标注，比人快100倍，准确度和人一样！#小工蚁 #大语言模型

上传者: 小工蚁创始人

大模型推理指令缓存功能推理性能提升30% #小工蚁

大模型推理指令缓存功能推理性能提升30% #小工蚁

上传者: 小工蚁创始人

多GPU推理加速Qwen-72B开源大模型 #小工蚁

多GPU推理加速Qwen-72B开源大模型 #小工蚁

上传者: 小工蚁创始人

AWQ大模型量化INT4比FP16 推理快2倍，GPU内存1/3

AWQ大模型量化INT4比FP16 推理快2倍，GPU内存1/3

上传者: 小工蚁创始人

LazyLLM加速长上下文大模型推理动态Token剪枝

LazyLLM加速长上下文大模型推理动态Token剪枝

上传者: 小工蚁创始人

让Mixtral-8*7B模型运行在16GB显存GPU上 #小工蚁

让Mixtral-8*7B模型运行在16GB显存GPU上 #小工蚁

上传者: 小工蚁创始人

训练大模型炒股票TradeExpert年化收益49% #小工蚁

训练大模型炒股票TradeExpert年化收益49% #小工蚁

上传者: 小工蚁创始人

Text2SQL Llama 7B模型微调DuckDB-NSQL-7B #小工蚁

Text2SQL Llama 7B模型微调DuckDB-NSQL-7B #小工蚁

上传者: 小工蚁创始人

LLM推理过程中自动缓存KV Cache功能 #小工蚁

LLM推理过程中自动缓存KV Cache功能 #小工蚁

上传者: 小工蚁创始人

多模态Embedding开源模型 Visualized BGE #小工蚁

多模态Embedding开源模型 Visualized BGE #小工蚁

上传者: 小工蚁创始人

如何测试大模型推理加速？通义千问和百川2模型测试对比 #小工蚁

如何测试大模型推理加速？通义千问和百川2模型测试对比 #小工蚁

上传者: 小工蚁创始人

无限上下文大模型推理加速StreamingLLM #小工蚁

无限上下文大模型推理加速StreamingLLM #小工蚁

上传者: 小工蚁创始人

突破极限：Yi-VL多模态模型惊艳亮相，推理加速性能压测演示 #小工蚁

突破极限：Yi-VL多模态模型惊艳亮相，推理加速性能压测演示 #小工蚁

上传者: 小工蚁创始人

如何提高垂直领域RAG准确率？ #小工蚁

如何提高垂直领域RAG准确率？ #小工蚁

上传者: 小工蚁创始人

PDF文档文字、表格混排自动识别，增强RAG应用准确度 #小工蚁

PDF文档文字、表格混排自动识别，增强RAG应用准确度 #小工蚁

上传者: 小工蚁创始人

DeepSpeed-FastGen比vLLM推理性能快2倍，SplitFuse策略 #小工蚁

DeepSpeed-FastGen比vLLM推理性能快2倍，SplitFuse策略 #小工蚁

上传者: 小工蚁创始人

国产首个开源MoE大模型DeepSeekMoE 16B #小工蚁

国产首个开源MoE大模型DeepSeekMoE 16B #小工蚁

上传者: 小工蚁创始人

谷歌开源时间序列大模型直接使用不需要训练 #小工蚁

谷歌开源时间序列大模型直接使用不需要训练 #小工蚁

上传者: 小工蚁创始人

Huggingface开源新框架Candle让大模型运行在各种设备上 #小工蚁 #huggingface

Huggingface开源新框架Candle让大模型运行在各种设备上 #小工蚁 #huggingface

上传者: 小工蚁创始人

将新鲜知识注入大型语言模型：只需一个命令！#小工蚁 #rome

将新鲜知识注入大型语言模型：只需一个命令！#小工蚁 #rome

上传者: 小工蚁创始人

什么场景下大模型需要微调？#小工蚁

什么场景下大模型需要微调？#小工蚁

上传者: 小工蚁创始人

DSPy提示工程自动优化框架 #小工蚁

DSPy提示工程自动优化框架 #小工蚁

上传者: 小工蚁创始人

部署大模型在TorchServe+vLLM #小工蚁

部署大模型在TorchServe+vLLM #小工蚁

上传者: 小工蚁创始人

firecrawl基于LLM开源爬虫项目 #小工蚁

firecrawl基于LLM开源爬虫项目 #小工蚁

上传者: 小工蚁创始人

统一Embedding模型增强大语言模型能力 #小工蚁

统一Embedding模型增强大语言模型能力 #小工蚁

上传者: 小工蚁创始人

ToolGen大模型调用工具新方法 #小工蚁

ToolGen大模型调用工具新方法 #小工蚁

上传者: 小工蚁创始人

StreamingLLM算法让推理速度提升22倍，支持400万Token输出

StreamingLLM算法让推理速度提升22倍，支持400万Token输出

上传者: 小工蚁创始人

人类反馈强化学习最新替代方法SimPO #小工蚁

人类反馈强化学习最新替代方法SimPO #小工蚁

上传者: 小工蚁创始人

llama.cpp大神实现投机采样，让大模型推理性能直接翻倍 #小工蚁

llama.cpp大神实现投机采样，让大模型推理性能直接翻倍 #小工蚁

上传者: 小工蚁创始人

多模态模型应用：设计图生成网页，哪个模型最强？ #小工蚁

多模态模型应用：设计图生成网页，哪个模型最强？ #小工蚁

上传者: 小工蚁创始人

全球首个半导体大模型SemiKong如何炼成的？#小工蚁

全球首个半导体大模型SemiKong如何炼成的？#小工蚁

上传者: 小工蚁创始人

Liger Kernel开源加速大模型训练算子，降低60%GPU显存

Liger Kernel开源加速大模型训练算子，降低60%GPU显存

上传者: 小工蚁创始人

最强7B模型Zephyr，打败LlaMA2-70B #小工蚁

最强7B模型Zephyr，打败LlaMA2-70B #小工蚁

上传者: 小工蚁创始人

ChatGLM2如何进行模型微调演示 #小工蚁 #chatglm2

ChatGLM2如何进行模型微调演示 #小工蚁 #chatglm2

上传者: 小工蚁创始人

开源项目vLLM V1版本预计12月发布，有啥优化？

开源项目vLLM V1版本预计12月发布，有啥优化？

上传者: 小工蚁创始人

LatentSync数字人论文解读 #小工蚁

LatentSync数字人论文解读 #小工蚁

上传者: 小工蚁创始人

抱抱脸开源小模型SmolLM和训练数据集 #小工蚁

抱抱脸开源小模型SmolLM和训练数据集 #小工蚁

上传者: 小工蚁创始人

CosyVoice2开源TTS流式大模型实时语音“说”

CosyVoice2开源TTS流式大模型实时语音“说”

上传者: 小工蚁创始人

百川2大语言模型推理加速对比实验测试，性能提升100倍

百川2大语言模型推理加速对比实验测试，性能提升100倍

上传者: 小工蚁创始人