(2025-10-21热点)-DeepSeek团队开源OCR新模型:少量视觉token完成海量文本压缩

zydadmin2025-10-22  22

今天上午,DeepSeek-AI 团队发布《DeepSeek-OCR:Contexts Optical Compression》论文,提出利用视觉模态压缩长文本上下文的新方法。Hugging Face 页面显示,该模型的参数量为 3B。

根据介绍,此次开源的 DeepSeek-OCR 由两个部分组成:核心编码器 DeepEncoder 和解码器 DeepSeek3B-MoE-A570M。DeepEncoder 专为在高分辨率输入下保持低计算激活而设计,同时实现高压缩比,以控制视觉 token 数量在可管理的范围内。实验显示,当文本 token 数量不超过视觉 token 的 10 倍(压缩比低于 10×)时,模型的 OCR 精度可达 97%;即便压缩比提高到 20×,准确率仍保持约 60%,展现出在历史文档长上下文压缩和大语言模型记忆机制研究中的巨大潜力。DeepSeek-OCR 同时具备较高的实际应用价值。

在 OmniDocBench 测试中,DeepSeek-OCR 使用 100 个视觉 token 就超过了 GOT-OCR2.0(每页 256 个 token),而使用不到 800 个视觉 token 便优于 MinerU2.0(平均每页超过 6000 个 token)。

在实际生产中,DeepSeek-OCR 可在单块 A100-40G 显卡上每天生成超过 20 万页的大语言模型 / 视觉语言模型训练数据。

转载请注明原文地址:https://www.2345lzwz.cn/read-788691.html
上一篇下一篇
00

randomThread
(2026-1-7热点)-大爷实拍“素颜巴黎”火遍全网,唤醒真实出行意义(2026-1-7热点)-大爷实拍“素颜巴黎”火遍全网,照见我们的表演式旅行托宝战士的拼音.docx免费下载(word版可打印)弯的笔顺和拼音和组词.docx免费下载(word版可打印)拖字的拼音怎么读.docx免费下载(word版可打印)崴脚的崴拼音是什么写.docx免费下载(word版可打印)崴怎么拼音.docx免费下载(word版可打印)驼的拼音和组词还有部首.docx免费下载(word版可打印)崴怎么读组词和拼音是什么.docx免费下载(word版可打印)外面字的拼音.docx免费下载(word版可打印)崴字怎么读音组词和拼音.docx免费下载(word版可打印)驼的拼音和组词和偏旁.docx免费下载(word版可打印)拖累基隆隆响的拼音.docx免费下载(word版可打印)夞拼音应该怎么拼.docx免费下载(word版可打印)吞咽的拼音怎么写的.docx免费下载(word版可打印)驼的拼音和组词和笔画是什么.docx免费下载(word版可打印)晚怎么的拼音怎么写.docx免费下载(word版可打印)弯曲的汉语拼音是什么.docx免费下载(word版可打印)豌豆的拼音怎么说.docx免费下载(word版可打印)弯的拼音是什么组词是什么意思.docx免费下载(word版可打印)亡的拼音是声音还是韵母呢.docx免费下载(word版可打印)王者荣耀用的拼音怎么写.docx免费下载(word版可打印)王丽的拼音怎么写.docx免费下载(word版可打印)皖的拼音怎么读音写的呀.docx免费下载(word版可打印)万寿无疆的拼音.docx免费下载(word版可打印)婉的组词和的拼音.docx免费下载(word版可打印)万的拼音声调是几声.docx免费下载(word版可打印)弯字几拼音节.docx免费下载(word版可打印)尪字的拼音怎么读音.docx免费下载(word版可打印)尪字的拼音怎么读音组词.docx免费下载(word版可打印)亡羊补牢的拼音是啥.docx免费下载(word版可打印)望的拼音组词偏旁结构是什么.docx免费下载(word版可打印)望哨组词和拼音.docx免费下载(word版可打印)
New Post(0)