(2025-10-21热点)-DeepSeek团队开源OCR新模型:少量视觉token完成海量文本压缩

zydadmin  123

今天上午,DeepSeek-AI 团队发布《DeepSeek-OCR:Contexts Optical Compression》论文,提出利用视觉模态压缩长文本上下文的新方法。Hugging Face 页面显示,该模型的参数量为 3B。

根据介绍,此次开源的 DeepSeek-OCR 由两个部分组成:核心编码器 DeepEncoder 和解码器 DeepSeek3B-MoE-A570M。DeepEncoder 专为在高分辨率输入下保持低计算激活而设计,同时实现高压缩比,以控制视觉 token 数量在可管理的范围内。实验显示,当文本 token 数量不超过视觉 token 的 10 倍(压缩比低于 10×)时,模型的 OCR 精度可达 97%;即便压缩比提高到 20×,准确率仍保持约 60%,展现出在历史文档长上下文压缩和大语言模型记忆机制研究中的巨大潜力。DeepSeek-OCR 同时具备较高的实际应用价值。

在 OmniDocBench 测试中,DeepSeek-OCR 使用 100 个视觉 token 就超过了 GOT-OCR2.0(每页 256 个 token),而使用不到 800 个视觉 token 便优于 MinerU2.0(平均每页超过 6000 个 token)。

在实际生产中,DeepSeek-OCR 可在单块 A100-40G 显卡上每天生成超过 20 万页的大语言模型 / 视觉语言模型训练数据。

转载请注明原文地址:https://www.lzdww.com/read-201900.html
上一篇下一篇

随机主题
形容大海的心情美句(2026-05-24句子)菊花的形状是什么样的(2026-05-14句子)菊花品质和精神(2026-05-14句子)菊花的形态描写六句(2026-05-14句子)菊花五十字作文(2026-05-14句子)姐妹一起变老的句子唯美短句(2026-05-13句子)接受自己慢慢老去的文案(2026-05-12句子)姐妹简短文案句子(2026-05-12句子)姐弟语录简短霸气(2026-05-12句子)坚持努力的励志句子(2026-05-11句子)激励高中生奋进的名言(2026-05-10句子)激励(2026-05-10句子)积极向上唯美句子简短走心(2026-05-10句子)激励句子经典(2026-05-10句子)积极向上正能量的句子短句(2026-05-10句子)积极上进正能量的文案(2026-05-08句子)活出自己的霸道句子(2026-05-08句子)积极向上词句(2026-05-08句子)回复姐妹情深的句子(2026-05-07句子)花千骨唯美句子大全(2026-05-06句子)怀念过去的人和事的诗句(2026-05-06句子)花句子说说心情短语(2026-05-06句子)哗哗地照样子写词语(2026-05-06句子)互帮互助正能量的句子(2026-05-06句子)花儿开了仿写句子(2026-05-06句子)环境描写类句子简短一点(2026-05-06句子)邓紫棋的励志蜕变,你能从中收获什么?(2026-04-18热点)14岁被发掘,17岁获金奖,“巨肺小天后”邓紫棋的励志人生路(2026-04-18热点)第五套人民币10元背面的图案是长江三峡中的瞿塘峡(2026-04-21热点)能看到一个50岁女明星最真实的样子:不端不装(2026-04-22热点)李小冉在台上哽咽了:“我们的起跑线就是很低(2026-04-22热点)藏着当代女性在事业与家庭间寻找平衡的智慧(2026-04-18热点)和朋友说说心里话的句子(2026-05-04句子)
最新回复(0)