Navigation menu

新闻中心

DeepSeek新模型疯了:整个AI圈都在研究视觉路线,

Heart of Machine 报告编辑:Zenan,Panda “我真的很喜欢新的 DeepSeek-OCR 文档...对于所有 LLM 输入都是图像可能更有意义。即使您有纯文本输入,您也应该先渲染它们,然后再输入它们。”一夜之间,DeepSeek的新模型似乎打破了大规模模型范式。昨天下午,一个新的DeepSeek-OCR模型突然开启。在处理该模型时,一篇 1000 字的文章可以被压缩为 100 个视觉标记,并且在 10 倍压缩的情况下,准确率达到 97%。 NVIDIA A100每天可以处理20万页数据。这种方法有潜力解决目前大规模模型领域令人头疼的长期上下文效率问题。更重要的是,如果最终确定“观看”文本而不是“阅读”文本是正确的方向,也将意味着更广泛模型的配对范式将发生重大变化。 在 GitHub 上,DeepSeek-OCR 项目收到了超过一夜4000星。由于 DeepSeek-OCR 是一个小型开源模型,因此首先由整个 AI 社区进行测试。不少大人物读完报纸后发表了自己的看法,热情可见一斑。 OpenAI 联合创始人之一、特斯拉前自动驾驶负责人 Andrei Karpathy 表示,这是一个很棒的 OCR 模型。 他表示,作为一个本质上研究计算机视觉并暂时冒充自然语言专家的人,他更感兴趣的是对于大规模语言模型来说,像素是否是比文本更好的输入。文本标记在输入端是浪费资源还是不好?也许更合理的是,LLM 的所有输入都应该是图像。即使您有纯文本输入,最好先渲染它,然后再编写它。更多信息压缩(参见文章)=更短的上下文窗口、更高的效率、更通用的信息流=不仅仅是文本,还有粗体文本、彩色文本和任意图像。现在您可以轻松ly 使用双向注意力来处理输入,默认情况下比自回归注意力更强大。删除分词器(输入侧)!我已经抱怨过我有多么讨厌标记器。分词器很丑陋、独立且不是端到端的。它“很重要”Unicode 和字节编码的所有丑陋之处,并且继承了许多历史问题和安全/越狱风险(例如连续字节)。两个乍一看相同的字符在网络上却表现为两个完全不同的代币。笑脸表情符号看起来更像是一种奇怪的显示,而不是真正的微笑、像素和所有伴随它的学习转移。您需要删除标记生成器。 OCR 只是有用的视觉文本任务的集合。文本到文本任务可以转换为视觉文本任务,但反之则不行。尽管大部分用户信息是图像,但解码器(智能助手的响应)仍然是文本。如何实际生成像素...或老鼠她,如果要生成像素,就不太清楚了。纽约大学助理教授谢彩宁也在推特上赞扬了卡帕蒂的评论。他对这句话特别有共鸣:“作为一个本质上研究计算机视觉、暂时冒充自然语言专家的人。” 毕竟,是谢赛宁第一个提出了 Diffuse Transformer(DiT),它将 Transformer 架构与扩散模型相结合,为 Vincent Video 开辟了一条新的道路。一些研究人员对 DeepSeek-OCR 研究的潜在重要性提供了更有趣的解释。 伊曼纽尔继续写道: 传统上,大规模多模态语言模型 Al 令牌几乎就像是事后的想法,或者是语言模型框架之上的“附加”功能。此外,如果文本以可区分的图像像素的形式表示,则多模态LLM中10,000个英语单词所占用的空间远大于文本标记所表示的空间。例如,10,000 个英文单词原本相当于 15,000 个文本标记,但转换为视觉标记时,可能会变成 30,000 到 60,000 个视觉标记。视觉标记已被证明效率低得多,并且以前仅适用于无法用文字有效表达的数据(例如图像或视觉场景)。然而,本文件中的建议推翻了所有这些。 DeepSeek 提出了一种方法,可以使视觉标记比文本标记的效率提高 10 倍。换句话说,原本需要 10,000 个单词的文本现在理论上可以用大约 1,500 个专门压缩的视觉标记来完整表示。当你思考人脑的工作原理时,这并不完全出乎意料。毕竟,当我们记住读过的书中的特定部分时,我们通常会通过视觉来定位它。记住内容在哪一页、在哪一侧以及页面的大致位置表明我们的大脑使用了某种类型f 视觉记忆表征机制。然而,目前尚不清楚这种机制如何在法学硕士后认知能力中表现出来。当模型使用这些压缩的视觉标记时,它仍然可以像使用常规文本标记一样进行智能推理吗?或者这种方法是否会让模式的表现力降低,因为你必须更直观地思考?无论如何,根据实际的性能权衡,我们相信这可能是一个有前途的新方向,可以显着扩展模型的有效上下文长度(上下文大小)。这张图片变得更加令人兴奋,特别是当与 DeepSeek 几周前发表的另一篇关于低关注度的文章结合起来时。更多信息请参见Heart of Machine报告,DeepSeek开源V3.2-Exp发布了新的DSA稀疏注意力机制。他还表示:“据我们所知,谷歌可能很早以前就发现了类似的技术,这也许可以解释为什么双子座模型有如此大的context 窗口,在 OCR 任务上运行得非常快、效果很好。当然,如果他们真的这么做了……“如果他们真的这么做了,他们可能不会公开说出来,但毕竟这很可能是一个根本性的商业秘密。而DeepSeek的可贵之处在于,他们选择了完全开源,包括他们模型的权重和方法的细节,这意味着任何人都可以实验和尝试。”并进一步探索这一进步。尽管这些技术可能会导致注意力机制的表示出现轻微的“损失”,但如果下一代 LLM 能够拥有 10 甚至 2000 万个 token 的上下文窗口,那肯定会令人兴奋。想象一下。您公司的所有重要内部文档都可以打包在序言中并缓存在 OpenAI 系统上。然后,只需添加您的具体问题或提示即可快速且经济地完成您的查询。需要一个搜索工具。或者,您可以在上下文中缓存整个代码库并添加 t他相当于每次重新进行更改时的 Git diff。他还说道:“这让我想起了著名物理学家汉斯·贝特的故事,他以惊人的记忆力而闻名,能够记住大量随机的物理数据(整个元素周期表、各种物质的沸点等),以至于他很少需要停下来查找。” “当我思考或计算时,我会上传数据。”毫无疑问,拥有丰富的任务相关知识并能够随时访问它是一种非常强大的能力。 DeepSeek方法是一种智能且可扩展的方法,有望增加模型的“工作记忆”容量。 10倍以上。看来 DeepSeek-OCR 也在 Hacker News 等平台上引发了广泛的争论。 Django Web 框架的联合创建者 Simon Willison 也能够让 Claude Code 在 Nvidia Spark 硬件上运行该模型。整个过程只用了四个关键词,持续时间只有40分钟。然而,值得注意的是,许多研究人员指出,虽然新的 DeepSeek 模型是不可否认的巨大工程成功,但其方法和核心思想并不是首创。事实上,哥本哈根大学等机构早在2022年就已经在一篇名为《Language Modeling with Pixels》的论文中提出了类似的想法。其中,提出了一种名为PIXEL的基于像素的语言编码器,有望解决语言模型中的词汇瓶颈问题。 PIXEL 架构概述,来自论文《Language Modeling with Pixels》,arXiv:2207.06991 具体来说,PIXEL 是一种预训练的语言模型,可以表示图像中的文本,能够基于文本形态和像素共激活模式的相似性在不同语言之间进行表示转移。与预测标记分布的传统语言模型不同,PIXEL 的训练目标是重建暗图像块中的像素。从那时起,许多研究成果发展并改进了这一研究思想,至少包括以下内容: CVPR Paper 2023:CLIPPO:仅从像素中理解图像和语言 NeurIPS Paper 2024:在多模态学习中利用增强文本上下文中的视觉标记 Paper 2024:通过屏幕截图提高语言理解 NeurIPS Paper 2025:以视觉为中心的标记 无论大规模语言模型中的压缩如何, DeepSeek-OCR 是 无疑是一种非常易于使用的模型方法,许多先驱者已经开始使用它。 当然,批评仍然存在。例如,前 OpenAI 和 DeepMind 研究员、现就职于 Meta 的 Lucas Beyer 就公开表示,DeepSeek-OCR 技术并不先进,也与人类不同。 最后,在对DeepSeek-OCR的热烈讨论中,一群老外还注意到了文档中一个有趣的示例信息,研究了什么是“先关心世界,只有当世界存在时才快乐”。d很高兴。” 对于人工智能和局外人来说,理解确切的含义肯定是困难的。您尝试过 DeepSeek-OCR 模型吗?您如何看待这背后的研究理念:“在视觉上压缩一切”? 特别声明:本文由网易自有媒体平台“网易号”作者上传发布,仅代表作者观点。只有网易提供信息传播平台。 注:以上内容(包括图片和视频,如有)由仅提供信息存储服务的社交媒体平台网易号用户上传发布。