Navigation menu
 Heart of Machine 报告编辑:Zenan,Panda “我真的很喜欢新的 DeepSeek-OCR 文档...对于所有 LLM 输入都是图像可能更有意义。即使您有纯文本输入,您也应该先渲染它们,然后再输入它们。”一夜之间,DeepSeek的新模型似乎打破了大规模模型范式。昨天下午,一个新的DeepSeek-OCR模型突然开启。在处理该模型时,一篇 1000 字的文章可以被压缩为 100 个视觉标记,并且在 10 倍压缩的情况下,准确率达到 97%。 NVIDIA A100每天可以处理20万页数据。这种方法有潜力解决目前大规模模型领域令人头疼的长期上下文效率问题。更重要的是,如果最终确定“观看”文本而不是“阅读”文本是正确的方向,也将意味着更广泛模型的配对范式将发生重大变化。在 GitHub 上,DeepSeek-OCR 项目获得了超过 4,0一夜00星。由于 DeepSeek-OCR 是一个小型开源模型,因此首先由整个 AI 社区进行测试。不少大人物读完报纸后发表了自己的看法,热情可见一斑。 OpenAI 联合创始人之一、特斯拉前自动驾驶负责人 Andrei Karpathy 表示,这是一个很棒的 OCR 模型。他表示,作为一个本质上研究计算机视觉并暂时冒充自然语言专家的人,他更感兴趣的是对于大规模语言模型来说,像素是否是比文本更好的输入。文本标记在输入端是浪费资源还是不好?也许更合理的是,LLM 的所有输入都应该是图像。即使您有纯文本输入,它也会呈现出更好的先写再写的效果。更多信息压缩(参见文章) = 更短的上下文窗口,更高效、更通用的信息流 = 不仅显示文本,还显示粗体文本、彩色文本和任何图像。现在您可以轻松y 使用双向注意力来处理输入,默认情况下比自回归注意力更强大。删除分词器(输入侧)!我已经抱怨过我有多么讨厌标记器。分词器很丑陋、独立且不是端到端的。它“很重要”Unicode 和字节编码的所有丑陋之处,并且继承了许多历史问题和安全/越狱风险(例如连续字节)。两个乍一看相同的字符在网络上却表现为两个完全不同的代币。笑脸表情符号看起来更像是一种奇怪的显示,而不是真正的微笑,像素等等,以及所有陪伴他的转移学习。您需要删除标记生成器。 OCR 只是许多有用的视觉文本任务之一。文本 文本 该任务可以转换为可视文本任务,但反之则不行。尽管大部分用户信息是图像,但解码器(智能助手的响应)仍然是文本。如何实际生成像素...或 r另外,如果要生成像素,则不太清楚。纽约大学助理教授谢彩宁也在推特上赞扬了卡帕蒂的评论。他对这句话特别有共鸣:“作为一个本质上研究计算机视觉、暂时冒充自然语言专家的人。”毕竟,是谢赛宁第一个提出了 Diffuse Transformer(DiT),它将 Transformer 架构与扩散模型相结合,为 Vincent Video 开辟了一条新的道路。一些研究人员对 DeepSeek-OCR 研究的重要性和潜力提供了更有趣的解释。伊曼纽尔继续写道:传统上,视觉标记很大程度上是大规模多模式语言模型中的事后想法,或者是语言模型框架中的“附加”功能。此外,如果文本以可区分的图像像素的形式表示,则多模态LLM中10,000个英语单词所占用的空间远大于文本标记所表示的空间。为了例如,10,000 个英语文本单词最初相当于 15,000 个文本标记,但转换为视觉标记时,可能会变成 30,000 到 60,000 个视觉标记。视觉标记已被证明效率低得多,并且以前仅适用于无法用文字有效表达的数据(例如图像或视觉场景)。然而,本文件中的建议推翻了所有这些。 DeepSeek 设计了一种方法,使视觉标记的效率比文本标记高 10 倍。换句话说,原本需要 10,000 个单词的文本现在理论上可以用大约 1,500 个专门压缩的视觉标记来完整表示。当你思考人脑的工作原理时,这并不完全出乎意料。毕竟,当我们记住读过的书中的特定部分时,我们通常会通过视觉来定位它。记住内容在哪一页、在哪一侧以及页面的大致位置表明我们的大脑使用了某种类型e 视觉记忆表征机制。然而,目前尚不清楚这种机制如何在法学硕士后认知能力中表现出来。当模型使用这些压缩的视觉标记时,它仍然可以像使用常规文本标记一样进行智能推理吗?或者这种方法是否会降低模型的表现力,因为你必须更加直观地思考?无论如何,根据实际的性能权衡,我们相信这可能是一个有前途的新方向,可以显着扩展模型的有效上下文大小。这张图片变得更加令人兴奋,尤其是与 DeepSeek 几周前发表的另一篇关于低关注度的文章结合起来。更多信息请参阅 Heart of M.See Achine 的报告:DeepSeek Open Source V3.2-Exp Releases New DSA Sparse Attention Mechanism。他还表示:“据我们所知,谷歌可能很早以前就发现了类似的技术,这也许可以解释为什么 Gemini 模型有如此大的上下文窗口,并且在 OCR 任务上工作得非常快并且效果很好。当然,如果他们真的这么做了……“如果他们真的这么做了,他们可能不会公开说出来,但毕竟这很可能被认为是一个秘密。或者说是根本性的商业。而DeepSeek的可贵之处在于,他们选择了完全开源,包括他们模型的权重和方法的细节,这意味着任何人都可以实验和尝试。”并进一步探索这一进步。尽管这些技术可能会导致注意力机制的表示出现轻微的“损失”,但如果下一代 LLM 能够拥有 10 甚至 2000 万个 token 的上下文窗口,那肯定会令人兴奋。想象一下。您公司的所有重要内部文档都可以打包在序言中并缓存在 OpenAI 系统上。然后,只需添加您的具体问题或提示即可快速且经济地完成您的查询。需要一个搜索工具。或者,您可以在上下文中缓存整个代码库并添加等效项每次进行更改时都会生成一个 Git diff。他还说:“这让我想起了著名物理学家汉斯·贝特的故事,他以不可思议的记忆力而闻名,能够记住大量随机物理数据(整个元素周期表、各种物质的沸点等),以至于他很少需要停下来查找。” “当我思考或计算时,我会上传数据。”毫无疑问,拥有丰富的任务相关知识并能够随时访问它是一种非常强大的能力。这种 DeepSeek 方法似乎是一种智能且可扩展的方法,有望增加“工作记忆”的容量。模型的10倍以上。 DeepSeek-OCR 确实,也在 Hacker News 等平台上引发了广泛争论。 Django Web 框架的联合创建者 Simon Willison 也能够让 Claude Code 在 Nvidia Spark 硬件上运行该模型。整个过程只用了四个关键词,持续了短短40分钟。视频博主T技术NiceKate AI已成功移植到Mac。不过,值得注意的是,许多研究人员指出,虽然新的 DeepSeek 模型在工程上是不可否认的巨大成功,但其方法和核心思想并不是首创。事实上,哥本哈根大学等机构早在2022年就在一篇名为《Language Modeling with Pixels》的论文中提出了类似的想法。其中,提出了一种名为PIXEL的基于像素的语言编码器,有望解决语言模型中的词汇瓶颈问题。 PIXEL 架构概述,来自论文《Language Modeling with Pixels》,arXiv:2207.06991 具体来说,PIXEL 是一种预训练的语言模型,可以表示图像中的文本,能够基于文本形态和像素共激活模式的相似性在不同语言之间进行表示转移。 TO与预测token分布的传统语言模型不同,PIXEL的训练目标是重新在暗图像块中构造像素。从那时起,许多研究成果发展并改进了这一研究思路,至少包括以下内容: CVPR Paper 2023:CLIPPO:仅从像素中理解图像和语言 NeurIPS Paper 2024:在多模态学习中利用增强文本上下文中的视觉标记 Paper 2024:通过屏幕截图提高语言理解 NeurIPS Paper 2025:以视觉为中心的标记 无论大规模语言模型中的压缩如何, DeepSeek-OCR 是 无疑非常有用。这是一个简单的模型,许多先驱者已经开始使用它。当然,批评仍然存在。例如,前 OpenAI 和 DeepMind 研究员、现就职于 Meta 的 Lucas Beyer 就公开表示,teasDeepSeek-OCR 视锥细胞并不先进,与人类不同。最后,在对DeepSeek-OCR的热烈讨论中,一群老外还注意到文档中的一个有趣的示例信息,研究什么是“先关心世界,再关心世界”。理解其确切含义对于人工智能和外行来说肯定是困难的。您尝试过 DeepSeek-OCR 模型吗?您如何看待这背后的研究思想:“视觉上压缩一切”?
 特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
 注:以上内容(包括图片和视频,如有)由网易号用户上传并发布,网易号是一个仅提供信息存储的社交媒体平台。
Heart of Machine 报告编辑:Zenan,Panda “我真的很喜欢新的 DeepSeek-OCR 文档...对于所有 LLM 输入都是图像可能更有意义。即使您有纯文本输入,您也应该先渲染它们,然后再输入它们。”一夜之间,DeepSeek的新模型似乎打破了大规模模型范式。昨天下午,一个新的DeepSeek-OCR模型突然开启。在处理该模型时,一篇 1000 字的文章可以被压缩为 100 个视觉标记,并且在 10 倍压缩的情况下,准确率达到 97%。 NVIDIA A100每天可以处理20万页数据。这种方法有潜力解决目前大规模模型领域令人头疼的长期上下文效率问题。更重要的是,如果最终确定“观看”文本而不是“阅读”文本是正确的方向,也将意味着更广泛模型的配对范式将发生重大变化。在 GitHub 上,DeepSeek-OCR 项目获得了超过 4,0一夜00星。由于 DeepSeek-OCR 是一个小型开源模型,因此首先由整个 AI 社区进行测试。不少大人物读完报纸后发表了自己的看法,热情可见一斑。 OpenAI 联合创始人之一、特斯拉前自动驾驶负责人 Andrei Karpathy 表示,这是一个很棒的 OCR 模型。他表示,作为一个本质上研究计算机视觉并暂时冒充自然语言专家的人,他更感兴趣的是对于大规模语言模型来说,像素是否是比文本更好的输入。文本标记在输入端是浪费资源还是不好?也许更合理的是,LLM 的所有输入都应该是图像。即使您有纯文本输入,它也会呈现出更好的先写再写的效果。更多信息压缩(参见文章) = 更短的上下文窗口,更高效、更通用的信息流 = 不仅显示文本,还显示粗体文本、彩色文本和任何图像。现在您可以轻松y 使用双向注意力来处理输入,默认情况下比自回归注意力更强大。删除分词器(输入侧)!我已经抱怨过我有多么讨厌标记器。分词器很丑陋、独立且不是端到端的。它“很重要”Unicode 和字节编码的所有丑陋之处,并且继承了许多历史问题和安全/越狱风险(例如连续字节)。两个乍一看相同的字符在网络上却表现为两个完全不同的代币。笑脸表情符号看起来更像是一种奇怪的显示,而不是真正的微笑,像素等等,以及所有陪伴他的转移学习。您需要删除标记生成器。 OCR 只是许多有用的视觉文本任务之一。文本 文本 该任务可以转换为可视文本任务,但反之则不行。尽管大部分用户信息是图像,但解码器(智能助手的响应)仍然是文本。如何实际生成像素...或 r另外,如果要生成像素,则不太清楚。纽约大学助理教授谢彩宁也在推特上赞扬了卡帕蒂的评论。他对这句话特别有共鸣:“作为一个本质上研究计算机视觉、暂时冒充自然语言专家的人。”毕竟,是谢赛宁第一个提出了 Diffuse Transformer(DiT),它将 Transformer 架构与扩散模型相结合,为 Vincent Video 开辟了一条新的道路。一些研究人员对 DeepSeek-OCR 研究的重要性和潜力提供了更有趣的解释。伊曼纽尔继续写道:传统上,视觉标记很大程度上是大规模多模式语言模型中的事后想法,或者是语言模型框架中的“附加”功能。此外,如果文本以可区分的图像像素的形式表示,则多模态LLM中10,000个英语单词所占用的空间远大于文本标记所表示的空间。为了例如,10,000 个英语文本单词最初相当于 15,000 个文本标记,但转换为视觉标记时,可能会变成 30,000 到 60,000 个视觉标记。视觉标记已被证明效率低得多,并且以前仅适用于无法用文字有效表达的数据(例如图像或视觉场景)。然而,本文件中的建议推翻了所有这些。 DeepSeek 设计了一种方法,使视觉标记的效率比文本标记高 10 倍。换句话说,原本需要 10,000 个单词的文本现在理论上可以用大约 1,500 个专门压缩的视觉标记来完整表示。当你思考人脑的工作原理时,这并不完全出乎意料。毕竟,当我们记住读过的书中的特定部分时,我们通常会通过视觉来定位它。记住内容在哪一页、在哪一侧以及页面的大致位置表明我们的大脑使用了某种类型e 视觉记忆表征机制。然而,目前尚不清楚这种机制如何在法学硕士后认知能力中表现出来。当模型使用这些压缩的视觉标记时,它仍然可以像使用常规文本标记一样进行智能推理吗?或者这种方法是否会降低模型的表现力,因为你必须更加直观地思考?无论如何,根据实际的性能权衡,我们相信这可能是一个有前途的新方向,可以显着扩展模型的有效上下文大小。这张图片变得更加令人兴奋,尤其是与 DeepSeek 几周前发表的另一篇关于低关注度的文章结合起来。更多信息请参阅 Heart of M.See Achine 的报告:DeepSeek Open Source V3.2-Exp Releases New DSA Sparse Attention Mechanism。他还表示:“据我们所知,谷歌可能很早以前就发现了类似的技术,这也许可以解释为什么 Gemini 模型有如此大的上下文窗口,并且在 OCR 任务上工作得非常快并且效果很好。当然,如果他们真的这么做了……“如果他们真的这么做了,他们可能不会公开说出来,但毕竟这很可能被认为是一个秘密。或者说是根本性的商业。而DeepSeek的可贵之处在于,他们选择了完全开源,包括他们模型的权重和方法的细节,这意味着任何人都可以实验和尝试。”并进一步探索这一进步。尽管这些技术可能会导致注意力机制的表示出现轻微的“损失”,但如果下一代 LLM 能够拥有 10 甚至 2000 万个 token 的上下文窗口,那肯定会令人兴奋。想象一下。您公司的所有重要内部文档都可以打包在序言中并缓存在 OpenAI 系统上。然后,只需添加您的具体问题或提示即可快速且经济地完成您的查询。需要一个搜索工具。或者,您可以在上下文中缓存整个代码库并添加等效项每次进行更改时都会生成一个 Git diff。他还说:“这让我想起了著名物理学家汉斯·贝特的故事,他以不可思议的记忆力而闻名,能够记住大量随机物理数据(整个元素周期表、各种物质的沸点等),以至于他很少需要停下来查找。” “当我思考或计算时,我会上传数据。”毫无疑问,拥有丰富的任务相关知识并能够随时访问它是一种非常强大的能力。这种 DeepSeek 方法似乎是一种智能且可扩展的方法,有望增加“工作记忆”的容量。模型的10倍以上。 DeepSeek-OCR 确实,也在 Hacker News 等平台上引发了广泛争论。 Django Web 框架的联合创建者 Simon Willison 也能够让 Claude Code 在 Nvidia Spark 硬件上运行该模型。整个过程只用了四个关键词,持续了短短40分钟。视频博主T技术NiceKate AI已成功移植到Mac。不过,值得注意的是,许多研究人员指出,虽然新的 DeepSeek 模型在工程上是不可否认的巨大成功,但其方法和核心思想并不是首创。事实上,哥本哈根大学等机构早在2022年就在一篇名为《Language Modeling with Pixels》的论文中提出了类似的想法。其中,提出了一种名为PIXEL的基于像素的语言编码器,有望解决语言模型中的词汇瓶颈问题。 PIXEL 架构概述,来自论文《Language Modeling with Pixels》,arXiv:2207.06991 具体来说,PIXEL 是一种预训练的语言模型,可以表示图像中的文本,能够基于文本形态和像素共激活模式的相似性在不同语言之间进行表示转移。 TO与预测token分布的传统语言模型不同,PIXEL的训练目标是重新在暗图像块中构造像素。从那时起,许多研究成果发展并改进了这一研究思路,至少包括以下内容: CVPR Paper 2023:CLIPPO:仅从像素中理解图像和语言 NeurIPS Paper 2024:在多模态学习中利用增强文本上下文中的视觉标记 Paper 2024:通过屏幕截图提高语言理解 NeurIPS Paper 2025:以视觉为中心的标记 无论大规模语言模型中的压缩如何, DeepSeek-OCR 是 无疑非常有用。这是一个简单的模型,许多先驱者已经开始使用它。当然,批评仍然存在。例如,前 OpenAI 和 DeepMind 研究员、现就职于 Meta 的 Lucas Beyer 就公开表示,teasDeepSeek-OCR 视锥细胞并不先进,与人类不同。最后,在对DeepSeek-OCR的热烈讨论中,一群老外还注意到文档中的一个有趣的示例信息,研究什么是“先关心世界,再关心世界”。理解其确切含义对于人工智能和外行来说肯定是困难的。您尝试过 DeepSeek-OCR 模型吗?您如何看待这背后的研究思想:“视觉上压缩一切”?
 特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
 注:以上内容(包括图片和视频,如有)由网易号用户上传并发布,网易号是一个仅提供信息存储的社交媒体平台。