nvidia imita calla nemotron nano vl ai:克服高效而精确

在6月5日的新闻中,技术媒体Marktechpost昨天发表了一篇博客文章,告知Nvidia启动了Llama Nemotron Nano VL的视觉语言模型(VLM),以有效,精确地处理文档级别的理解任务。基于架构调用3.1,火焰Nemotron Nano VL将Cradiov2-H视觉编码器与教学调整语言模型调用3.1 8b集成。您可以在几个页面的文档中处理视觉和文本元素,同时承认上下文长度高达16K,并涵盖图像和文本序列。该模型通过投影层的编码和旋转位置来实现视觉文本的对齐,优化了令牌的效率,并且特别适用于可以轻松用于输入多个图像或复杂文本分析的多模式长格式任务。该模型的训练分为三个阶段。首先,我们使用商业数据和视频数据集将图形与固执受保护和文本预生化。其次,多模式指令的精细调整改善了即时的互动功能。最后,我们回想起没有格式的文本指令数据,可以通过标准语言模型的参考点优化性能。使用NVIDIA的Megatron-LLM能量数据和能量数据进行了培训,并在GPU A100和H100 GPU组中完成。在参考点Ocrbench V2时,该模型的任务达到了与大型模型相当的任务的关键精度,例如OCR,表分析,图形推理和特殊数据提取(例如表和钥匙值对)以及与设计相关的问题。在实施方面,火焰Nemotron Nano VL是灵活的,旨在允许推理方案de Server and Edge。 NVIDIA提供了定量的4位版本(AWQ),该版本结合了Tinychat和Tensort-llm以进行有效的推断,并且与Jets等有限环境兼容在Orinhay上。该模型还允许NIM模块化(NVIDIA推理微服务),ONNX和张口出口。此外,NVIDIA进一步通过预贴上的视觉嵌入选项来减少静态图像文档处理的延迟,从而为业务应用提供了实用的解决方案。附加了参考地址