这项由法国LightOn公司主导的研究发表于2025年1月,论文编号为arXiv:2601.14251v1,为文档识别领域带来了一项令人瞩目的突破。有兴趣深入了解技术细节的读者可以通过该编号查询完整论文。
我们一直在生产环境中使用 Mistral OCR 处理销售和采购发票,实现 ERP 系统的零人工数据录入。现在 v3 在表单和手写内容上准确率提升了 74%,终于让我们能够将覆盖范围扩展到送货单、水电账单以及过去只能靠人工处理的遗留档案。
近日,Mistral公司推出了其光学字符识别(OCR)模型的最新版本——Mistral OCR 3。这一版本专注于提升多种文档类型的识别精度,尤其是在手写笔记、表单、低质量扫描件和复杂表格等方面。Mistral表示,OCR 3相比于前一代产品,是一次显著的技术飞跃。
阶跃星辰的多项测评显示,Step3-VL-10B的性能可以 媲美甚至超越规模大10-20倍的开源模型 ,如GLM-4.6V 106B-A12B、Qwen3-VL-Thinking 235B-A22B以及闭源旗舰模型,如Gemini 2.5 ...
9月28日,在工业和信息化部、北京市人民政府、国际电信联盟ITU-T指导的2020 AIIA人工智能开发者大会上,主办方正式发布国内首份智能文字识别(OCR)能力测评与应用白皮书。白皮书从OCR发展背景、技术沿革、产业发展现状、技术标准化、发展趋势等多个维度 ...
前段时间,微信 PC 端更新了一个 OCR 功能,能识别图片里的文字。 说实话,这应该是微信 10 年来推出的最实用功能之一了。 比如你用微信截图时,只要点击下方的「 识别文字 」,就可以获取截图里的文字。 在微信里收到的图片,也支持你直接选取文字复制。
9月28日,在工业和信息化部、北京市人民政府、国际电信联盟ITU-T指导的2020 AIIA人工智能开发者大会上,主办方正式发布国内首份智能文字识别(OCR)能力测评与应用白皮书。白皮书从OCR发展背景、技术沿革、产业发展现状、技术标准化、发展趋势等多个维度 ...
IT之家 11 月 25 日消息,腾讯混元今日宣布推出全新开源模型 HunyuanOCR,参数仅为 1B,依托于混元原生多模态架构打造,获得多项业界 OCR 应用榜单 SOTA(IT之家注:最先进水平)成绩。 腾讯官方表示,得益于混元原生多模态大模型“端到端”的理念设计,HunyuanOCR ...
大语言模型,理应向更高维跃迁。 DeepSeek OCR是一个不错的OCR小模型,但过誉了。 知乎网友指出,即使横向对比OCR最优秀的几个模型,它也不是最靠前的那个。 在下面两个案例里,3B大小(30亿参数)的DeepSeek OCR在数学公式展开里没有识别出“极坐标”,识别表格 ...