Skip to content
MinerU

MinerU

轻量高效文档解析工具,可将PDF/图片/电子书精准转为Markdown/JSON

应用特点

开源OCRPDF

系统要求

建议16GB以上内存。预留足够硬盘空间,建议17GB以上。
macOS 15及以上版本,支持Intel和M系列芯片。
Windows 10/11,可用Intel, AMD CPU,推荐用NVIDIA GPU。
注意:NVIDIA显卡,请安装较新版本的驱动。

应用介绍

MinerU是由上海人工智能实验室OpenDataLab团队开发的一站式开源智能文档解析工具,专注解决大模型训练、RAG系统与知识库构建中的高质量结构化数据提取难题。

一、核心功能(普通用户友好)

  • PDF深度解析:自动提取文本、表格、图片、公式(转LaTeX),精准识别标题/段落/列表,保留原始排版;支持扫描版PDF的OCR识别,自动过滤页眉、页脚、脚注等冗余内容。
  • 多格式兼容:支持PDF、PNG/JPEG等图片、EPUB/MOBI/DOCX电子书,还能从网页抽取纯净正文。
  • 多语言覆盖:支持109+种语言OCR,适配跨国资料处理。
  • 结构化输出:一键转Markdown(含多模态元素)、JSON、HTML,输出符合机器阅读顺序,便于大模型直接使用。
  • 轻量高效:0.9B小参数模型,消费级显卡单卡可流畅运行,推理速度快、部署成本低。
  • 科学数据能力:高精度提取数学公式、化学分子式、化学反应式,适配科研文档解析。

二、适用场景

  • 大模型训练语料清洗与结构化
  • RAG系统、企业知识库构建
  • 学术论文、科研报告、财务报表解析
  • 电子书批量转换、网页内容提取
  • 扫描文档数字化与信息抽取

三、底层技术

  • 视觉语言模型(VLM)、LayoutLMv3(版面分析)
  • 自研YOLOv8(公式检测)+ UniMERNet(公式转LaTeX)
  • PaddleOCR(多语言文字识别)
  • SGLang推理优化、Native-Res ViT原生高分辨率视觉技术
  • 基于PDF-Extract-Kit多模块解析架构