高质量的文档解析工具(持续更新)

在 AI 时代,将各类文档(PDF、Word、PPT、图片等)转换为结构化数据是 RAG、知识库、智能问答的基础。本文介绍两个高质量的开源文档解析工具:DoclingMinerU


一、Docling(IBM 开源)

Docling 由 IBM Research 苏黎世团队开发,支持多格式文档解析,输出统一的 Markdown/JSON/HTML,并与 LangChain、LlamaIndex、Crew AI 等 AI 框架无缝集成。

核心特性

  • 多格式支持:PDF、DOCX、PPTX、XLSX、HTML、图片(PNG、TIFF、JPEG 等)、音视频(WAV、MP3、VTT)
  • 深度 PDF 理解:版面结构、阅读顺序、表格、公式、代码块、图片分类
  • OCR:扫描 PDF 和图片的 OCR
  • 本地部署:支持内网、离线环境
  • MCP Server:可与 Claude Desktop、Cursor 等通过 MCP 协议对接

安装

# Python 3.10+  required
pip install docling

基本用法

from docling.document_converter import DocumentConverter

# 支持本地路径或 URL
source = "https://arxiv.org/pdf/2408.09869"
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown())

命令行

# 转换单个文档
docling https://arxiv.org/pdf/2206.01062

# 使用 GraniteDocling VLM 模型(Apple Silicon 上可 MLX 加速)
docling --pipeline vlm --vlm-model granite_docling https://arxiv.org/pdf/2206.01062

二、MinerU(OpenDataLab)

MinerU 由 OpenDataLab 开源,面向学术论文、技术文档的结构化解析,常用于知识库构建和 RAG。

核心特性

  • 论文解析:识别标题、摘要、章节、公式、图表、参考文献
  • 多格式:PDF、图片、Markdown 等
  • 结构化输出:Markdown、JSON 等便于后续处理
  • API 服务:提供在线 API,可按需接入

使用方式

  • 本地部署:从 GitHub 克隆项目后按文档配置运行
  • 在线 API:通过 mineru.net 申请 token 调用接口

三、使用建议

场景 推荐工具
通用文档解析、与 LangChain 等集成 Docling
学术论文、知识库构建 MinerU
需要 OCR 的扫描件 Docling(OCR 能力强)
内网/离线环境 Docling(本地运行)

官方资料