每日一个开源AI工具之高质量的文档解析

高质量的文档解析工具（持续更新）

在 AI 时代，将各类文档（PDF、Word、PPT、图片等）转换为结构化数据是 RAG、知识库、智能问答的基础。本文介绍两个高质量的开源文档解析工具：Docling 和 MinerU。

一、Docling（IBM 开源）

Docling 由 IBM Research 苏黎世团队开发，支持多格式文档解析，输出统一的 Markdown/JSON/HTML，并与 LangChain、LlamaIndex、Crew AI 等 AI 框架无缝集成。

核心特性

多格式支持：PDF、DOCX、PPTX、XLSX、HTML、图片（PNG、TIFF、JPEG 等）、音视频（WAV、MP3、VTT）
深度 PDF 理解：版面结构、阅读顺序、表格、公式、代码块、图片分类
OCR：扫描 PDF 和图片的 OCR
本地部署：支持内网、离线环境
MCP Server：可与 Claude Desktop、Cursor 等通过 MCP 协议对接

安装

# Python 3.10+  required
pip install docling

基本用法

from docling.document_converter import DocumentConverter

# 支持本地路径或 URL
source = "https://arxiv.org/pdf/2408.09869"
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown())

命令行

# 转换单个文档
docling https://arxiv.org/pdf/2206.01062

# 使用 GraniteDocling VLM 模型（Apple Silicon 上可 MLX 加速）
docling --pipeline vlm --vlm-model granite_docling https://arxiv.org/pdf/2206.01062

二、MinerU（OpenDataLab）

MinerU 由 OpenDataLab 开源，面向学术论文、技术文档的结构化解析，常用于知识库构建和 RAG。

核心特性

论文解析：识别标题、摘要、章节、公式、图表、参考文献
多格式：PDF、图片、Markdown 等
结构化输出：Markdown、JSON 等便于后续处理
API 服务：提供在线 API，可按需接入

使用方式

本地部署：从 GitHub 克隆项目后按文档配置运行
在线 API：通过 mineru.net 申请 token 调用接口

三、使用建议

场景	推荐工具
通用文档解析、与 LangChain 等集成	Docling
学术论文、知识库构建	MinerU
需要 OCR 的扫描件	Docling（OCR 能力强）
内网/离线环境	Docling（本地运行）

官方资料

Docling: https://github.com/docling-project/docling
MinerU: https://github.com/opendatalab/mineru
MinerU API: https://mineru.net/apiManage/token

每日一个开源AI工具之高质量的文档解析

高质量的文档解析工具（持续更新）

一、Docling（IBM 开源）

核心特性

安装

基本用法

命令行

二、MinerU（OpenDataLab）

核心特性

使用方式

三、使用建议

官方资料

See Also

最近文章

分类

标签

其它