PP-DocLayout

PP-DocLayout 系列提供了三个不同尺度的模型

高精度模型：PP-DocLayout-L，GPU 上每个页面端到端推理耗时 13.4 ms
精度和效率均衡模型：PP-DocLayout-M，GPU 上每个页面端到端推理耗时 12.7ms
高效率模型：PP-DocLayout-S，GPU上每个页面处理耗时约 8.1ms

Marker

Marker 是一款基于先进 OCR（光学字符识别）技术的文件转换工具。它不仅可以处理 PDF 文件，还能处理各种图像格式（如 PNG、JPEG 等），并将其内容转换为结构化的 Markdown、JSON 或 HTML 格式。无论是文字、表格还是图像，Marker 都能精准识别并转换，确保输出内容的完整性和准确性。

特点

高精度 OCR 识别
Marker 采用了最新的 OCR 技术，能够准确识别 PDF 和图像中的文字内容。即使是复杂的排版、多列文本或手写字体，Marker 也能轻松应对，确保转换后的内容与原文件高度一致。
多格式输出
Marker 支持将文件转换为多种格式，满足不同场景的需求：
• Markdown：适合需要进一步编辑或发布到博客、文档平台的用户。
• JSON：适合开发者和数据分析师，方便进行结构化数据处理。
• HTML：适合需要网页展示或嵌入到网站中的用户。
批量处理
Marker 支持批量处理文件，用户可以一次性上传多个 PDF 或图像文件，Marker 会自动将其转换为指定的格式，大大节省了时间和精力。
保持原始格式
Marker 不仅能够识别文字内容，还能保留原始文件的格式，如标题、段落、列表、表格等。转换后的 Markdown、JSON 或 HTML 文件能够清晰地反映原文件的结构，方便后续编辑和使用。
跨平台支持
Marker 支持多种操作系统，包括 Windows、macOS 和 Linux，用户可以在不同的设备上使用 Marker 进行文件转换。

安装

1	pip install marker-pdf

使用

命令行使用

# 转换一个文件
marker_single /path/to/file.pdf
# 转换一个目录下的所有文件
marker /path/to/input/folder --workers 4
# 使用多个gpu进行转换
NUM_DEVICES=4 NUM_WORKERS=15 marker_chunk_convert ../pdf_in ../md_out

python调用

from marker.converters.pdf import PdfConverter
from marker.models import create_model_dict
from marker.output import text_from_rendered
converter = PdfConverter(
    artifact_dict=create_model_dict(),
)
rendered = converter("FILEPATH")
text, _, images = text_from_rendered(rendered)