文本和表格提取

从PDF文件中 提取文本和表格

从任意PDF中提取干净的文本和结构化表格数据。非常适合数据管道、搜索索引、内容分析以及为AI/LLM模型提供输入。

cURLPythonNode.jsn8n
# JSON with tables — /v2/pdf/extract-text (recommended)
curl -X POST \
  https://api.convertfilefast.com/v2/pdf/extract-text \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -F "file=@report.pdf" \
  -F "pages=1-5" \
  -F "extract_tables=true"

# Plain text file — /v2/convert/pdf-to-txt
curl -X POST \
  https://api.convertfilefast.com/v2/convert/pdf-to-txt \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -F "file=@report.pdf" \
  --output extracted.txt
Conversion completed in <2s

优势

为什么使用我们的API?

完整可靠的解决方案,适用于任何技术栈的集成。

文本提取

通过适当的段落检测从任意PDF中提取干净的结构化文本。

表格检测

自动检测并将表格提取为结构化数据数组以供处理。

页面选择

从特定页面(如"1,3,5-7")或所有页面一次性提取。

元数据访问

与提取的文本内容一起获取PDF元数据(标题、作者、创建日期)。

AI/LLM就绪

非常适合将提取的内容输入ChatGPT、Claude或自定义AI模型管道。

管道集成

轻松集成到n8n、Airflow或自定义处理脚本的ETL管道中。

开始从PDF提取文本

获取API密钥,在几秒内从PDF文档中提取文本。免费计划每月包含10次转换。

无需信用卡。Free计划10次免费转换。