用 OCR、PDF 转文本和摘要接口构建 RAG 文档入库 Agent 用 OCR、PDF 转文本和摘要接口构建 RAG 文档入库 Agent摘要RAG 系统的效果很大程度取决于文档入库质量。本文用图片 OCR、PDF 转文本和 PDF 摘要接口演示一个文档入库 Agent先把文件内容变成可检索文本再生成摘要和索引元数据。关键词RAG 文档入库、OCR API、PDF 转文本 API、PDF 摘要 API、知识库 Agent问题背景企业知识库里常见的资料并不都是纯文本很多是扫描件、PDF 报告、合同截图或演示材料。如果直接把文件丢给模型成本高、失败难定位也不方便做增量更新。更稳定的做法是把文档处理拆开识别文本、生成摘要、切分段落、写入向量库。Agent 负责判断文件类型和调度工具底层内容转换由接口完成。Agent 工作流接口编排步骤接口请求方式用途图片识别通用图片文件流 OCR 到文本POST处理图片、扫描件、截图中的文字PDF 文本抽取通用 PDF 文件流 OCR 到文本POST把 PDF 转成可检索文本PDF 摘要PDF 全文多语言 AI 摘要POST生成文档摘要作为检索元数据调用示例上传 PDF 并抽取文本curl-XPOSThttps://api.gugudata.com/imagerecognition/pdf2text?appkeyYOUR_APPKEY\-Ffile./report.pdf对同一份 PDF 生成摘要curl-XPOSThttps://api.gugudata.com/ai/summarize?appkeyYOUR_APPKEYlangzh-cnstreamingfalse\-Ffile./report.pdfPython 侧可以把转换结果交给入库任务importrequests APPKEYYOUR_APPKEYdefpdf_to_text(path:str)-str:Convert a PDF file to text before indexing.withopen(path,rb)asfile_obj:responserequests.post(https://api.gugudata.com/imagerecognition/pdf2text,params{appkey:APPKEY},files{file:file_obj},timeout120,)response.raise_for_status()payloadresponse.json()returnpayload[Data]入库设计文档入库时建议保存这些字段字段说明document_id自己系统里的文档 IDsource_file原始文件名或业务来源extracted_textOCR 或 PDF 转文本结果summary摘要接口返回的文档摘要chunk_id分段后的文本块 IDextracted_at转换时间便于刷新和审计错误处理图片或 PDF 转换失败时Agent 不应该直接生成答案。它应该把文档标记为“转换失败”保留失败原因并允许人工重新上传或换用更清晰的文件。对于大文件可以先做文件大小和格式检查再调用接口减少无效请求。工程注意点OCR 结果要保留原始页码或文件来源方便定位答案出处。分段时不要只按固定字数切分要尽量保留标题、段落和表格上下文。入库前去掉明显页眉、页脚和重复水印减少检索噪声。对敏感文档先做权限控制再开放给问答系统。标准架构拆解文档 RAG 入库通常分为“文件处理”和“检索构建”两条线模块责任文件接收接收 PDF、图片或扫描件并记录来源内容转换OCR、PDF 转文本、PDF 摘要文本规范化清理页眉页脚、合并断行、保留页码分块索引按标题、页码和语义边界切分文本检索服务向量检索、关键词检索和答案引用Agent 不应该直接跳到问答。只有当文档完成转换、分块、索引和权限标记后才适合作为问答数据源。否则答案很难解释也难以追踪来源。数据流与接口边界推荐的数据流是文件上传后生成document_id。根据文件类型选择 OCR 或 PDF 转文本。对 PDF 同步生成摘要作为文档级元数据。清洗文本并保留页码、段落和来源文件。生成 chunk并写入向量库或全文索引。查询时返回答案、引用片段和页码。OCR 接口和 PDF 转文本接口的输出属于“原始识别文本”不建议直接作为最终答案。摘要接口输出属于“文档级概览”适合放在文档列表、搜索结果卡片或问答上下文开头。可靠性与观测文档入库要关注以下指标指标用途conversion_success_rate文件转换成功率extracted_text_length判断空白页或低质量扫描件chunk_count判断分块是否异常indexing_latency_ms入库耗时answer_citation_rate问答是否能返回引用来源失败状态要明确记录在文档级别。常见状态包括“等待转换”“转换失败”“等待索引”“索引完成”“权限未配置”。这样前端和运营都能知道文档处于哪一步。落地清单文件入库前先计算哈希避免重复上传。每个 chunk 保存document_id、页码、标题路径和原文片段。摘要只作为辅助元数据不替代原文检索。权限控制要在检索前生效不是在生成答案后再过滤。对扫描质量差的文档建立人工复核入口。可扩展方向这个 Agent 可以继续接入 PII 去除接口在入库前处理个人信息也可以接入关键词提取接口为每份文档生成标签提高搜索和推荐质量。相关接口通用图片文件流 OCR 到文本通用 PDF 文件流 OCR 到文本PDF 全文多语言 AI 摘要