盘天下 | 精选资源分享

pdf-extract-api:高精度文档解析和提取API开源项目

编程开发 2024-11-22 1169 0

pdf-extract-api:高精度文档解析和提取 API 开源项目

一个文档解析和提取 API,支持将 PDF 或图片文件转换为结构化的 JSON 或 Markdown 格式。

它利用了先进的 OCR 技术和 Ollama 支持的 语言 模型来实现高精度文本转换和去除敏感信息。

支持离线运行、分布式任务处理、Redis 缓存、CLI 操作工具以及对图片中的表格、 数学 公式的处理。

开源地址:https:// github .com/CatchTheTornado/pdf- extra ct-api

闲趣赚

转载请注明出处,本文链接:https://pantx.cn/13827.html

(0)
收藏 (0)

评论列表