支持哪些输出格式？

支持JSON和XML两种结构化输出格式。JSON格式适合程序化处理与API对接，XML格式适合文档交换与归档系统集成。同时支持提取的图片单独导出为PNG文件。

文本提取

表格提取

元数据

核心功能

OFD 内容提取

Q: OFD内容提取能提取哪些类型的数据？

支持提取文本（含字体、字号、位置信息）、图片（原始分辨率）、表格（含单元格结构）、元数据（标题、作者、创建时间等）以及电子签章信息。输出结构化JSON或XML格式。

Q: 提取的文本能保留原文排版格式吗？

提取结果包含段落结构、文本坐标及字体属性信息。结构化输出会标注每个文本块的位置、字体、字号等语义信息，便于下游系统进行版面分析。

Q: 能否提取电子发票中的关键信息？

可以。支持自动识别并提取电子发票OFD中的发票代码、发票号码、开票日期、金额、税额、销售方及购买方信息等关键字段，并输出为结构化数据。

精准提取OFD文档中的文本、图片、表格及元数据，支持结构化JSON/XML格式输出。适用于电子发票信息提取、政务公文内容解析、数据迁移及业务系统集成场景。

文本 / 图片 / 表格

JSON / XML 输出

语义坐标定位

拖拽 OFD 文件到此处自动识别内容类型并提取

选择 OFD 文件

支持 .ofd 格式，自动提取文本、图片、表格及元数据

提取流程

三步完成内容提取

上传 OFD 文件

拖拽或点击上传，
自动识别文档类型

引擎智能提取

语义分析定位内容，
结构化整理数据

下载结构化数据

JSON/XML格式输出，
直接对接到业务系统

能力特性

全方位内容解析

基于自研语义分析引擎，超越普通文本抓取的智能提取能力

文本提取

精准提取OFD页面中的所有文字内容，保留段落结构、字体属性（字号/字体/颜色）及坐标位置信息，支持语义标注与版面分析。

图片提取

提取OFD文档中嵌入的所有图片资源，支持输出为原始分辨率PNG文件。保留图片在页面中的位置与尺寸信息，便于图文关联分析。

表格提取

识别并提取OFD文档中的表格结构，输出包含行列关系、单元格内容及合并信息的结构化数据。支持复杂跨页表格的自动拼接与还原。

元数据解析

提取文档元数据：标题、作者、主题、关键词、创建/修改时间、页数、文档ID等。支持自定义元数据字段扩展，满足行业特定信息提取需求。

结构化输出

支持JSON和XML两种标准格式输出，提供完整的JSON Schema定义。提取结果可直接对接数据库、搜索引擎或企业ERP/OA系统。

签章信息提取

识别并提取电子签章信息，包括签章类型、签署人、签署时间、签章位置及数字证书信息。支持GM/T 0031标准签章数据完整解析。

技术规格

智能提取性能指标

提取内容

文本、图片、表格、元数据、电子签章信息

输出格式

JSON（含Schema定义）、XML、提取图片PNG

文本精度

字符级99.9%准确率，保留字体与坐标属性

表格识别

支持有线/无线表格，跨页表格自动拼接

处理速度

单页 <100ms，单核1200页/分钟

语义标注

坐标定位、字体属性、段落结构、表格行列

文件大小

单文件最大支持 500MB+

部署方式

SaaS云服务 / 私有化部署 / API集成

常见问题

关于 OFD 内容提取

OFD内容提取能提取哪些类型的数据？

支持提取文本（含字体、字号、颜色及坐标信息）、图片（原始分辨率PNG）、表格（含行列结构与单元格合并信息）、元数据（标题、作者、创建时间等文档属性）以及电子签章信息。所有内容均输出为结构化JSON或XML格式。

提取的文本能保留原文排版格式吗？

提取结果包含完整的段落结构、文本坐标及字体属性信息（字号、字体名称、颜色值等）。每个文本块都会标注其在页面中的精确位置，便于下游系统进行版面分析、内容定位或全文检索索引构建。

能否提取电子发票中的关键信息？

可以。系统内置电子发票语义识别模块，可自动识别并提取OFD电子发票中的发票代码、发票号码、开票日期、购买方/销售方信息、金额、税额、合计等关键字段，直接输出为字段化结构化数据，方便对接金税系统与企业ERP。

表格跨页时如何处理？

引擎支持跨页表格的智能识别与自动拼接。通过分析表格线框、行列对齐及表头重复特征，将分散在多页的表格片段合并为完整的结构化数据，输出时标注原始页码以便溯源。

提取结果可以直接对接到数据库吗？

可以。JSON/XML输出格式附带完整的Schema定义，可直接导入MySQL、PostgreSQL、MongoDB等主流数据库。同时提供API接口支持程序化调用，提取结果可作为结构化数据直接写入业务系统数据库。

准备好提取您的 OFD 数据了吗？

立即免费试用，上传 OFD 文件体验智能内容提取

免费试用查看 API 文档