OFD 内容提取
精准提取OFD文档中的文本、图片、表格及元数据,支持结构化JSON/XML格式输出。适用于电子发票信息提取、政务公文内容解析、数据迁移及业务系统集成场景。
支持 .ofd 格式,自动提取文本、图片、表格及元数据
三步完成内容提取
上传 OFD 文件
拖拽或点击上传,
自动识别文档类型
引擎智能提取
语义分析定位内容,
结构化整理数据
下载结构化数据
JSON/XML格式输出,
直接对接到业务系统
全方位内容解析
基于自研语义分析引擎,超越普通文本抓取的智能提取能力
文本提取
精准提取OFD页面中的所有文字内容,保留段落结构、字体属性(字号/字体/颜色)及坐标位置信息,支持语义标注与版面分析。
图片提取
提取OFD文档中嵌入的所有图片资源,支持输出为原始分辨率PNG文件。保留图片在页面中的位置与尺寸信息,便于图文关联分析。
表格提取
识别并提取OFD文档中的表格结构,输出包含行列关系、单元格内容及合并信息的结构化数据。支持复杂跨页表格的自动拼接与还原。
元数据解析
提取文档元数据:标题、作者、主题、关键词、创建/修改时间、页数、文档ID等。支持自定义元数据字段扩展,满足行业特定信息提取需求。
结构化输出
支持JSON和XML两种标准格式输出,提供完整的JSON Schema定义。提取结果可直接对接数据库、搜索引擎或企业ERP/OA系统。
签章信息提取
识别并提取电子签章信息,包括签章类型、签署人、签署时间、签章位置及数字证书信息。支持GM/T 0031标准签章数据完整解析。
智能提取性能指标
关于 OFD 内容提取
OFD内容提取能提取哪些类型的数据?
支持提取文本(含字体、字号、颜色及坐标信息)、图片(原始分辨率PNG)、表格(含行列结构与单元格合并信息)、元数据(标题、作者、创建时间等文档属性)以及电子签章信息。所有内容均输出为结构化JSON或XML格式。
提取的文本能保留原文排版格式吗?
提取结果包含完整的段落结构、文本坐标及字体属性信息(字号、字体名称、颜色值等)。每个文本块都会标注其在页面中的精确位置,便于下游系统进行版面分析、内容定位或全文检索索引构建。
能否提取电子发票中的关键信息?
可以。系统内置电子发票语义识别模块,可自动识别并提取OFD电子发票中的发票代码、发票号码、开票日期、购买方/销售方信息、金额、税额、合计等关键字段,直接输出为字段化结构化数据,方便对接金税系统与企业ERP。
表格跨页时如何处理?
引擎支持跨页表格的智能识别与自动拼接。通过分析表格线框、行列对齐及表头重复特征,将分散在多页的表格片段合并为完整的结构化数据,输出时标注原始页码以便溯源。
提取结果可以直接对接到数据库吗?
可以。JSON/XML输出格式附带完整的Schema定义,可直接导入MySQL、PostgreSQL、MongoDB等主流数据库。同时提供API接口支持程序化调用,提取结果可作为结构化数据直接写入业务系统数据库。
