文本提取
表格提取
元数据
核心功能

OFD 内容提取

精准提取OFD文档中的文本、图片、表格及元数据,支持结构化JSON/XML格式输出。适用于电子发票信息提取、政务公文内容解析、数据迁移及业务系统集成场景。

文本 / 图片 / 表格
JSON / XML 输出
语义坐标定位
拖拽 OFD 文件到此处自动识别内容类型并提取

支持 .ofd 格式,自动提取文本、图片、表格及元数据

提取流程

三步完成内容提取

01

上传 OFD 文件

拖拽或点击上传,
自动识别文档类型

02

引擎智能提取

语义分析定位内容,
结构化整理数据

03

下载结构化数据

JSON/XML格式输出,
直接对接到业务系统

能力特性

全方位内容解析

基于自研语义分析引擎,超越普通文本抓取的智能提取能力

文本提取

精准提取OFD页面中的所有文字内容,保留段落结构、字体属性(字号/字体/颜色)及坐标位置信息,支持语义标注与版面分析。

图片提取

提取OFD文档中嵌入的所有图片资源,支持输出为原始分辨率PNG文件。保留图片在页面中的位置与尺寸信息,便于图文关联分析。

表格提取

识别并提取OFD文档中的表格结构,输出包含行列关系、单元格内容及合并信息的结构化数据。支持复杂跨页表格的自动拼接与还原。

元数据解析

提取文档元数据:标题、作者、主题、关键词、创建/修改时间、页数、文档ID等。支持自定义元数据字段扩展,满足行业特定信息提取需求。

结构化输出

支持JSON和XML两种标准格式输出,提供完整的JSON Schema定义。提取结果可直接对接数据库、搜索引擎或企业ERP/OA系统。

签章信息提取

识别并提取电子签章信息,包括签章类型、签署人、签署时间、签章位置及数字证书信息。支持GM/T 0031标准签章数据完整解析。

技术规格

智能提取性能指标

提取内容
文本、图片、表格、元数据、电子签章信息
输出格式
JSON(含Schema定义)、XML、提取图片PNG
文本精度
字符级99.9%准确率,保留字体与坐标属性
表格识别
支持有线/无线表格,跨页表格自动拼接
处理速度
单页 <100ms,单核1200页/分钟
语义标注
坐标定位、字体属性、段落结构、表格行列
文件大小
单文件最大支持 500MB+
部署方式
SaaS云服务 / 私有化部署 / API集成
常见问题

关于 OFD 内容提取

OFD内容提取能提取哪些类型的数据?

支持提取文本(含字体、字号、颜色及坐标信息)、图片(原始分辨率PNG)、表格(含行列结构与单元格合并信息)、元数据(标题、作者、创建时间等文档属性)以及电子签章信息。所有内容均输出为结构化JSON或XML格式。

提取的文本能保留原文排版格式吗?

提取结果包含完整的段落结构、文本坐标及字体属性信息(字号、字体名称、颜色值等)。每个文本块都会标注其在页面中的精确位置,便于下游系统进行版面分析、内容定位或全文检索索引构建。

能否提取电子发票中的关键信息?

可以。系统内置电子发票语义识别模块,可自动识别并提取OFD电子发票中的发票代码、发票号码、开票日期、购买方/销售方信息、金额、税额、合计等关键字段,直接输出为字段化结构化数据,方便对接金税系统与企业ERP。

表格跨页时如何处理?

引擎支持跨页表格的智能识别与自动拼接。通过分析表格线框、行列对齐及表头重复特征,将分散在多页的表格片段合并为完整的结构化数据,输出时标注原始页码以便溯源。

提取结果可以直接对接到数据库吗?

可以。JSON/XML输出格式附带完整的Schema定义,可直接导入MySQL、PostgreSQL、MongoDB等主流数据库。同时提供API接口支持程序化调用,提取结果可作为结构化数据直接写入业务系统数据库。

准备好提取您的 OFD 数据了吗?

立即免费试用,上传 OFD 文件体验智能内容提取

免费试用查看 API 文档
微信客服
微信扫码添加客服

扫码添加微信客服
工作日 9:00-18:00