一、提出背景
随着数字化转型深入各行各业,管理、教育、金融、医疗等领域中大量历史资料与实时数据以表格形式存在,这些表格往往形态多样、结构复杂,且常以扫描图像或非结构化电子文档形式存储,传统处理方法依赖人工录入与规则解析,效率低下且易出错。如何高效、准确地从多模态表格数据中提取关键信息并支持智能决策,已成为行业智能化升级的核心挑战;针对该问题,现有技术往往针对单一任务设计模型,如表格检测、结构识别或信息提取,缺乏端到端的统一处理能力,导致系统冗余、误差传播、难以适应多样化的实际场景。此外,通用大模型在表格图像处理领域存在结构理解能力不足等问题,无法满足高精度、高可靠性的业务需求。为此,我们构建表格数据结构化解析与理解统一基础模型(TableGPT),面向表格图像智能识别的多场景统一解析大模型,致力于通过多模态融合、智能体调度与结构化推理能力,实现从感知到认知的全链路智能化,提升数据利用效率和决策支持水平。
二、技术架构
TableGPT面向非结构化表格图像数据形态多样、识别困难的问题,构建了表格图像识别多场景统一解析大模型;从技术路线上来看,它以通用多模态大语言模型作为智能基座,采用“数据合成+课程学习+策略优化”的整体技术框架构建而成;其中,数据合成用于弥补公开数据与现有数据之间的差异,课程学习用于逐步提高模型的视觉结构化能力,而策略优化则用于监督微调、强化学习等技术提高模型的识别能力;从系统架构上来看,它包括数据合成、表格图像智能处理模型、调度智能体三部分。整体架构图如下:



在整体架构图中,数据层作为整个框架的基础,负责随机合成各种形态的数据,用于丰富训练样本,提高模型对于不同场景的适应能力;模型层作为整个框架的核心,具备表格检测、表格识别、关键信息提取、视觉问答等一系列能力,使用一个模型即可解决多项不同任务,无需使用多个模型;调度智能体则作为指挥中枢,负责解析用户的查询并调用外部工具库实现用户的复杂需求;外部工具库是基于模型的多项功能将其拆分封装输出为一系列API,以供智能体调用;基于该框架,我们实现了“数据-模型-智能体”的完整系统化解决方案,其优势在于,通过干扰数据合成,提高了系统对于实际数据的识别能力,使其更加贴近实际应用;通过智能体构建,提高了系统的自主规划能力,使得系统能够根据用户需求调用相应的API完成需求,降低了用户的工作量,提高了海量数据处理的效率。
三、主体效果展示
TableGPT 在多项表格图像处理相关任务中展现了显著优势。依托多模态大语言模型、智能体等技术,系统能够实现从检测到识别、理解的全流程数据处理链路。在实际场景下,模型能够准确解析相应表格并兼容多种不同的实际场景,其性能相比同量级大模型具有显著优势;TableGPT 对高难度样本的解析结果如下:

TableGPT不仅是技术层面的创新,更是我们对数字化、智能化理念的实践。它能够广泛应用于信息比对、报表分析、合同审查等关键场景,帮助工作人员快速提取报表数据、自动生成分析报告、实时审查合规性,从而提升决策效率与准确性。在工程安全评估中,它能够与RAG等技术结合,比对设计规范,识别潜在风险;在报表分析中,它能提取关键信息,并进行计算与分析,挖掘潜藏在数据背后的价值;我们相信,真正的技术价值在于落地于民、守护安全。TableGPT作为连接数据与决策、传统与未来的智能桥梁,可以推动垂直领域的数据处理向更高效、更自主、更可靠、更智慧的未来迈进。愿每一张表格中的数据都能被精准理解,每一次决策都能因技术而更有力量。
文案编辑:周多木 于成龙 刘旭 张丹 孙龙 黄思婧
排版:张卓莹