云霞资讯网

告别手动录入发票!元器智能体+工作流实战:3秒提取发票信息,效率提升10倍

财务人员的日常被发票录入折磨得焦头烂额?腾讯元器智能体比赛诞生的'发票提取助手'彻底改变了这一困境。这款工具能在3秒内自动识别发票图片并提取关键信息,准确率高达95%以上。本文将完整拆解智能体+工作流的开发过程,揭秘如何利用OCR插件与大模型技术实现财税场景的效率革命。

财务人员每天最头疼的事是什么?不是算账,而是手动录入发票信息。一张发票十几个字段,一天几十张发票,光是敲键盘就能让人崩溃。

参加腾讯元器智能体比赛,我搭建了”发票提取助手“,只需上传发票图片,3秒内自动识别并提取所有关键信息,输出结构化数据。今天我将详细拆解搭建过程,分享实战心得,让你也能快速上手。

智能体体验链接:

https://yuanqi.tencent.com/agent/dAp1IpDQgKnk

一、背景与痛点:财务人员的真实困境

真实场景还原

作为财务人员,我每天都会遇到这样的场景:

上午9点:收到供应商发来的10张发票图片,需要录入到财务系统

上午10点:采购部门又发来5张手机拍照的发票,图片有些模糊

下午2点:老板发来一张发票,要求立即录入并核对金额

下午4点:发现上午录入的一张发票金额有误,需要重新核对…

这就是财务/采购部门的日常:

手动录入:发票代码、号码、开票日期、购销方信息、金额、税额等十几个字段

容易出错:数字录入错误、字段遗漏、格式不规范

效率低下:一张发票3-5分钟,一天几十张就是数小时

重复劳动:同样的操作重复千百遍

痛点数据对比

智能体方式:自动提取仅需3-5秒,准确率可达95%以上,支持移动办公,零学习成本。

解决方案:智能体+工作流双引擎

我采用了智能体+工作流的开发模式,充分发挥腾讯元器平台的优势:

核心架构

设计思路:

智能体层:负责用户交互,接收图片上传

OCR插件层:专业识别发票文字(这是关键优势)

工作流层:编排处理逻辑,调用大模型提取结构化信息

输出层:统一JSON格式和表格两种格式,便于后续入库或导出

平台优势:多渠道发布,微信生态无缝衔接

除了技术架构的优势,腾讯元器平台在发布渠道上也有独特优势,这是其他平台难以比拟的:

1.元宝小程序:微信生态原生支持

最大的亮点是元宝小程序,智能体可以直接发布到元宝小程序,与微信生态无缝衔接:

无需额外开发:一键发布,无需单独开发小程序

使用门槛低:财务人员无需安装新APP,在熟悉的微信环境中就能完成发票提取

分享便捷:支持微信分享,团队协作更方便

2.多渠道发布能力

腾讯元器支持多种发布渠道,满足不同使用场景:

3.实际应用价值

对于财务场景来说,元宝小程序+微信的组合特别实用:

移动办公:财务人员在外收到发票,直接用微信拍照上传,立即提取信息

团队协作:提取结果可直接分享到微信群,无需导出再发送

零学习成本:所有财务人员都会用微信,无需培训

二、拆解智能体搭建过程:从0到1的完整步骤

下面我将详细拆解整个搭建过程,手把手教你如何搭建这个发票提取助手。

步骤1:创建智能体

1.进入腾讯元器平台,点击”创建智能体”,创建”对话式智能体“

2.填写基本信息:

智能体名称:发票提取助手

描述:自动识别发票图片,提取结构化信息

头像:选择合适的图标

3.进入智能体人配置界面,”切换创建方式“是一个关键设置,如果智能体需要工作流配合工作,需要切换到”用工作流创建”

步骤2:创建工作流

这是核心步骤,我们采用智能体+工作流的双引擎架构:

2.1工作流整体设计

工作流包含3个核心节点:

OCR识别节点:识别发票图片中的文字

信息提取节点:使用大模型提取结构化字段

格式化输出节点:整理并输出最终结果

2.2节点3:OCR识别配置

节点类型:选择”OCR插件”节点

输入配置:接收智能体传递的图片文件

插件选择:选择商用OCR插件(这里可以突出插件优势)

输出配置:输出识别后的文本内容

关键配置点:

上传文件的URL获取,需要通过参数提取节点先做处理(如上图中的节点2)

将提取到的URL作为OCR节点的输入

2.3节点4:OCR识别结果提取配置

节点类型:选择“参数提取”节点

输入配置:接收OCR节点输出的文本

提取关键信息:提取OCR识别结果的“TextDetections”

2.4节点5:信息格式化

节点类型:选择”LLM”节点(大模型节点)

输入配置:接收OCR节点输出的文本

模型选择:选择合适的大模型(如元宝大模型等)

提示词设计:这是关键!

提示词设计要点:

你是一个专业的发票信息提取助手。请从以下发票文本中提取结构化信息,严格按照JSON格式输出:

{

“invoice_code”:”发票代码”,

“invoice_number”:”发票号码”,

“issue_date”:”发票开票日期,YYYY-MM-DD格式”,

“buyer_namc”:”购买方公司名称”,

“buyer_tax_id”:”购买方公司纳税人识别号”,

“buyer_address”:购方地址”seller_name”:

“销售方公司名称”,”seller_tax_id”:

“销售方公司纳税人识别号”,

“invoice_project”:”发票的项目名称”,

“amounts_without_tax”:

“不含税金额”,

“amounts_tax”:”税额””amounts_with_tax”:”价税合计”

}

–输出要求:需要两种格式输出

–表格的形式输出(表格的字段名为中文)

-Json格式输出

–要求:

1、请严格按发票提取结果信息输出

2.如果字段不存在,使用null

3.金额字段保留4位小数

4.日期格式统一为YYYY-MM-DD

–发票文本:{content}

步骤4:连接节点并测试

节点连接:按照流程连接各个节点

智能体→提取上传链接→OCR节点→提取OCR结构参数→LLM格式化节点→输出

测试流程:上传测试发票图片,检查每个节点的输出

调试优化:根据测试结果调整提示词和参数

步骤5:发布智能体

1.测试通过后,点击”发布”,填写发布版本记录

2.选择发布渠道:

元宝小程序(推荐,微信生态)

API接口

三、完整工作流设计详解

流程图

四、应用效果展示:真实场景验证

4.1实际使用效果

让我们看看智能体在实际场景中的表现:

场景1:手机拍照发票

输入:手机拍摄的发票照片

处理时间:3.2秒

提取准确率:96%

输出:完整的结构化JSON数据

4.2效果对比数据

五、深度洞察:从发票提取看智能体的业务应用

5.1为什么要选择发票提取场景?

原因有三:

1.高频刚需场景

财务部门每天都要处理大量发票

痛点明确,需求强烈

一旦解决,立即产生价值

2.标准化程度高

发票格式相对统一

字段定义清晰

适合用AI自动化处理

3.效果可量化

处理时间:从分钟级降到秒级

准确率:可测量、可优化

ROI:立竿见影

5.2可迁移的通用模式

这个方案的核心模式可以迁移到多个场景:

通用公式:文档/图片→OCR/文本提取→大模型结构化提取→数据校验→结构化输出

六、结语

腾讯元器平台的智能体+工作流模式,配合元宝小程序的微信生态优势,让复杂业务逻辑变得简单可控,真正实现”开箱即用”。

本文为腾讯元器智能体比赛参赛作品,欢迎交流讨论。