财务人员的日常被发票录入折磨得焦头烂额?腾讯元器智能体比赛诞生的'发票提取助手'彻底改变了这一困境。这款工具能在3秒内自动识别发票图片并提取关键信息,准确率高达95%以上。本文将完整拆解智能体+工作流的开发过程,揭秘如何利用OCR插件与大模型技术实现财税场景的效率革命。

财务人员每天最头疼的事是什么?不是算账,而是手动录入发票信息。一张发票十几个字段,一天几十张发票,光是敲键盘就能让人崩溃。
参加腾讯元器智能体比赛,我搭建了”发票提取助手“,只需上传发票图片,3秒内自动识别并提取所有关键信息,输出结构化数据。今天我将详细拆解搭建过程,分享实战心得,让你也能快速上手。
智能体体验链接:
https://yuanqi.tencent.com/agent/dAp1IpDQgKnk
一、背景与痛点:财务人员的真实困境
真实场景还原
作为财务人员,我每天都会遇到这样的场景:
上午9点:收到供应商发来的10张发票图片,需要录入到财务系统
上午10点:采购部门又发来5张手机拍照的发票,图片有些模糊
下午2点:老板发来一张发票,要求立即录入并核对金额
下午4点:发现上午录入的一张发票金额有误,需要重新核对…
这就是财务/采购部门的日常:

手动录入:发票代码、号码、开票日期、购销方信息、金额、税额等十几个字段

容易出错:数字录入错误、字段遗漏、格式不规范

效率低下:一张发票3-5分钟,一天几十张就是数小时
重复劳动:同样的操作重复千百遍
痛点数据对比

智能体方式:自动提取仅需3-5秒,准确率可达95%以上,支持移动办公,零学习成本。
解决方案:智能体+工作流双引擎
我采用了智能体+工作流的开发模式,充分发挥腾讯元器平台的优势:
核心架构

设计思路:
智能体层:负责用户交互,接收图片上传
OCR插件层:专业识别发票文字(这是关键优势)
工作流层:编排处理逻辑,调用大模型提取结构化信息
输出层:统一JSON格式和表格两种格式,便于后续入库或导出
平台优势:多渠道发布,微信生态无缝衔接
除了技术架构的优势,腾讯元器平台在发布渠道上也有独特优势,这是其他平台难以比拟的:
1.元宝小程序:微信生态原生支持
最大的亮点是元宝小程序,智能体可以直接发布到元宝小程序,与微信生态无缝衔接:
无需额外开发:一键发布,无需单独开发小程序
使用门槛低:财务人员无需安装新APP,在熟悉的微信环境中就能完成发票提取
分享便捷:支持微信分享,团队协作更方便
2.多渠道发布能力
腾讯元器支持多种发布渠道,满足不同使用场景:
3.实际应用价值
对于财务场景来说,元宝小程序+微信的组合特别实用:
移动办公:财务人员在外收到发票,直接用微信拍照上传,立即提取信息
团队协作:提取结果可直接分享到微信群,无需导出再发送
零学习成本:所有财务人员都会用微信,无需培训

二、拆解智能体搭建过程:从0到1的完整步骤
下面我将详细拆解整个搭建过程,手把手教你如何搭建这个发票提取助手。
步骤1:创建智能体
1.进入腾讯元器平台,点击”创建智能体”,创建”对话式智能体“
2.填写基本信息:
智能体名称:发票提取助手
描述:自动识别发票图片,提取结构化信息
头像:选择合适的图标

3.进入智能体人配置界面,”切换创建方式“是一个关键设置,如果智能体需要工作流配合工作,需要切换到”用工作流创建”


步骤2:创建工作流
这是核心步骤,我们采用智能体+工作流的双引擎架构:
2.1工作流整体设计
工作流包含3个核心节点:
OCR识别节点:识别发票图片中的文字
信息提取节点:使用大模型提取结构化字段
格式化输出节点:整理并输出最终结果


2.2节点3:OCR识别配置
节点类型:选择”OCR插件”节点
输入配置:接收智能体传递的图片文件
插件选择:选择商用OCR插件(这里可以突出插件优势)
输出配置:输出识别后的文本内容
关键配置点:
上传文件的URL获取,需要通过参数提取节点先做处理(如上图中的节点2)
将提取到的URL作为OCR节点的输入


2.3节点4:OCR识别结果提取配置
节点类型:选择“参数提取”节点
输入配置:接收OCR节点输出的文本
提取关键信息:提取OCR识别结果的“TextDetections”


2.4节点5:信息格式化
节点类型:选择”LLM”节点(大模型节点)
输入配置:接收OCR节点输出的文本
模型选择:选择合适的大模型(如元宝大模型等)
提示词设计:这是关键!
提示词设计要点:
你是一个专业的发票信息提取助手。请从以下发票文本中提取结构化信息,严格按照JSON格式输出:
{
“invoice_code”:”发票代码”,
“invoice_number”:”发票号码”,
“issue_date”:”发票开票日期,YYYY-MM-DD格式”,
“buyer_namc”:”购买方公司名称”,
“buyer_tax_id”:”购买方公司纳税人识别号”,
“buyer_address”:购方地址”seller_name”:
“销售方公司名称”,”seller_tax_id”:
“销售方公司纳税人识别号”,
“invoice_project”:”发票的项目名称”,
“amounts_without_tax”:
“不含税金额”,
“amounts_tax”:”税额””amounts_with_tax”:”价税合计”
}
–输出要求:需要两种格式输出
–表格的形式输出(表格的字段名为中文)
-Json格式输出
–要求:
1、请严格按发票提取结果信息输出
2.如果字段不存在,使用null
3.金额字段保留4位小数
4.日期格式统一为YYYY-MM-DD
–发票文本:{content}

步骤4:连接节点并测试
节点连接:按照流程连接各个节点
智能体→提取上传链接→OCR节点→提取OCR结构参数→LLM格式化节点→输出
测试流程:上传测试发票图片,检查每个节点的输出
调试优化:根据测试结果调整提示词和参数

步骤5:发布智能体
1.测试通过后,点击”发布”,填写发布版本记录
2.选择发布渠道:
元宝小程序(推荐,微信生态)
API接口


三、完整工作流设计详解
流程图

四、应用效果展示:真实场景验证
4.1实际使用效果
让我们看看智能体在实际场景中的表现:
场景1:手机拍照发票
输入:手机拍摄的发票照片
处理时间:3.2秒
提取准确率:96%
输出:完整的结构化JSON数据


4.2效果对比数据

五、深度洞察:从发票提取看智能体的业务应用
5.1为什么要选择发票提取场景?
原因有三:
1.高频刚需场景
财务部门每天都要处理大量发票
痛点明确,需求强烈
一旦解决,立即产生价值
2.标准化程度高
发票格式相对统一
字段定义清晰
适合用AI自动化处理
3.效果可量化
处理时间:从分钟级降到秒级
准确率:可测量、可优化
ROI:立竿见影
5.2可迁移的通用模式
这个方案的核心模式可以迁移到多个场景:

通用公式:文档/图片→OCR/文本提取→大模型结构化提取→数据校验→结构化输出
六、结语
腾讯元器平台的智能体+工作流模式,配合元宝小程序的微信生态优势,让复杂业务逻辑变得简单可控,真正实现”开箱即用”。
本文为腾讯元器智能体比赛参赛作品,欢迎交流讨论。