财税行业 | 智税中台

简介: 本文介绍了财税行业 | 智税中台的方案概述,方案价值及优势以及最佳实践。

Dingtalk_20210409110821.jpg
税务行业在构建大数据平台以后,有了海量的数据挖掘需求,但应用方式还集中于业务理解,人工配置规则进行扫描与风险识别的传统方式上。而基于统计和深度数据挖掘的算法工作,又存在知识门槛高、建模难度大、流程耗时长等难点,税务人员难以高效使用。

通过智税中台的建设,税务行业客户能够搭建自主易用的税务专用数据智能平台,通过标签体系,实现自助式数据建模与分析;通过机器学习等算法模型,可降低数据智能应用的难度,实现一体化的特征管理、数据探查、分析建模,建立对接业务生产的风险管理引擎,从而达到协助业务流程提升数据智能程度的目的。智税中台基于阿里云大数据平台提供了从数据加工到智能建模的一整套适配政务行业的机器学习工具链。

解决方案

111.jpg

(一)特征中心

将数据特征以标签形式管理,全图形化操作,向下屏蔽计算与存储资源,让用户专注业务逻辑,且通过自动化数据脱敏、行列权限控制,实现最灵活和安全的数据取用模式。

(二)指标立方

数据探查、数据探索及指标立方集成了完整的数据指标评测与研判工具集合,可以一键式形成对数据指标的效果报告。

(三)模型中心

提供从无标签数据到有标签数据的全场景数据建模支撑,在自动化智能建模的技术帮助下,用户无需专业知识即可实现数据建模。

(四)风险管理引擎

提供了对模型结果的管理与对接上线功能,直接提供API形式的在线模型预测,并实现高并发、高可用的技术指标。

应用价值

(一)图形化特征管理

针对业务专家的技术能力及使用习惯,提供图形化数据特征管理,并集成数据脱敏、行/列权限控制等功能,在全程可控的前提下,实现数据“可用不可见”一一即在多源数据融合汇聚的平台上,只允许程序和算法访问到融合后的数据,而不允许业务人员访问、下载数据,从而在多用户共存的平台上有效地防止数据泄露事件的发生。

(二)一站式数据探查

针对数据智能建模的需求,提供图形化数据探查功能,集成各类统计功能,形成全面的数据指标评估,并支持一键生成指标评估报告。

(三)智能化数据建模

针对税务行业的业务特点,提供一系列从无监督,到半监督,到有监督的数据建模工具,并支持优选的数据清洗策略、自动化参数推荐、可视化算法效果等功能,让业务人员无需深度算法知识,也能实现算法建模。

最佳实践

(一)虚开发票企业分类

在税务总局查找暴力虚开增值税发票的场景中,需要对有风险的纳税人划分为以下四个类别中的某一类:1. 虚开企业;2. 变票企业;3. 洗票企业;4. 用票企业。传统做法是业务专家需要根据纳税人的指标数据对所有的风险纳税人进行标注处理,利用人工的方式实现所有风险企业的分类处理。在协同分类中,业务专家只需要从这四类企业中各挑选少量的纳税人,协同分类便会自动为剩余的纳税人实现分类处理。协同分类在少量样本的基础上便可实现比较理想的分类结果,有效地提高了业务专家的工作效率。

(二)纳税人分类辅助政策制定

在税收优惠上,对所有的纳税人使用相同的税收优惠政策是不科学的;对每一个纳税人使用不同的税收优惠政策是非常不高效的。首先使用行业分群,对每个行业的企业提取多维特征(与业务相关的特征,如企业规模、注册资金、营收收入、利润率、纳税额等),然后将每个行业的企业分成K个群,每一个群使用同一套服务政策。这样即做到高效与科学,又能在事后对每个群进行的政策进行分析来判断是否合理与如何优化。

(三)纳税企业疑似“骗税团伙”识别

在税务的风险管理中,大量风险企业虽然自身的属性特征多种多样,但在关系网络中通常表现出特定的形态。风险企业很难改变与其相关联的企业属性。将风险企业相关的其他企业作为当前企业的特征,可以更可靠地发现风险企业。

(四)税务虚开发票风险评估

在税务机关的发票虚开风险应对中,业务专家根据业务经验加工与发票虚开相关的指标数据,然后业务专家通过挑选所掌握的纳税人集合,人工对这些纳税人的风险大小进行排序,并将排序后的纳税人风险大小作为专家建模的输入。专家建模会计算每个指标的最佳权重、所有纳税人在发票虚开场景中的风险大小。用户在专家建模的过程中可以将精力放在业务分析上,降低了业务专家使用大数据算法的学习成本。

技术圈二维码.JPG

加入钉钉群可享有以下权益↓
入群权益.jpg

相关文章
|
API Python
1688公司档案信息数据接口Python
1688公司档案信息数据接口Python
|
23天前
|
JavaScript Linux API
【OpenClaw喂饭级教程】零基础阿里云/Mac/Linux/Win11本地部署步骤流程+免费大模型API配置及常见问题解答
OpenClaw(原Clawdbot)是一款轻量级开源AI Agent管理平台,支持多Agent智能协作、自定义技能集成与多渠道消息对接,2026年完成了多系统部署优化与阿里云百炼API原生适配,为新手提供了零成本搭建专属AI助手的完整路径。本文聚焦阿里云/MacOS/Linux/Windows11本地部署场景,详细拆解全流程步骤,配套阿里云百炼免费大模型API配置方案,并汇总新手高频报错的解决方案,确保零基础用户可直接复制命令完成部署,快速解锁AI Agent核心能力。
2777 2
|
搜索推荐 Java 索引
java实现快速排序(详细解释代码和逻辑)
java实现快速排序(详细解释代码和逻辑)
|
人工智能 Cloud Native Java
从云原生视角看 AI 原生应用架构的实践
本文核心观点: • 基于大模型的 AI 原生应用将越来越多,容器和微服务为代表的云原生技术将加速渗透传统业务。 • API 是 AI 原生应用的一等公民,并引入了更多流量,催生企业新的生命力和想象空间。 • AI 原生应用对网关的需求超越了传统的路由和负载均衡功能,承载了更大的 AI 工程化使命。 • AI Infra 的一致性架构至关重要,API 网关、消息队列、可观测是 AI Infra 的重要组成。
54229 124
|
数据采集 存储 数据挖掘
构建电商数据采集系统初定位
构建电商数据采集系统需经历需求分析、技术选型、系统设计、开发实现、测试优化及部署维护六大步骤。过程中要明确目标与数据范围,选择合适的工具和数据库,并设计合理的架构与采集策略。还需考虑合法合规、分布式采集、数据质量控制及动态调整等策略,确保系统高效、稳定运行,适应电商环境变化。
|
城市大脑 人工智能 运维
城市大脑 | 城市中枢系统与数字驾驶舱
本文介绍了城市大脑 | 城市中枢系统与数字驾驶舱的方案概述,方案价值及优势以及最佳实践。
城市大脑 | 城市中枢系统与数字驾驶舱
|
机器学习/深度学习 并行计算 PyTorch
安装PyTorch详细步骤
安装PyTorch时,选择CPU或GPU版本。有Nvidia显卡需装CUDA和cuDNN,可从NVIDIA官网下载CUDA 11.8和对应版本cuDNN。无Nvidia显卡则安装CPU版。安装PyTorch通过conda或pip,GPU版指定`cu118`或`rocm5.4.2`镜像源。验证安装成功使用`torch._version_`和`torch.cuda.is_available()`。
|
存储 JavaScript 前端开发
使用 HTML、CSS、JS 和 API 制作一个很棒的天气 Web 应用程序
使用 HTML、CSS、JS 和 API 制作一个很棒的天气 Web 应用程序
467 0
[simulink] --- 模型生成嵌入式代码配置
[simulink] --- 模型生成嵌入式代码配置
537 0
[simulink] --- 模型生成嵌入式代码配置
|
机器学习/深度学习 人工智能 自然语言处理
BloombergGPT: 首个金融垂直领域大语言模型
NLP 在金融技术领域的应用广泛且复杂,主要应用场景包括情感分析、命名实体识别到问答等。大语言模型 (LLM) 已被证明可以有效处理上述任务;但是,鲜少没有报道过有专门针对金融领域的文献。本作中,我们展示了 BloombergGPT 这个拥有 500 亿参数的语言模型,它采用大量金融数据训练而来。我们基于 Bloomberg 大量的数据源构建了一个 3630 亿个token数据集,这可能是迄今为止最大的特定领域数据集,并增加了来自通用数据集的 3450 亿个token。
1651 0
BloombergGPT: 首个金融垂直领域大语言模型