税务行业在构建大数据平台以后,有了海量的数据挖掘需求,但应用方式还集中于业务理解,人工配置规则进行扫描与风险识别的传统方式上。而基于统计和深度数据挖掘的算法工作,又存在知识门槛高、建模难度大、流程耗时长等难点,税务人员难以高效使用。
通过智税中台的建设,税务行业客户能够搭建自主易用的税务专用数据智能平台,通过标签体系,实现自助式数据建模与分析;通过机器学习等算法模型,可降低数据智能应用的难度,实现一体化的特征管理、数据探查、分析建模,建立对接业务生产的风险管理引擎,从而达到协助业务流程提升数据智能程度的目的。智税中台基于阿里云大数据平台提供了从数据加工到智能建模的一整套适配政务行业的机器学习工具链。
解决方案
(一)特征中心
将数据特征以标签形式管理,全图形化操作,向下屏蔽计算与存储资源,让用户专注业务逻辑,且通过自动化数据脱敏、行列权限控制,实现最灵活和安全的数据取用模式。
(二)指标立方
数据探查、数据探索及指标立方集成了完整的数据指标评测与研判工具集合,可以一键式形成对数据指标的效果报告。
(三)模型中心
提供从无标签数据到有标签数据的全场景数据建模支撑,在自动化智能建模的技术帮助下,用户无需专业知识即可实现数据建模。
(四)风险管理引擎
提供了对模型结果的管理与对接上线功能,直接提供API形式的在线模型预测,并实现高并发、高可用的技术指标。
应用价值
(一)图形化特征管理
针对业务专家的技术能力及使用习惯,提供图形化数据特征管理,并集成数据脱敏、行/列权限控制等功能,在全程可控的前提下,实现数据“可用不可见”一一即在多源数据融合汇聚的平台上,只允许程序和算法访问到融合后的数据,而不允许业务人员访问、下载数据,从而在多用户共存的平台上有效地防止数据泄露事件的发生。
(二)一站式数据探查
针对数据智能建模的需求,提供图形化数据探查功能,集成各类统计功能,形成全面的数据指标评估,并支持一键生成指标评估报告。
(三)智能化数据建模
针对税务行业的业务特点,提供一系列从无监督,到半监督,到有监督的数据建模工具,并支持优选的数据清洗策略、自动化参数推荐、可视化算法效果等功能,让业务人员无需深度算法知识,也能实现算法建模。
最佳实践
(一)虚开发票企业分类
在税务总局查找暴力虚开增值税发票的场景中,需要对有风险的纳税人划分为以下四个类别中的某一类:1. 虚开企业;2. 变票企业;3. 洗票企业;4. 用票企业。传统做法是业务专家需要根据纳税人的指标数据对所有的风险纳税人进行标注处理,利用人工的方式实现所有风险企业的分类处理。在协同分类中,业务专家只需要从这四类企业中各挑选少量的纳税人,协同分类便会自动为剩余的纳税人实现分类处理。协同分类在少量样本的基础上便可实现比较理想的分类结果,有效地提高了业务专家的工作效率。
(二)纳税人分类辅助政策制定
在税收优惠上,对所有的纳税人使用相同的税收优惠政策是不科学的;对每一个纳税人使用不同的税收优惠政策是非常不高效的。首先使用行业分群,对每个行业的企业提取多维特征(与业务相关的特征,如企业规模、注册资金、营收收入、利润率、纳税额等),然后将每个行业的企业分成K个群,每一个群使用同一套服务政策。这样即做到高效与科学,又能在事后对每个群进行的政策进行分析来判断是否合理与如何优化。
(三)纳税企业疑似“骗税团伙”识别
在税务的风险管理中,大量风险企业虽然自身的属性特征多种多样,但在关系网络中通常表现出特定的形态。风险企业很难改变与其相关联的企业属性。将风险企业相关的其他企业作为当前企业的特征,可以更可靠地发现风险企业。
(四)税务虚开发票风险评估
在税务机关的发票虚开风险应对中,业务专家根据业务经验加工与发票虚开相关的指标数据,然后业务专家通过挑选所掌握的纳税人集合,人工对这些纳税人的风险大小进行排序,并将排序后的纳税人风险大小作为专家建模的输入。专家建模会计算每个指标的最佳权重、所有纳税人在发票虚开场景中的风险大小。用户在专家建模的过程中可以将精力放在业务分析上,降低了业务专家使用大数据算法的学习成本。
加入钉钉群可享有以下权益↓