IBM PowerAI编程大赛Q2场来袭!探秘金融语料大数据识别

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

6月17日,上海,由CSDN主办,IBM和兴业数金协办的PowerAI人工智能线下马拉松编程大赛Q2场将拉开序幕。本赛季赛题将聚焦金融行业的语料大数据识别,基于人工智能相关技术,计算有关金融场景的信息聚类,将电话银行海量通话内容结构化,并打上各类标签。通过挖掘分析有价值信息,为服务与营销提供数据与决策支持,发现最新的市场机遇和客户关注热点。活动旨在进一步推动人工智能技术在行业领域的落地,贴近生活并与真实案例场景,也是系列赛题内容的一大特色

图片描述

截止目前,本轮活动已收到了大量参赛者报名,绝大部分参赛团队成员来自金融机构和相关的技术服务公司,例如招商银行上海分行、民生银行、包商银行、华通银行、陆金所、太平洋保险、华为、东方证券研究所、上海金融期货信息技术有限公司、中国大地保险、国泰基金、西藏东方财富证券、东软集团、实达电脑等,也有一些一线互联网公司和顶尖的科研院所报名,例如今日头条、京东、中科院上海所、上海交大、中国科学技术大学等。

从本季题目内容来看,主办方会提供训练样本数据,分为训练和测试部分。训练部分包括:
- 对话内容文件(文件格式可能存在转码需求),对话内容分为11类
- 对话内容标签文件,包括理财产品分类和意愿分类(肯定、否定、疑问)
- 语料文件-文件格式为txt格式。内容包括中文和标点符号。文章内容是金融相关的文章。文件总量在50M左右。参赛团队可以利用这些文件来建立自己的语言模型、分词模型
- 训练数据:每个分类的样本个数不少于150条。数据样本间有一定区分度。

参赛者需要根据训练文件进行购买产品分类和意愿分类;大赛鼓励参赛选手自己构建分词和语言模型,如果选手选择使用第三方分词或者语言模型需要自己解决平台依赖。

参赛要求方面,主办方也给出了一些建议:
1.参赛者可以通过Caffe、Tensorflow、Torch 、Theano 进行模型训练, 鼓励发挥GPU on Power硬件特性;

2.要求参赛者编写神经网络模型实现考题需求。参赛者可以修改Caffe、Torch、Theano或者Tensorflow源代码,但是必须在修改后,提供代码修改说明以确定没有违规部分。参赛者也可以使用Github上开源的不同发行版的Caffe、Torch、Theano或者Tensorflow,但是必须自己解决在Power上的依赖和编译问题;

3.本次比赛涉及金融领域对话文本分类问题。希望选手通过深度神经网络能够对客户感兴趣购买的保险或者理财产品的类型和意愿进行分类。语料中会有“肯定”,“疑问”,“否定或者双重否定”语句。传统的词频或者简单的SVD方式很难在测试数据集中有良好的表现;

大赛开战在即,CSDN也对某位报名参赛的开发者进行了简短采访,他就目前人工智能技术在金融行业的应用现状和挑战等话题分享了自己的看法。以下为采访内容(受访者不便透露真实姓名,以李成代替):

1.CSDN:请先介绍下自己所从事的工作和参赛原因。
李成:目前本人在金融行业软件公司工作,主要负责银行、证券行业的信息开发服务。这次主要是想检验自己在项目中用到的技术,也想结识更多在金融行业从事人工智能技术研究的开发者,互相切磋。

2.CSDN:请谈谈您对人工智能技术在金融行业应用现状的看法。
李成:随着金融信息化的不断深入,银行正在从过去的手工银行转变成数字化银行,极大的推动了全球金融的发展。由于云计算、大数据、人工智能等技术在金融行业的不断普及,更多的银行都在思考如何通过这些新技术提供客户粘合度,为客户提供全生命周期的服务,提高服务质量,以及从所积累的海量用户数据中挖掘新的商机。目前,我们看到人工智能技术已经在金融领域的授信、反欺诈、风控、审批、差异化服务等多方面落地。

3.CSDN:从您的介绍看有从事人工智能应用项目的经历,请谈谈当时所希望解决的问题。
李成:主要有几个方面:1.通过人像识别技术在银行监控范围内识别客户的各种行为特征,例如身份认证、人脸刷卡,或者其他安全识别等;2.通过语音识别判断客户目前的状态和特征;3.可以通过人像、语音识别缩短业务流程;4.通过呼叫中心平台识别客户具体语音,如客户说出某关键词以后自动处理下一步业务等。

结合我现在正在做的项目,具体来说,目前银行信用卡中心的业务都是通过电话进行,我们希望利用语音识别技术,对通话进行实时分析,帮助银行提升服务的质量。还有就是利用机器学习,可以让机器人回答客户的提问和交互

4.CSDN:您认为现阶段,在金融行业什么样的应用场景是比较适合用机器学习或人工智能技术来解决的?
李成:不管是在提升客户体验还是内部管理效率,商机挖掘以及风险防范方面,人工智能在金融行业的应用前景都非常广泛。结合我的经历,我认为银行行用卡中心应该是一个很好的验证场景。人工智能,目前语音方面技术是最成熟的,而银行信用卡中心,基本全部的业务都是通过电话进行,技术应用潜力非常大。

5.CSDN:您之前是否了解过IBM的产品或解决方案?从您的角度看,IBM在人工智能领域的机会主要在哪些方面?
李成:了解过。IBM的机会在于不仅在技术上持续投入很大,而且对于金融行业的业务、流程都很熟悉。在这个金融行业向数字化转型的风口,只要切准用户痛点,技术精深+业务流程熟悉,就能找到很多机会。

6.CSDN:对本次大赛有什么期望,对参赛伙伴有什么寄语?
李成:我相信这次的选手中大拿很多,我自己在金融行业和人工智能也有一些实践经历和积累,希望大家能获得优异的成绩。另外,希望通过AI技术能够真正帮助金融机构提升他们的业务。

据悉,本次所有的参赛团队,都将现场免费体验所有参赛团队,将现场免费体验IBM专门为人工智能所建的高性能计算服务器PowerAI。PowerAI人工智能平台基于Power8体系结构,支持开源机器学习和深度学习架构,包括Caffe, Chainer、TensorFlow、Theano、Torch、cuDNN、NVIDIA DIGITS以及其它若干个机器学习与深度学习架构和库。参赛者将轻松便捷地使用这些人工智能方法,创建新的计算机模式以高效的对数据进行分析。

最后,一如既往,主办方为获胜团队和参赛者准备了丰厚的现金和奖品奖励,欢迎大家6月17日来玩!



本文转自d1net(转载)

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
28天前
|
人工智能 算法 开发者
智源行业应用大模型挑战赛开启报名!挖掘数据潜能,共创行业新篇
本次大赛旨在推广行业数据集应用,为大模型技术在垂类行业的发展注入新活力。
|
2月前
|
人工智能 分布式计算 数据处理
阿里云与传智教育联合直播:深度解析MaxFrame,探索量化交易新纪元
2024年10月15日,阿里云与传智教育联合举办了一场主题为“解密新一代AI+Python分布式计算框架MaxFrame”的直播,对阿里云最新推出的分布式计算框架MaxFrame进行了详细的介绍。
219 0
|
3月前
|
存储 数据采集 人工智能
外滩大会热议:AI时代数据价值转变,如何打造下一代智能数据体系?
9月5日,2024 Inclusion·外滩大会举办“从DATA for AI到AI for DATA”论坛,蚂蚁集团、上海交通大学和复旦大学联合主办,探讨AI时代数据价值的转变。中国工程院院士郑纬民和新加坡工程院院士颜水成等专家参会,分享了数据技术变化趋势及与AI融合的最新进展。论坛强调大模型对数据技术的需求推动了存储、生产和加工等各环节的技术革新,并探讨了合成数据和智能数据体系的重要性。
|
存储 数据采集 人工智能
数智洞察 | 大国科技博弈,开放科学平台的“四步”开源之旅
编者按: 20世纪末,科学界发起了一系列体现“参与、包容、分享、合作、公开、透明”理念的开放科学运动,包括开源软件、开放获取、开放数据以及开放基础设施和平台等。开放科学运动的发起是为了克服传统封闭的科学模式造成的种种弊端,比如过高付费墙造成知识鸿沟与不平等。 当前,随着时代发展,从开放获取迈向开放科学,已经成为全球共识,全球科研模式也因此发生深刻变革。但我国目前要实现开放科学还面临着许多问题,如何构建开放科学的中国路径、制定互惠共享的国际科技合作战略是我国开放科学发展的未来思路。 本文约3562字,建议阅读时间9分钟。
138 0
|
人工智能 Cloud Native 安全
「开源人说」|大咖齐聚首,大数据&AI开源话题对碰
「开源人说」第四期——大数据& AI专场在今年云栖大会举办,阿里巴巴开源委员会大数据AI领域副主席王峰和阿里云AI开源项目EasyRec负责人施兴现场分享热门开源项目背后的故事。开源中国创始人&CTO红薯,白鲸开源联合创始人代立冬,浙大博导赵俊博,InfoQ总编辑王一鹏、Apache软件基金会成员李钰等嘉宾圆桌共话,对开源热点及痛点问题展开激烈讨论。
138909 5
「开源人说」|大咖齐聚首,大数据&AI开源话题对碰
|
人工智能 数据挖掘
AI:2020年6月23日北京智源大会演讲分享之AI交通专题论坛——11:05-11:35杜博文教授《基于广义时空数据挖掘的交通复杂行为认知-从研究到工业》
AI:2020年6月23日北京智源大会演讲分享之AI交通专题论坛——11:05-11:35杜博文教授《基于广义时空数据挖掘的交通复杂行为认知-从研究到工业》
AI:2020年6月23日北京智源大会演讲分享之AI交通专题论坛——11:05-11:35杜博文教授《基于广义时空数据挖掘的交通复杂行为认知-从研究到工业》
|
人工智能 数据可视化
全球人工智能企业各数据一览
在前面的一篇文章中,我们简单总结了人工智能的八大关键技术,今天我们再来盘点下当今全球TOP20的人工智能领域公司的相关数据 当然数据不是非常全面,但是从一定程度上也能代表人工智能领域了~
全球人工智能企业各数据一览
「镁客·请讲」奇点机智邬霄云:打造AI语音对话平台,赋能传统行业
个好的对话平台,要能够使用有限的例句进行泛化拓展,利用算法、语料库、知识库训练有效的模型。
355 0
|
人工智能 DataWorks 算法
大数据&人工智能的“淘宝平台”来了:突破围城,连接生态
概述 有人说人工智能&大数据领域是个围城,厚厚的技术门槛构成了这道城墙。懂技术的人在围城里面,懂技术的人不一定有足够的业务去施展技术。而很多有业务需求的的人被隔在围城外面,有业务需求的人又不一定有足够的技术能力。
2440 0
|
自然语言处理 算法 大数据
自然语言处理工具HanLP被收录中国大数据产业发展的创新技术新书《数据之翼》
Hanlp是由大快搜索高级研究员何晗主导开发的完全开源的项目,具有精度高、速度快、内存省的特点。
1837 0