IBM PowerAI编程大赛Q2场来袭！探秘金融语料大数据识别-阿里云开发者社区

IBM PowerAI编程大赛Q2场来袭！探秘金融语料大数据识别

2017-07-04 1748

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生大数据计算服务 MaxCompute，5000CU*H 100GB 3个月

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

简介：

6月17日，上海，由CSDN主办，IBM和兴业数金协办的PowerAI人工智能线下马拉松编程大赛Q2场将拉开序幕。本赛季赛题将聚焦金融行业的语料大数据识别，基于人工智能相关技术，计算有关金融场景的信息聚类，将电话银行海量通话内容结构化，并打上各类标签。通过挖掘分析有价值信息，为服务与营销提供数据与决策支持，发现最新的市场机遇和客户关注热点。活动旨在进一步推动人工智能技术在行业领域的落地，贴近生活并与真实案例场景，也是系列赛题内容的一大特色。

图片描述

截止目前，本轮活动已收到了大量参赛者报名，绝大部分参赛团队成员来自金融机构和相关的技术服务公司，例如招商银行上海分行、民生银行、包商银行、华通银行、陆金所、太平洋保险、华为、东方证券研究所、上海金融期货信息技术有限公司、中国大地保险、国泰基金、西藏东方财富证券、东软集团、实达电脑等，也有一些一线互联网公司和顶尖的科研院所报名，例如今日头条、京东、中科院上海所、上海交大、中国科学技术大学等。

从本季题目内容来看，主办方会提供训练样本数据，分为训练和测试部分。训练部分包括：
- 对话内容文件（文件格式可能存在转码需求），对话内容分为11类
- 对话内容标签文件，包括理财产品分类和意愿分类（肯定、否定、疑问）
- 语料文件-文件格式为txt格式。内容包括中文和标点符号。文章内容是金融相关的文章。文件总量在50M左右。参赛团队可以利用这些文件来建立自己的语言模型、分词模型
- 训练数据：每个分类的样本个数不少于150条。数据样本间有一定区分度。

参赛者需要根据训练文件进行购买产品分类和意愿分类；大赛鼓励参赛选手自己构建分词和语言模型，如果选手选择使用第三方分词或者语言模型需要自己解决平台依赖。

在参赛要求方面，主办方也给出了一些建议：
1.参赛者可以通过Caffe、Tensorflow、Torch 、Theano 进行模型训练，鼓励发挥GPU on Power硬件特性；

2.要求参赛者编写神经网络模型实现考题需求。参赛者可以修改Caffe、Torch、Theano或者Tensorflow源代码，但是必须在修改后，提供代码修改说明以确定没有违规部分。参赛者也可以使用Github上开源的不同发行版的Caffe、Torch、Theano或者Tensorflow，但是必须自己解决在Power上的依赖和编译问题；

3.本次比赛涉及金融领域对话文本分类问题。希望选手通过深度神经网络能够对客户感兴趣购买的保险或者理财产品的类型和意愿进行分类。语料中会有“肯定”，“疑问”，“否定或者双重否定”语句。传统的词频或者简单的SVD方式很难在测试数据集中有良好的表现；

大赛开战在即，CSDN也对某位报名参赛的开发者进行了简短采访，他就目前人工智能技术在金融行业的应用现状和挑战等话题分享了自己的看法。以下为采访内容（受访者不便透露真实姓名，以李成代替）：

1.CSDN：请先介绍下自己所从事的工作和参赛原因。
李成：目前本人在金融行业软件公司工作，主要负责银行、证券行业的信息开发服务。这次主要是想检验自己在项目中用到的技术，也想结识更多在金融行业从事人工智能技术研究的开发者，互相切磋。

2.CSDN：请谈谈您对人工智能技术在金融行业应用现状的看法。
李成：随着金融信息化的不断深入，银行正在从过去的手工银行转变成数字化银行，极大的推动了全球金融的发展。由于云计算、大数据、人工智能等技术在金融行业的不断普及，更多的银行都在思考如何通过这些新技术提供客户粘合度，为客户提供全生命周期的服务，提高服务质量，以及从所积累的海量用户数据中挖掘新的商机。目前，我们看到人工智能技术已经在金融领域的授信、反欺诈、风控、审批、差异化服务等多方面落地。

3.CSDN：从您的介绍看有从事人工智能应用项目的经历，请谈谈当时所希望解决的问题。
李成：主要有几个方面：1.通过人像识别技术在银行监控范围内识别客户的各种行为特征，例如身份认证、人脸刷卡，或者其他安全识别等；2.通过语音识别判断客户目前的状态和特征；3.可以通过人像、语音识别缩短业务流程；4.通过呼叫中心平台识别客户具体语音，如客户说出某关键词以后自动处理下一步业务等。

结合我现在正在做的项目，具体来说，目前银行信用卡中心的业务都是通过电话进行，我们希望利用语音识别技术，对通话进行实时分析，帮助银行提升服务的质量。还有就是利用机器学习，可以让机器人回答客户的提问和交互。

4.CSDN：您认为现阶段，在金融行业什么样的应用场景是比较适合用机器学习或人工智能技术来解决的？
李成：不管是在提升客户体验还是内部管理效率，商机挖掘以及风险防范方面，人工智能在金融行业的应用前景都非常广泛。结合我的经历，我认为银行行用卡中心应该是一个很好的验证场景。人工智能，目前语音方面技术是最成熟的，而银行信用卡中心，基本全部的业务都是通过电话进行，技术应用潜力非常大。

5.CSDN：您之前是否了解过IBM的产品或解决方案？从您的角度看，IBM在人工智能领域的机会主要在哪些方面？
李成：了解过。IBM的机会在于不仅在技术上持续投入很大，而且对于金融行业的业务、流程都很熟悉。在这个金融行业向数字化转型的风口，只要切准用户痛点，技术精深+业务流程熟悉，就能找到很多机会。

6.CSDN：对本次大赛有什么期望，对参赛伙伴有什么寄语？
李成：我相信这次的选手中大拿很多，我自己在金融行业和人工智能也有一些实践经历和积累，希望大家能获得优异的成绩。另外，希望通过AI技术能够真正帮助金融机构提升他们的业务。

据悉，本次所有的参赛团队，都将现场免费体验所有参赛团队，将现场免费体验IBM专门为人工智能所建的高性能计算服务器PowerAI。PowerAI人工智能平台基于Power8体系结构，支持开源机器学习和深度学习架构，包括Caffe, Chainer、TensorFlow、Theano、Torch、cuDNN、NVIDIA DIGITS以及其它若干个机器学习与深度学习架构和库。参赛者将轻松便捷地使用这些人工智能方法，创建新的计算机模式以高效的对数据进行分析。

最后，一如既往，主办方为获胜团队和参赛者准备了丰厚的现金和奖品奖励，欢迎大家6月17日来玩！

本文转自d1net（转载）

IBM PowerAI编程大赛Q2场来袭！探秘金融语料大数据识别

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

IBM PowerAI编程大赛Q2场来袭！探秘金融语料大数据识别

热门文章

最新文章

相关课程

相关电子书

相关实验场景