Python数据处理库pandas入门教程
pandas是一个Python语言的软件包,在我们使用Python语言进行机器学习编程的时候,这是一个非常常用的基础编程库。本文是对它的一个入门教程。
pandas提供了快速,灵活和富有表现力的数据结构,目的是使“关系”或“标记”数据的工作既简单又直观。它旨在成为在Python中进行实际数据分析的高级构建块。
# 入门介绍
pandas适合于许多不同类型的数据,包括:
*
【玩转数据系列六】文本分析算法实现新闻自动分类
新闻分类是文本挖掘领域较为常见的场景。目前很多媒体或是内容生产商对于新闻这种文本的分类常常采用人肉打标的方式,消耗了大量的人力资源。本文尝试通过智能的文本挖掘算法对于新闻文本进行分类。无需任何人肉打标,完全由机器智能化实现。
sqluldr2的使用方法
有时候需要导出Oracle表数据到文本中用来迁移数据、异构平台或大数据的数据处理。导出方法有很多种,例如:spool、plsql-developer、utl_file方法等,除了这些方法,还有一个工具很火就是sqluldr2,老楼开发的工具。现在对这些工具做个对比和总结。
平台化三部曲之一微核心可扩展架构 - 从Eclipse平台看交易平台化
该文章来自阿里巴巴技术协会(ATA)精选集
从Eclipse平台看交易平台化
淘宝网的交易平台伴随着互联网,网络购物的蓬勃发展,支持淘宝网成为全球最大的在线交易平台。各种业务方和他们新的交易类型对交易平台提出各种各样的需求,让交易系统的响应和业务支持在现有系统基础上越来越显露出其系统
探索通用可编程数据平面
相比传统网络数据平面,通用可编程数据平面让网络用户可以自定义数据包的完整处理流程,实现理想的协议无关网络数据处理。作为一种理想的SDN数据平面,通用可编程数据平面还不够完善,还需要在不断的尝试中摸索前进。
本文选自《重构网络:SDN架构与实现》。
阿里云PB级实时数仓建设
摘要
如今,数据和分析对于企业来说是不可或缺的。很多企业的数据工程师、数据分析师和开发人员都希望将数据仓库迁移到云上,以提高性能和降低成本。本文讨论了实现实时数据仓库的必要性和实时数据模型,介绍了基于AnalyticDB构建阿里云实时数据仓库解决方案的方法和优势。
JavaWeb项目架构之Kafka分布式日志队列
架构、分布式、日志队列,标题自己都看着唬人,其实就是一个日志收集的功能,只不过中间加了一个Kafka做消息队列罢了。
kafka介绍
Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。
基于云上分布式NoSQL的海量气象数据存储和查询方案
气象数据是一类典型的大数据,具有数据量大、时效性高、数据种类丰富等特点,每天产生的数据量常在几十TB到上百TB的规模,且在爆发性增长。如何存储和高效的查询这些气象数据越来越成为一个难题,本文针对气象领域中海量模式数据的存储和查询问题,分别介绍了传统方案和采用表格存储(TableStore)的方案,并对方案优缺点进行了一些总结。
Apache Flink 漫谈系列(02) - 概述
Apache Flink 的命脉
"命脉" 即生命与血脉,常喻极为重要的事物。系列的首篇,首篇的首段不聊Apache Flink的历史,不聊Apache Flink的架构,不聊Apache Flink的功能特性,我们用一句话聊聊什么是 Apache Flink 的命脉?我的答案是:Apache Flink 是以"批是流的特例"的认知进行系统设计的。
人工智能PK金牌速记员之实战录
引言
在2016年3月23日阿里云年会上,2000余名同学们见证了一场人机大战的好戏--阿里云iDST团队的实时语音识别系统在现场演讲分享环节实时挑战世界速记比赛亚军, 马总御用金牌速录师姜毅先生。这位神一般的速录师, 拥有超人的短时记忆功能, 超级的打字速度和惊人的正确率.要PK这样的对