专注大数据,人工智能的多面手,对新兴的技术与知识充满了好奇与渴望!
参加完2017CCAI,听完各位专家的演讲后受益匪浅。立志写“人工智能之机器学习”系列,此为开篇,主要梳理了机器学习算法体系,人工智能相关趋势,Python与机器学习,以及结尾的一点感想。抱着一颗严谨学习之心,有不当之处欢迎斧正。
概述:Apache Beam WordCount编程实战及源码解读,并通过intellij IDEA和terminal两种方式调试运行WordCount程序,Apache Beam对大数据的批处理和流处理,提供一套先进的统一的编程模型,并可以运行大数据处理引擎上。完整项目Github源码 负责公司大数据处理相关架构,但是具有多样性,极大的增加了开发成本,急需统一编程处理
概述:基于Docker的TensorFlow机器学习框架搭建和实例源码解读,TensorFlow作为最火热的机器学习框架之一,Docker是的容器,可以很好的结合起来,为机器学习或者科研人员提供便捷的机器学习开发环境,探索人工智能的奥秘,容器随开随用方便快捷。源码解析TensorFlow容器创建和示例程序运行,为热爱机器学者降低学习难度。 默认机器已经装好了Docker(D
概述:Spark postgresql jdbc 数据库连接和写入操作源码解读,详细记录了SparkSQL对数据库的操作,通过java程序,在本地开发和运行。整体为,Spark建立数据库连接,读取数据,将DataFrame数据写入另一个数据库表中。附带完整项目源码(完整项目源码github)。 1.首先在postgreSQL中创建一张测试表,并插入数据。(完整项目源码G
概述:Spark 程序开发,调试和运行,intellij idea开发Spark java程序。 分两部分,第一部分基于intellij idea开发Spark实例程序并在intellij IDEA中运行Spark程序.第二部分,将开发程序提交到Spark local或者hadoop YARN集群运行。Github项目源码 图1,直接在intellij IDEA(社区版)
linux下React Native开发环境搭建,使用Android-studio工具进行React Native整合开发。 参考React Native的官方文档,通过图文详细记录开发过程。可以查看本文档中涉及Github源码。 步骤1,2,3来配置React Native开发环境步骤4,5做react-native与Android运行demo整合开发。 1.
Docker 常用命令总结,镜像下载,到docker容器创建,常用docker命令的 增删查 1.镜像下载,从hub.docker.com中下载最新版本的postgres docker pull postgres 2.首次启动一个容器,名称为--name docker-postgresql,把容器/root文件挂在到 ~/codehub下 -v ~/code
ubuntu安装pgAdmin4,通过python的pip 安装 pgAdmin4.(首更时间20161205) 新版本的pgAdmin4目前支持mac/window/linux/python,可是linux中只用YUM可以直接安装,而其他发行版只能通过python来安装pgAdmin4。 ubuntu16.04.1通过python3(Python2也可以)安装pgAdm
超详细从零记录Ubuntu16.04.1 3台服务器上Hadoop2.7.3完全分布式集群部署过程。包含,Ubuntu服务器创建、远程工具连接配置、Ubuntu服务器配置、Hadoop文件配置、Hadoop格式化、启动。(首更时间2016年10月27日) 主机名/hostname IP 角色 hadoop1 192.168.193.131 Re
记录了postgreSQL数据库的完整的安装配置过程,以及postgreSQL的pgcli命令行智能提醒扩展,pgadmin3图形化管理客户端的配置安装。此postgresql是bigsql版安装详情,另bigsql刚出新版9.6 www.bigsql.org 1.环境前提 linux(ubuntu16.04) postgresql-95 在postgreSQL官网
1.Spark企业级应用开发和调优 Spark项目编程优化历程记录,主要介绍了Spark企业级别的开发过程中面临的问题和调优方法。包含合理分配分片,避免计算中间结果(大数据量)的collect,合理使用map,优化广播变量等操作,降低网络和磁盘IO,提高计算效率。 2.核心技术优化方法对比 首先如下图(2.1),Spark应用开发在集群(伪分布式)中的记录,每一种不
Docker内部数据管理和Docker之间的数据共享为数据卷和数据卷容器,实例解析1.将本地的文件作为容器的数据卷,2.数据卷flocker插件实现容器集群(或者Docker Swarm)的数据共享3.数据卷容器作为其他容器的数据卷.降低磁盘开销.4.数据的备份,恢复和迁移.5.Docker hub的常用操作. 1.0.数据卷(Data volumes) Data vol
实例解析Docker网络管理机制(bridge network,overlay network),介绍Docker默认的网络方式,并创建自己的网络桥接方式,将开发的容器添加至自己新建的网络,提高Docker网络安全和通信. 1.给自己的docker (Dcoker1.12GA)容器起个名称 给docker名称的好处是: - 容易记 - 可以通过特殊命令,使得名
实例解析Docker如何通过commit,Dockerfile两种方式自定义Dcoker镜像,对自定义镜像的pull,push,rmi等常用操作,通过实例创建一个Python数据分析开发环境的Docker镜像.1.通过commit操作在一个已有的镜像上做更改而保存为新的镜像.2.实例解析Dockerfile自定义镜像原理过程和命令规则.3.实例解析对自定义镜像做pull,pu
HBase1.2.2伪分布式安装(HDFS)+ZooKeeper-3.4.8安装配置+HBase表和数据操作+HBase的架构体系+单例安装,记录了在Ubuntu下对HBase1.2.2的实践操作,HBase的安装到数据库表的操作.包含内容1.HBase单例安装2.HBase伪分布式安装(基于Hadoop的HDFS)过程,3.HBase的shell编程,对HBase表的创建,
Ubuntu16.04安装后1.安装常用软件搜狗输入法+编辑器Atom+浏览器Chome+视频播放器vlc+图像编辑器GIMP Image Editor安装+视频录制软件RcordMyDesktop安装.2.开发环境配置.JDK环境配置+scala环境配置+nodejs环境配置+开发工具intellij IDEA安装+Python数据分析环境配置+Jupyter开发工具安装+
本次主要是详细记录Docker1.12在Ubuntu16.04上的安装过程,创建Docker组(避免每次敲命令都需要sudo),Docker常用的基本命令的总结,在容器中运行Hello world,以及创建一个基于Python Flask的web应用容器的全过程。 1.Docker1.12在Ubuntu16.04上安装 1.1.先决条件1,添加Docker源 wxl
云端基于Docker的微服务与持续交付实践笔记,是基于易立老师在阿里巴巴首届在线技术峰会上《云端基于Docker的微服务与持续交付实践》总结而出的。 本次主要讲了什么? Docker Swarm Docker Swarm mode 微服务支持(Docker集群架构体系) Docker的发展趋势和前沿成果 在Docker技术方面还是很佩服大牛的,所以赶紧写下笔记,追随大
记录了Spark,Hadoop集群的开启,关闭,以及Spark应用提交到Hadoop集群的过程,通过web端监控运行状态。 1.绝对路径开启集群 (每次集群重启,默认配置的hadoop集群中tmp文件被清空所以需要重新format) 我的集群安装位置是/opt/hadoop下,可以根据自己路径修改。 /opt/hadoop/bin/hdfs namenode -f
Ubuntu16.04安装Hadoop2.6+Spark1.6,并安装python开发工具Jupyter notebook,通过pyspark测试一个实例,調通整个Spark+hadoop伪分布式开发环境。 主要内容:配置root用户,配置Hadoop,Spark环境变量,Hadoop伪分布式安装并测试实例,spark安装并通过Jupter notebook进行开发实例
spark编程python实例 ValueError: Cannot run multiple SparkContexts at once; existing SparkContext(app=PySparkShell, master=local[]) 1.pyspark在jupyter notebook中开发,测试,提交 1.1.启动 IPYTHON_OPT
1.Intellij idea配置scala开发环境 解决Plugin Scala was not installed: No route to host Plugin Scala was not installed: connect timed out Plugin Scala was not installed: Cannot download ‘http://pl
Windows10下安装Hadoop2.6,Windows10下编译64位Hadoop2.x。详细记录了Windows10版本下对Hadoop的编译、安装步骤,以及相关包或者软件下载安装过程。 不需要在Cygwin下安装Hadoop,官方也不推荐使用Cygwin。 Hadoop版本支持情况:Hadoop 2.2版本起包括Windows的原生支持。截至2014年一月份,官
1. R的安装过程 1.1.首先附上清华线路的下载链接Windows版3.3.1 1.2. 选择安装路径 1.3. 注意根据自己的计算机位数选择,如我的是64位,便选择64位安装。 1.4. 其他默认点击“下一步”即可。开启界面。 2. 基础命令学习 2.1 基本的矢量计算 加减乘除不在话下,遵循数学法则。 >
解决nbconvert failed: Pandoc wasn’t found.解决nbconvert failed: pdflatex not found on PATH 问题1描述 500 : Internal Server Error nbconvert failed: Pandoc wasn’t found. Please check that pando
基于Python3 神经网络的实现(下载源码) 本次学习是Denny Britz(作者)的Python2神经网络项目修改为基于Python3实现的神经网络(本篇博文代码完整)。重在理解原理和实现方法,部分翻译不够准确,可查看Python2版的原文。原文英文地址(基于Python2) 概述如何搭建开发环境 安装Python3、安装jupyter notebook
设置页眉的章节及标题方法(以world 2016 版本为例) 1. 双击要修改的页眉 2. 打开“域”选项 选择“文档信息”后选择“域”选项 或者 “文档部件”选择“域” 3. 确定跟随方法 3.1 类别选择“连接与引用” 3.2 “域名”选择“StyleRef” 3.3 “样式名”选择“标题1,(章标题)”点击”确定 4. 完成修改。
解决1 主机与虚拟机ping不通 解决2 状态: 失败 -测试失败: IO 错误: The Network Adapter could not establish the connection 本次尝试在主机连接虚拟机中的oracle12c,经过折腾后成功,总结如下: 环境:VMware ,oracle12 ,主机和虚拟机均安装Windows10 问题1
HBase数据模型(1) HBase数据模型(2) 1.0 HBase的版本version,是一个用长整型表示的。由Rowkey、Column(列族和列)、Version组合在一起称为HBase中的一个单元格。 2.0 排序,Get和Scan操作返回的是经过排序的数据。返回的数据首先按行字典排序,其次是列族,然后是列修饰符(cloumn qualifier),最后是时
Oracle创建用户、表(1) 1. 连接 C:\Users\LEI>sqlplus / as sysdba SQL*Plus: Release 12.1.0.2.0 Production on 星期五 4月 22 10:17:52 2016 Copyright (c) 1982, 2014, Oracle. All rights reserved.
1. Sqoop的导入过程 在开始导入之前,Sqoop会通过JDBC来获得所需要的数据库元数据 1.导入表的列名、数据类型等; 2.接着这些数据库的数据类型(varchar、number等)会把映射成Java的数据类型(String、int等),根据这些信息,Sqoop会生成一个与表名同名的类用来完成反序列的工作,保持表中的每一行记录; 3.Sqoop启动MapRedu
Hive基础(1) Hive的HQL(2) 1. HQL的数据定义,HQL是一种SQL方言,支持绝大部分SQL-92标准。但是和SQL的差异为:不支持行级别的操作,不支持事务等。HQL的语法接近于MySQL。 2. Hive的数据库,本质仅仅是个表的目录或者命名空间。一般用数据库将生产表组织成逻辑组。 3. Hive中的表–管理表,创建表时未指定的话为默认为管
Hive基础(1) Hive的HQL(2) 1. Hive并不是分布式的,它独立于机器之外,类似于Hadoop的客户端。 2. 元数据和数据的区别,前者如表名、列名、字段名等。 3. Hive的三种安装方式 内嵌模式,元数据服务和Hive服务运行在同一个JVM中,同时使用内嵌的Derby数据库作为元数据存储,该模式只能支持同时最多一个用户打开Hive会
MapReduce的编程思想(1) MapReduce的过程(2) 1. MapReduce从输入到输出 一个MapReduce的作业经过了input、map、combine、reduce、output五个阶段。 其中combine阶段不一定发生,map输出的中间结果被分发到reduce的过程称为shuffle(数据混洗)。 shuffle阶段会发生copy(复制
MapReduce的编程思想(1) MapReduce的过程(2) 1. MapReduce采用分而治之的思想,将数据处理拆分为主要的Map(映射)与Reduce(化简)两步,MapReduce操作数据的最小单位是一个键值对。 2. MapReduce计算框架为主从架构,分别是JobTracker与TaskTracker。 JobTracker在集群中为
0.0本过程为GraphicsMagick Linux版安装,通过典型的make编译安装。 未了支持png和jpg格式,首先请安装依赖。执行 yum install -y libpng-devel yum install -y libjpeg-devel 下载GraphicsMagick 1.0将GraphicsMagick放置目录中,这里讲下载的.
降低PNG图片存储大小方法,图片压缩方法,如何降低PNG图片存储大小?前提是分辨率和尺寸大小不变,图形的透明部分不变。请看如下办法,亲测可用。 1. 将PNG图片用PS打开。 2. 图像-模式-8位/通道 (这样在后续存储时才有gif存储选项) 3. 将图片另存为GIF。 4. 选项中选择局部可感知或者全部可感知。 5. 强制选择“无”,勾选透明
Windows下mysql 64位 安装(mysql-5.7.11-winx64安装) 系统Windows10 安装包mysql-5.7.11-winx64.zip 安装过程中遇到的问题,请留意4.0常见问题汇总,常见问题都可解决。 附上最近一次完成安装记录,给大忙人看的只有两张图和完整的命令。 完成的命令 C:\Windows\syst
解决-Dmaven.multiModuleProjectDirectory system property is not set. Check $M2_HOME environment variable and mvn script match. myeclipse 2015 在编译(Run As-Maven install)maven项目出现如上错误,需要添加-Dma
centos 7 下Hadoop 2.7.2 伪分布式安装,安装jdk,免密匙登录,配置mapreduce,配置YARN。详细步骤如下: 1.0 安装JDK 1.1 查看是否安装了openjdk [lei@bogon ~]$ java -version openjdk version "1.8.0_65" OpenJDK Runtime Environme
centos 7安装JDK (Linux安装jdk) 第一部分 首先查看centos 7是否有openjdk,如没有就跳过第一部分,直接第二部分。 [master@bogon ~]$ java -version openjdk version "1.8.0_65" OpenJDK Runtime Environment (build 1.8.0_65-b17) O
Oracle Data Integrator 12c 安装(ODI安装) 企业版安装步骤(包含独立安装步骤) 官网下载Oracle Data Integrator 12cR2 (12.2.1.0.0)地址 如上图,在安装ODI时,有两种选择,第一种是独立版安装,只需安装Oracle Data Integrator 12cR2 ,第二种是企业版安装,需要先安装Oracl
Oracle数据仓库创建教程。如何创建一个数据仓库,创建实例,以为毕业设计要求,最近开始Oracle的数仓建模实践,详细记录了图形界面下的 Oracle database 12C 数据仓库创建过程。 本教程在Linux环境和Windows环境均可成功创建。 注意:不论是Linux下还是Windows下,前提是你已经正确安装了Oracle database 12C。
PaaS优点与限制(3) PaaS学习笔记目录 PaaS基础学习(1) 在PaaS上开发Web、移动应用(2) PaaS优点与限制(3) 13. PaaS的核心服务 核心服务是指提供数据存储、SQl、NoSQL、查询以及其他给应用提供支持的功能。 核心服务还包括电子邮件监控、缓存和数据管理、资源消耗和分析等。 14. PaaS四大优点
在PaaS上开发Web、移动应用(2) PaaS学习笔记目录 PaaS基础学习(1) 在PaaS上开发Web、移动应用(2) PaaS优点与限制(3) 6. 巨型代码,是指持续不断地向一个应用程序添加功能,不停地增加新的特性如搜索功能、账户管理、博客发布等。 在开发速度以及在适应扩展需求的总体架构之间进行权衡。 新技术的面向服务架构(SOA)在
PaaS基础学习(1) PaaS学习笔记目录 PaaS基础学习(1) 在PaaS上开发Web、移动应用(2) PaaS优点与限制(3) 1. 基础单元,一个基础单元就是所研究实体的最小的不可分割的单元。 2. PaaS与IaaS对比 PaaS平台即服务,IaaS基础设施即服务。 对于IaaS(基础设施即服务)来说,基础单元就是资源。 这里
Firefox离线安装扩展教程 解决问题博文:解决stackoverflow打开慢不能注册登录 应网友求助在上传了需要的扩展资源后,顺便写个离线安装方法,其实百度也行,这不写下来后为需求者省事。(*^__^*) 相当简单 前提是有.xpi的资源如 本地资源,搜索本地资源直接在文件管理中搜索关键词.xpi 资源下载 Decentrale
Hadoop YARN学习之重要术语总结(6) - SLA服务等级 - RM(ResourceManager) - AM(ApplicationMaster) - NM(NodeMaster) - MPI(Message Passing Interface) - FIFO(First In First Out) - ACL访问控制列表 - CLC(Contai
Hadoop YARN学习监控JVM和实时监控Ganglia、Ambari(5) 1.0 监控ResourceManager进程Java虚拟机中堆空间的特定部分。 jstat工具,在JDK的bin目录,可以显示大量JVM统计信息。 1.1 JVM分析 一个Java虚拟机(JVM)进程被分为3个区(代),具体分为年轻代(young generation)、年老代
doop YARN学习之监控集群监控Nagios(4) 1. Nagios是一个流行的开源监控工具,可以用来监控Hadoop集群。 2. 监控基本的Hadoop服务 调试好脚本后命名为chek_resource_manager.sh,并把它放在Nagios的插件目录中。 加载Nagios插件向hadoop-cluster.cfg添加如下信息 defi