thinkgamer.cn_个人页

thinkgamer.cn

文章

237

问答

视频

个人介绍

wechat 搜索【数据与算法联盟】，专注于云计算和算法，目前就职于京东

擅长的技术

获得更多能力

通用技术能力：

暂时未有相关通用技术能力~

云产品技术能力：

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明

高分内容

最新动态

文章
问答
视频

发表了文章 2015-07-30

四、伪分布下安装hive1.2

声明：本篇blog并没有配置MySQL，元数据库为derby 如需配置mysql请点击：http://blog.csdn.net/gamer_gyt/article/details/47776369 一、环境 Ubuntu14.
发表了文章 2015-07-30

《图论》——广度优先遍历算法(BFS)

十大算法之广度优先遍历：本文以实例形式讲述了基于Java的图的广度优先遍历算法实现方法，具体方法如下：用邻接矩阵存储图方法： 1.确定图的顶点个数和边的个数 2.输入顶点信息存储在一维数组vet中 3.
发表了文章 2015-07-30

《排序算法》——堆排序（大顶堆，小顶堆，Java）

十大算法之堆排序：堆的定义如下：　　n个元素的序列{k0,k1,...,ki,…,k(n-1)}当且仅当满足下关系时，称之为堆。　　" ki=k2i+1.（i=1,2,…,[n/2])" 　　若将和此次序列对应的一维数组（即以一维数组作此序列的存储结构）看成是一个完全二叉树，　　则完全二叉树中每一个节点的值的都大于或等于任意一个字节的值（如果有的话），称之为大顶堆。
发表了文章 2015-07-29

hbase shell 基本操作命令

具体的hbase shell 命令如下表所示：查看hbase 的状态： status 查看hbase 的版本： version 创建scores表： ...
发表了文章 2015-07-29

三、伪分布环境下安装hbase

环境说明： 1、hadoop2.6伪分布安装：具体请参考博主的一篇文章：http://blog.csdn.net/gamer_gyt/article/details/46793731 2、Ubuntu14.
发表了文章 2015-07-29

线性查找算法

十大算法之线性查找：介绍： BFPRT算法解决的问题十分经典，即从某n个元素的序列中选出第k大（第k小）的元素，通过巧妙的分析，BFPRT可以保证在最坏情况下仍为线性时间复杂度。该算法的思想与快速排序思想相似，当然，为使得算法在最坏情况下，依然能达到o(n)的时间复杂度，五位算法作者做了精妙的处理。
发表了文章 2015-07-29

二分查找算法

十大算法之二分查找：二分查找算法是在有序数组中用到的较为频繁的一种算法，在未接触二分查找算法时，最通用的一种做法是，对数组进行遍历，跟每个元素进行比较，其时间为O(n).但二分查找算法则更优，因为其查找时间为O(lgn)，譬如数组{1， 2， 3， 4， 5， 6， 7， 8， 9}，查找元素6，用二分查找的算法执行的话，其顺序为： 1.第一步查找中间元素，即5，由于56，则6应该在7左边的数组元素中，那么只剩下6，即找到了。
发表了文章 2015-07-29

《排序算法》——快速排序（Java）

十大算法之快速排序：方法其实很简单：分别从初始序列“6 1 2 7 9 3 4 5 10 8”两端开始“探测”。先从右往左找一个小于6的数，再从左往右找一个大于6的数，然后交换他们。
发表了文章 2015-07-28

搜索引擎：MapReduce实战----倒排索引

1.倒排索引简介倒排索引（Inverted index），也常被称为反向索引、置入档案或反向档案，是一种索引方法，被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。
发表了文章 2015-07-28

MapReducer中的多次归约处理

我们知道，MapReduce是分为Mapper任务和Reducer任务，Mapper任务的输出，通过网络传输到Reducer任务端，作为输入。在Reducer任务中，通常做的事情是对数据进行归约处理。
发表了文章 2015-07-11

hadoop命令——hdfs

hdfs是hadoop大体系下的分布式文件管理系统，是英文Hadoop Distributed File System的简写，其常用命令如下：一：fs命令（和Linux终端运行命令一致，也是hdfs最常用命令）二：其他相关命令 1、hadoop 归档文件shell： hadoop archive -archiveName file.
发表了文章 2015-07-08

VirtualBox 虚拟Ubuntu系统与主机互ping

互ping的前提是主机和虚拟机的ip地址在同一波段【eg:主机为：192.168.1.10虚拟Linux：192.168.1.11】 1、设置主机ip： ...
发表了文章 2015-07-08

linux ifconfig命令配置ip地址

Linux下网卡命名规律：eth0，eth1。第一块以太网卡，第二块。 lo为环回接口，它的IP地址固定为127.0.0.1，掩码8位。它代表你的机器本身。 ifconfig [Interface] 是查看网卡的信息，如果不加参数查看的是所有的网卡信息 ...
发表了文章 2015-07-07

二、hadoop伪分布搭建

环境虚拟机：VirtualBox Ubuntu:14.04 hadoop:2.6 安装 1、创建hadoop用户 sudo useradd -m hadoop -s/bin/bash 【Ubuntu终端复制粘贴快捷键】【在Ubuntu终端窗口中，复制粘贴的快捷键需要加上shift，即粘贴是 ctrl+shift+v。
发表了文章 2015-07-05

MySQLdb的安装与使用

一、安装安装已编译版本(此方法简便快捷): http://www.codegood.com/downloads 根据自己系统下载，双击安装，搞定然后import MySQLdb，查看是否成功我的，win7,32位，2.
发表了文章 2015-06-28

VirtualBox 共享文件夹设置及开机自动挂载

首先声明：本人的Vbox虚拟机里装的是Ubuntu，本机是windows 1、用VirtualBox虚拟机的共享文件夹设置共享的本地文件（我的是设置的是本地E盘，java文件夹） 2、进入虚拟机Ubuntu系统，打开终端，用root用户操作（sudo -s回车输入密码）首先在虚拟...
发表了文章 2015-06-27

VirtualBox导入XXXX.vdi时报错

virtualbox导入vdi文件时出现下面的问题：解决方法： windows+R，输入cmd,进入virtualbox的安装目录（或者在硬盘中直接进入virtualbox的安装目录，在任务栏里输入cmd），输入VBoxManage internalcommands setvdiuuid D:\path\ubuntu.vdi 注意，在virtualbox4.0.4以上该命令改为 VBoxManage internalcommands sethduuid D:\path\ubuntu.vdi 然后重新导入即可。
发表了文章 2015-06-19

新浪明星日志热门推荐（java实现）

现在进行推荐的第三步： 1:利用数据的格式如下： 2：编程语言采用的是Java，源代码如下： package top10; import java.util.*; import java.
发表了文章 2015-06-18

一、Hadoop2.6.0 单机模式配置

一、在Ubuntu下创建hadoop组和hadoop用户增加hadoop用户组，同时在该组里增加hadoop用户，后续在涉及到hadoop操作时，我们使用该用户。 1、创建hadoop用户组 2、创建hadoop用户 sudo adduser -ingroup hadoop hadoop 回车后会提示输入新的UNIX密码，这是新建用户hadoop的密码，输入回车即可。
发表了文章 2015-05-26

新浪明星日志推荐系统——爬虫爬取数据（2）

由于之前的改造，现在将爬虫的功能做了一些改变，具体实现的功能是将推荐的日志全部抓取下来，并存放在以文章标题命名的文件中，代码如下： import urllib import os,re import sys from bs4 import BeautifulSoup reload(sys) sys.
发表了文章 2015-05-21

新浪明星日志推荐系统——爬虫爬取数据（1）

今天有了一个想法，想自己用Python写一个新浪明星日志推荐系统那么第一步要完成的工作就是获得新浪明星日志的数据，于是自己写了一个爬虫，实现的功能是爬取新浪明星日志的作者，推荐的文章链接，以及作者日志列表或者首页链接，具体程序如下： # -*- coding: utf-8 -...
发表了文章 2015-05-19

python 爬虫爬取腾讯新闻科技类的企鹅智酷系列（1）

废话不多说，直接贴代码，主要采用BeautifulSoup写的 #coding:utf8 from bs4 import BeautifulSoup import urllib2 import urllib import os i = 0 j = 0 list_a = [] ...
发表了文章 2015-05-18

BeautifulSoup中解决乱码问题

由于初步学习Python爬取网页文本内容，在存储文本时出现乱码问题我的代码如下： import urllib from bs4 import BeautifulSoup import sys reload(sys) sys.
发表了文章 2015-04-18

python安装beautifulsoup

注明：python2.7版本貌似只支持beautifulsoup4.4 正常情况下在dos命令下将beautifulsoup解压在python安装目录下进入beautifulsoup文件夹使用python setup.
发表了文章 2015-03-31

Python爬虫抓取图片，网址从文件中读取

利用python抓取网络图片的步骤： 1.根据给定的网址获取网页源代码 2.利用正则表达式把源代码中的图片地址过滤出来 3.根据过滤出来的图片地址下载网络图片 import urllib import re import os ...
发表了文章 2015-03-25

ISBN号码（Java）CCF模拟试题

import java.util.Scanner; public class Main { public static void main(String[] args) { Scanner ss = new Scanner(System.
发表了文章 2015-03-22

出现次数最多的数（java），ccf考试模拟题

import java.util.Scanner; public class Main { public static void main(String[] args) { Scanner sc = new Scanner(System.
发表了文章 2015-03-22

Ubuntu下终端闪退

执行sudo ls -al / | grep tmp命令继续执行命令：sudo chmod 1777 /temp即可附：关于tmp的相关说明： http://www.ubuntu-tw.
发表了文章 2015-03-17

Java文件的写入与读出

由于要将爬虫的结果写到文件里，就自己晚上搜了一点资料，看了别人的博客，补充了一点文件的基础知识，现将其整理如下，供大家参考 Java文件的写入和读出有很多种方法我所介绍的主要是Read/Writer，OutputStream/InputStream 一：Read/Writer 由于Java本身可以导入许多包，在这里可以直接调用Java的io，语句是 import java.
发表了文章 2015-03-17

java读写文件大全

使用Java操作文本文件的方法详解摘要: 最初java是不支持对文本文件的处理的，为了弥补这个缺憾而引入了Reader和Writer两个类最初java是不支持对文本文件的处理的，为了弥补这个缺憾而引入了Reader和Writer两个类，这两个类都是抽象类，Writer中 write(char[] ch,int off,int length)，flush()和close()方法为抽象方法，Reader中read(char[] ch,int off,int length)和close()方法是抽象方法。
发表了文章 2015-03-16

Java中的匿名内部类总结

匿名内部类也就是没有名字的内部类正因为没有名字，所以匿名内部类只能使用一次，它通常用来简化代码编写但使用匿名内部类还有个前提条件：必须继承一个父类或实现一个接口实例1:不使用匿名内部类来实现抽象方法 abstract class ...
发表了文章 2015-01-05

Python中try...except...finally的理解

首先我们打开一个不存在的文件： fp = open("null.txt","r") 然后提示报错如下：--------------------------------------------------------------------------- IOError ...
发表了文章 2014-09-07

typedef int Long_int [3]个人理解

以三个带有次序关系的整数来表示一个长整数可利用C语言中提供的整数数组类型定义长整数为： typedef int Long_int [3] /* typedef: typedef与#define有些类似，但在一些复杂用法上就不同了。
发表了文章 2014-08-24

windows 用户的完美“瘦身”攻略

第一步就是开启 Administrator 帐户，先取得最高管理权限，方法：右键桌面计算机--管理，本地用户和组--用户，右键 Administrator--属性，去除“帐户已禁用”前的勾，注销当前用户登录 Administrator 帐户。
发表了文章 2014-08-23

1002答案杭电详解

杭电1002答案详解：这道题的陷阱是无法用普通的int，long或double能完成的，涉及到了高精度的加法，关于具体的高精度问题，小编建议童鞋们拿出专门的时间把高精度问题整明白，小编在此给出这道题的解法具体的高精度加减乘除请参考小编整理的一个程序，请点击此链接链接 #i...
发表了文章 2014-08-23

win8/win8.1完美解决系统安装VC6.0安装问题

win8/win8.1完美安装VC6.0 1，下载解压安装： 2，要安装的位置：单击“下一步”，依次确认：右键图标，打开文件位置，你将看到一个名为MSDEV.exe的程序，没错就是它，首先对他重命名，（如MSDEV1.exe看你喜好），然后右键属性→兼容性，将其改为以兼容模式运行此程序，选择windows XP（Service Pack 2）或windows XP（Service Pack 3）并勾选以管理员身份运行。
发表了文章 2014-08-23

ACM书籍推荐

acm算法书籍收藏推荐我常感叹到，学计算机的人是幸福的，因为在这个领域中有如此多的通俗易懂（相对来说）的经典好书，你需要做的只是坚持把它们一本一本读下去而已。

暂无更多信息

发表了文章 2018-03-26

推荐系统的一些思考
发表了文章 2018-02-04

Scala 解析 XML
发表了文章 2018-02-04

Spark求统计量的两种方法
发表了文章 2018-01-30

云栖社区ID(我的搬家邀请码：IMIZB)：https://yq.aliyun.com/u/thinkgamer
发表了文章 2018-01-25

Spark多路径输出和二次排序
发表了文章 2018-01-23

Spark提交参数说明和常见优化
发表了文章 2017-12-14

梯度算法之批量梯度下降，随机梯度下降和小批量梯度下降
发表了文章 2017-11-20

异常检测之指数平滑（利用elasticsearch来实现）
发表了文章 2017-11-07

回归分析之Sklearn实现电力预测
发表了文章 2017-09-29

回归分析之线性回归（N元线性回归）
发表了文章 2017-09-20

几种距离计算公式在数据挖掘中的应用场景分析
发表了文章 2017-09-17

回归分析之理论篇
发表了文章 2017-09-01

数据归一化和其在sklearn中的处理
发表了文章 2017-08-29

异常检测之正态分布
发表了文章 2017-07-25

K-means 聚类算法的理解与案例实战
发表了文章 2017-07-16

MachingLearning中的距离和相似性计算以及python实现
发表了文章 2017-07-13

Scrapy 爬取百度贴吧指定帖子的发帖人和回帖人
发表了文章 2017-07-05

推荐算法的回顾总结
发表了文章 2017-04-06

使用filebeat进行数据加密传输和区别不同的日志源
发表了文章 2017-04-06

__str__ returned non-string (type int)

正在加载, 请稍后...

滑动查看更多

正在加载, 请稍后...

暂无更多信息

正在加载, 请稍后...

暂无更多信息

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

thinkgamer.cn_个人页

个人介绍

擅长的技术

四、伪分布下安装hive1.2

《图论》——广度优先遍历算法(BFS)

《排序算法》——堆排序（大顶堆，小顶堆，Java）

hbase shell 基本操作命令

三、伪分布环境下安装hbase

线性查找算法

二分查找算法

《排序算法》——快速排序（Java）

搜索引擎：MapReduce实战----倒排索引

MapReducer中的多次归约处理

hadoop命令——hdfs

VirtualBox 虚拟Ubuntu系统与主机互ping

linux ifconfig命令配置ip地址

二、hadoop伪分布搭建

MySQLdb的安装与使用

VirtualBox 共享文件夹设置 及 开机自动挂载

VirtualBox导入XXXX.vdi时报错

新浪明星日志热门推荐（java实现）

一、Hadoop2.6.0 单机模式配置

新浪明星日志推荐系统——爬虫爬取数据（2）

新浪明星日志推荐系统——爬虫爬取数据（1）

python 爬虫爬取腾讯新闻科技类的企鹅智酷系列（1）

BeautifulSoup中解决乱码问题

python安装beautifulsoup

Python爬虫抓取图片，网址从文件中读取

ISBN号码（Java）CCF模拟试题

出现次数最多的数（java），ccf考试模拟题

Ubuntu下终端闪退

Java文件的写入与读出

java读写文件大全

Java中的匿名内部类总结

Python中try...except...finally的理解

typedef int Long_int [3]个人理解

windows 用户的完美“瘦身”攻略

1002答案杭电详解

win8/win8.1完美解决系统安装VC6.0安装问题

ACM书籍推荐

推荐系统的一些思考

Scala 解析 XML

Spark求统计量的两种方法

云栖社区ID(我的搬家邀请码：IMIZB)：https://yq.aliyun.com/u/thinkgamer

Spark多路径输出和二次排序

Spark提交参数说明和常见优化

梯度算法之批量梯度下降，随机梯度下降和小批量梯度下降

异常检测之指数平滑（利用elasticsearch来实现）

回归分析之Sklearn实现电力预测

回归分析之线性回归（N元线性回归）

几种距离计算公式在数据挖掘中的应用场景分析

回归分析之理论篇

数据归一化和其在sklearn中的处理

异常检测之正态分布

K-means 聚类算法的理解与案例实战

MachingLearning中的距离和相似性计算以及python实现

Scrapy 爬取百度贴吧指定帖子的发帖人和回帖人

推荐算法的回顾总结

使用filebeat进行数据加密传输和区别不同的日志源

__str__ returned non-string (type int)

VirtualBox 共享文件夹设置及开机自动挂载

str returned non-string (type int)