热爱算法,热爱技术,热爱生活,期待更好的自己与明天~
Shell脚本编程是Linux系统最为核心的技术之一,它能够利用简单的命令来实现一些复杂的功能,同时,由于Linux提供了很多文本处理命令,如grep(grep family), tr, sed, awk等, 一旦熟练掌握这些命令,那么你在Linux系统中处理文本就会得心应手。
scrapy-splash的介绍 在前面的博客中,我们已经见识到了Scrapy的强大之处。但是,Scrapy也有其不足之处,即Scrapy没有JS engine, 因此它无法爬取JavaScript生成的动态网页,只能爬取静态网页,而在现代的网络世界中,大部分网页都会采用JavaScript来丰富网页的功能。
本次分享将介绍Scrapy在Windows系统中的安装以及使用,主要解决的问题有: 在Windows中安装Scrapy模块 在IDE(PyCharm)中使用Scrapy Scrapy导出的csv文件乱码 首先介绍如何在Windows中安装Scrapy模块。
本次Scrapy爬虫的目标是爬取“融360”网站上所有银行理财产品的信息,并存入MongoDB中。网页的截图如下,全部数据共12多万条。
本次将会使用Scrapy来爬取当当网的图书畅销榜,其网页截图如下: 我们的爬虫将会把每本书的排名,书名,作者,出版社,价格以及评论数爬取出来,并保存为csv格式的文件。
在用Python的urllib和BeautifulSoup写过了很多爬虫之后,本人决定尝试著名的Python爬虫框架——Scrapy. 本次分享将详细讲述如何利用Scrapy来下载豆瓣电影Top250, 主要解决的问题有: 如何利用ImagesPipeline来下载图片 如何对下载后的图片重命名,这是因为Scrapy默认用Hash值来保存文件,这并不是我们想要的 首先我们要爬取的豆瓣电影Top250网页截图如下: 网页的结构并不复杂,所以,我们决定把所有的250部电影的图片都下载下来。
Node.js是一个Javascript运行环境(runtime),发布于2009年5月,由Ryan Dahl开发,实质是对Chrome V8引擎进行了封装。
AutoIt的下载网址: https://www.autoitscript.com/site/autoit/downloads/ AutoIt在线文档:http://www.
Python中支持Convex Optimization(凸规划)的模块为CVXOPT,其安装方式为: 卸载原Pyhon中的Numpy 安装CVXOPT的whl文件,链接为:https://www.lfd.uci.edu/~gohlke/pythonlibs/ 安装Numpy+mkl的whl文件,链接为:https://www.lfd.uci.edu/~gohlke/pythonlibs/ 之所以选择这种安装方式,是因为Python的whl和pip直接install的不兼容性。
首先先让我们简单地了解一下cookie. 在我们制作网页的过程中,经常需要把信息从一个页面传递给另一个页面,这时候就需要用到JavaScript中的cookie机制了。
在上一篇分享JavaScript之使用AJAX(适合初学者)中,我们学习了如何在JavaScript中使用AJAX.由于jQuery出色的性能和简洁的写法,且它也支持AJAX的使用,所以,本次分享将会展示如何在jQuery中使用ajax()函数。
网上关于AJAX的教程和分享层出不穷,现实生活中关于AJAX的书籍也是琳琅满目,然而太多的选择容易令人眼花缭乱,不好取舍。
R是一个惊艳的图形构建平台,这也是R语言的强大之处。本文将分享R语言简单的绘图命令。 本文所使用的数据或者来自R语言自带的数据(mtcars)或者自行创建。 首先,让我们来看一个简单例子: dose
jQuery是一个快捷、小型且特征丰富的JavaScript库。它使得HTML文档遍历及操作,事件处理,动画,Ajax等更简洁方便。
八皇后问题,是一个古老而著名的问题,该问题最早由国际西洋棋棋手马克斯·贝瑟尔(Max Bezzel)于1848年提出。八皇后问题的具体描述为:在8×88\times8的国际象棋上摆放8个皇后,使其不能互相攻击,即任意两个皇后都不能处于同一行、同一列或同一斜线上,问有多少种摆法。
在上一篇分享中,我们用Python和Django来破解数独,这对不熟悉Python和Django的人来说是非常不友好的。这次,笔者只用HTML和JavaScript写了破解数独的程序,对于熟悉前端的人,这是十分友好的。
数独是一项快乐的益智游戏,起源于18世纪瑞士的一种数学游戏。解答者需要运用纸、笔进行演算,需要根据9×9盘面上的已知数字,推理出所有剩余空格的数字,并满足每一行、每一列、每一个粗线宫(3*3)内的数字均含1-9,不重复。
本文将详细讲述如何在Django中配置静态文件,如图片(images),JavaScript,CSS等。 我们将要实现的网页如下: 当按下按钮“Change Text”时,图片下方的“Good morning!”会变成“Good night!”.再次按下时,则会变成“Good morning!”,如此循环往复地变化。
插值,不论在数学中的数值分析中,还是在我们实际生产生活中,都不难发现它的身影,比如造船业和飞机制造业中的三次样条曲线。那么,什么是插值呢?我们可以先看一下插值的定义,如下: (定义)如果对于每个1≤i≤n,P(xi...
在我们平时浏览网页时,经常会遇到网页里条目很多的情形,这时就会用到分页展示的功能。那么,在Django中,是如何实现网页分类的功能的呢?答案是Paginator类。
在以前的分享中,我们是在命令行模式下创建Django项目的,那么,如何在IDE中使用Django呢? 本文将介绍如何在Eclipse中创建Django项目。
本文主要分享如何将MongoDB数据库在Windows系统和本地虚拟机系统建立双向连接,我们将借助MongoDB的可视化工具Robomongo来实现。
表单,在HTML中的标签为,在网页中主要负责数据采集功能。我们在浏览网站时,常常会碰到注册账号、账号登录等,这就是表单的典型应用。
我们今天来用Python爬虫爬取金庸所有的武侠小说,网址为:http://jinyong.zuopinj.com/,网页如下: Python代码如下: # -*- coding: utf-8 -*- import urllib.
矩阵的奇异值分解(Singular Value Decomposition,SVD)是数值计算中的精彩之处,在其它数学领域和机器学习领域得到了广泛的应用,如矩阵的广义逆,主分成分析(PCA),自然语言处理(NLP)中的潜在语义索引(Latent Semantic Indexing),推荐算法等。
主成分分析,即Principal Component Analysis(PCA),是多元统计中的重要内容,也广泛应用于机器学习和其它领域。
在Django学习(一)一首情诗中,views.py中HTML被直接硬编码在代码之中,虽然这样便于解释视图是如何工作的,但直接将HTML硬编码到视图却不算一个好主意。
数据库是一所大宝库,藏着各种宝贝。一个没有数据库的网站,功能有限。在Django中,支持的数据库有以下四种: SQLite3 MySQL PostgreSQL Oracle 其中SQLite3为Django自带数据库,无需安装。
Avro是Hadoop生态圈的一部分,由Hadoop的创始人Doug Cutting牵头开发,当前最新版本1.8.2。Avro是一个数据序列化系统,设计用于支持大批量数据交换的应用。
PMML,全称预言模型标记语言(Predictive Model Markup Language),利用XML描述和存储数据挖掘模型,是一个已经被W3C所接受的标准。
Django是Python中Web开发的最有代表性的框架之一。本文将简单介绍如何入门Django开发。 首先确保你的linux系统已安装django模块。
利用Sqoop将MySQL中的数据表导入到hdfs端:(表格的主键要存在) 首先在MySQL的test数据库中有如下表格person: 在终端输入以下命令即可实现将person表导入到hdfs端: sqoop impo...
启动和关闭mongodb服务: service mongodb start service mongodb stop 进入shell命令 > mongo mongodb命令: show dbs:显示数据...
在以前 的分享中,我们利用urllib和BeautifulSoup模块爬取中国高校排名前100名并将其写入MySQL.在本次分享中,我们将会用到Scrapy和BeautifulSoup模块,来爬取中国高校排名前100名并将其写入MongoDB数据库。
Scrapy作为爬虫利器,是一个很好的Pyhon爬虫框架,现在也已经支持Python3了。具体的安装过程可以参考:http://www.yiibai.com/scrapy/scrapy_environment.html 。
众所周知,wordcount在大数据中的地位相当于helloworld在各种编程语言中的地位。本文并不分析wordcount的计算方法,而是直接给出代码,目的是为了比较Spark中Java,Python,Scala的区别。
完整的Shell代码如下: #!/bin/bash MYSQL=`which mysql` #show databases in mysql echo "database in mysql:" echo "*******************" $MYSQL -u root -p****** 1.
UML图如下: 完整的Java代码如下: SimpleGeometricObject.java public class SimpleGeometricObject { private String col...
使用map,reduce函数,将字符串数组[‘1’,’2’,’3’,’4’,’5’,’6’,’7’,’8’,’9’]转化为数字123456789.
利用以下命令可以查看Hive中的数据库和表格。 show databases; #查看数据库 show tables; #查看表格 (一)将本地/home/training/student.
完整的代码如下: # -*- coding: utf-8 -*- import itertools #with brackets def with_brackets(lst, ops_lst): for op...
实现的简易计算器如下: 完整的代码如下: from tkinter import * from math import exp,log,sin,cos,tan class Calculator: def __init__(self): window=Tk().
在Spark中,dataframe是常用的数据格式,类似于数据库中的表。本文将介绍如何在dataframe中实现CASE…WHEN…THEN的两种方法。
if(FALSE){条件执行} if(FALSE){if-else结构,多重判断} if(FALSE){对score进行等级判定} score = 65 if(score >= 90){ print("Excellent...
本文在用Python构造任意阶幻方的时候,参考的资料如下: - 维基百科:https://en.wikipedia.
在Python3中,数值类型有int、float、bool、complex四种类型。float型即为浮点型,用来表示实数。
本文的示例数据框集(egData)如下: 值标签: if(FALSE){值标签,levels代表变量实际值,labels代表标签值} egData$sex
在Python中定义函数,可以用位置参数、默认参数、可变参数和关键字参数,这4种参数都可以一起使用,或者只用其中某些,但是请注意,参数定义的顺序必须是:位置参数、默认参数、可变参数和关键字参数。
导入CSV文件 文件:G:/autompg.csv 字段: mpg:continuous cylinders:multi-valued discrete displacement:continuous horsepo...
使用软件:RStudio, RGUI R的数据类型: - 数值型Numeric,如100,0,-4.335 - 字符型Character,如“China” - 逻辑性Logical,如TRUE,FALSE - 复数...