毕业于厦门大学软件学院软件工程专业,专注于人工智能,喜欢写能够让新手顺畅入门的教程性文章。
我的博客即将入驻“云栖社区”,诚邀技术同仁一同入驻。
两个集合的运算有:交集、并集、差集 分别对应的操作符:& | ^ test_list1 = [1, 2, 3 , 4] test_list2 = [3, 4, 5, 7] test_set1 = set(test_list1) test_set2 = ...
第1家 职位:爬虫工程师 时间:上午11:00 相关内容: 1.带好纸笔 2.确定职业 3.工作日放假去 4.和hr吹牛 5.笔试比较简单,尽量全部答对 6.
2018年9月30日笔记 第1家 职位:推荐算法工程师 公司:上海元聚网络科技有限公司 时间:早上10:00 相关内容: 1.工作中使用技术hive、spark、用户相似度、物品相似度; 2.在工作经验这一项给了最低分; 3.k近邻的理解; 4.贝叶斯在什么前提下分类效果好; 5.linux使用熟练度。
2018年9月27日笔记 jieba中文叫做结巴,是一款中文分词工具,官方文档链接:https://github.com/fxsjy/jieba TfidfVectorizer中文叫做___ 词频逆文档频率向量化模型,是用来文章内容向量化的工具,官方文档链接:http://sklearn.
2018年9月25日笔记 1.打开控制面板 在按住Win键的情况下,按P键,呼唤出搜索框。 在搜索框中输入control panel,如下图所示: image.png 2.进入NVIDIA控制面板 在上图的搜索框中,已经显示出NVIDIA控制面板,如果读者有显示,则可以忽略第一步,直接点击进入NVIDIA控制面板。
2018年9月17日笔记 tensorflow是谷歌google的深度学习框架,tensor中文叫做张量,flow叫做流。 DNN是deep neural network的简称,中文叫做深层神经网络,有时也叫做多层感知机(Multi-Layer perceptron,MLP)。
2018年9月16日笔记 MNIST是Mixed National Institue of Standards and Technology database的简称,中文叫做美国国家标准与技术研究所数据库。
2018年9月14日笔记 阅读本文的前提是已经阅读《基于tensorflow的一元二次方程回归预测》,文章链接:https://www.jianshu.com/p/b27860402fe3 本文使用tensorboard对一元二次方程回归预测的模型训练过程做可视化展现。
2018年9月13日笔记 0.检测tensorflow环境 安装tensorflow命令:pip install tensorflow 下面一段代码能够成功运行,则说明安装tensorflow环境成功。
2018年9月12日笔记 0.检测tensorflow环境 安装tensorflow命令:pip install tensorflow 下面一段代码能够成功运行,则说明安装tensorflow环境成功。
xgboost中文叫做极致梯度提升模型,官方文档链接:https://xgboost.readthedocs.io/en/latest/tutorials/model.html 2018年9月6日笔记 IDE(Intergrated development Environment),集成开发环境为jupyter notebook 操作系统:Win10 语言及其版本:python3.6 此项目的难点在于pandas的熟练使用、机器学习模型快速开发和部署。
标题中的英文首字母大写比较规范,但在python实际使用中均为小写。 2018年9月6日笔记 IDE(Intergrated development Environment),集成开发环境为jupyter notebook和Pycharm 操作系统:Win10 语言及其版本:python3.6 0.观察网页 网页链接:http://finance.eastmoney.com/news/cgsxw_1.html 打开网页,红色方框标注出爬取的文章,效果如下图所示。
可以用于形成特征矩阵的共有5个表: 1.用户基本属性表 2.银行流水记录表 3.用户浏览行为表 4.信用卡账单记录表 5.放款时间信息表 1.用户基本属性表 字段 注释 1 用户id 整数 2 性别 枚举值(0表示性别未知) 3 职业 枚举值 4 教育程度 枚举值 5 婚姻状况 枚举值 6 户口类型 枚举值 1.
学习资源来源:容大教育,致以诚挚的谢意。 重新编辑:潇洒坤 jieba中文叫做结巴,是一款中文分词工具,官方文档链接:https://github.com/fxsjy/jieba TfidfVectorizer中文叫做词袋向量化模型,是用来文章内容向量化的工具,官方文档链接:http://sklearn.
学习资源来源:容大教育,致以诚挚的谢意。 重新编辑:潇洒坤 jieba中文叫做结巴,是一款中文分词工具,官方文档链接:https://github.com/fxsjy/jieba gensim.word2vec中文叫做词向量模型,是是用来文章内容向量化的工具,官方文档链接:https://radimrehurek.com/gensim/models/word2vec.html LogisticRegression中文叫做逻辑回归模型,是一种基础、常用的分类方法。
RandomForestRegressor中文叫做随机森林回归模型,是一种常用的集成模型。 2018年8月27日笔记 sklearn官方英文用户使用指南:https://sklearn.org/user_guide.html sklearn翻译中文用户使用指南:http://sklearn.apachecn.org/cn/0.19.0/user_guide.html 本文使用的数据集是波士顿房价数据集,可以使用sklearn,datasets库中的load_boston方法直接获取数据。
bs4中文叫做美丽汤第4版,是用Python写的一个HTML/XML的解析器。中文文档链接:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html requests中文叫做请求,是用来发起http请求和接收http相应的库。
SVM中文叫做支持向量机,support vector machine的简写,是常用的分类方法。 Pipeline中文叫做管道,是sklearn中用来打包数据预处理、模型训练这2个步骤的常用方法。
xgboost中文叫做极致梯度提升模型,官方文档链接:https://xgboost.readthedocs.io/en/latest/tutorials/model.html 2018年8月24日笔记 这是作者在波士顿房价预测项目的第3篇文章,在查看此篇文章之前,请确保已经阅读前2篇文章。
LogisticRegression中文叫做逻辑回归,是一种基础、常用的分类方法。 2018年8月24日笔记 1.数据集 Iris(鸢尾花)数据集是多重变量分析的数据集。
xgboost中文叫做极致梯度提升模型,官方文档链接:https://xgboost.readthedocs.io/en/latest/tutorials/model.html GridSearchCV中文叫做交叉验证网格搜索,是sklearn库中用来搜索模型最优参数的常用方法。
bs4中文叫做美丽汤第4版,是用Python写的一个HTML/XML的解析器。中文文档链接:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html requests中文叫做请求,是用来发起http请求和接收http相应的库。
pip是python中经常使用可以便捷安装python其他库的一款软件,我们经常在命令行cmd中使用它。 安装lxml库的时候容易出现没法从网上安装twisted库的错误,解决方案是从将twisted库下载到本地后,用命令进行安装。
LinearRegression中文叫做线性回归,是一种基础、常用的回归方法。 2018年8月22日笔记 sklearn官方英文用户使用指南:https://sklearn.
jupyter是python常用编程环境。 建议读者安装anaconda,这个集成开发环境自带了很多包。 直到2018年9月1日仍为最新版本的anaconda下载链接: https://pan.baidu.com/s/1pbzVbr1ZJ-iQqJzy1wKs0A 密码: g6ex 官网下载地址:https://repo.anaconda.com/archive/Anaconda3-5.2.0-Windows-x86_64.exe 下面代码的开发环境为jupyter notebook,使用在jupyter notebook中的截图表示运行结果。
标题中的英文首字母大写比较规范,但在python实际使用中均为小写。 2018年8月1日笔记 0.简介 pyecharts是一个用于生成echarts图表的类库。
这篇文章中的视频压缩非常适用于教学视频的压缩,因为教学视频中很多帧数的内容都是相同的。 本文作者的CPU是E5-2670,8核16线程。视频压缩工具ffmpeg可以充分利用多线程性能。
pandas是python中的数据分析库,DataFrame、Series是pandas库中2种主要对象。 这篇文章主要讲解DataFrame、Series对象的apply方法。
数据收集-爬虫阶段需求 1.利用爬虫收集各大招聘网站的职位数据 2.收集不同职位的招聘信息数据 3.收集全国范围内的招聘信息数据 4.收集字段要求: 职位名title 公司名company 工作地点workPlace(最好精确到市下面的区) 薪资sal...
pandas是python中的数据分析库,matplotlib、pyecharts是python中的数据可视化库。 容大教育人工智能班数据分析阶段实战项目:人工智能相关职位数据分析 小组成员:雷坤、韦民童、李波、陶宇 项目周期5天,数据分析为第2天的需求。
用python改变图片像素大小非常快速,编辑好代码运行程序不到1秒就产生结果。 有的网站上传照片时,限定了照片像素大小,这时候小小一份代码就可以快速解决我们的需求。
1.基本信息 求职岗位:机器学习工程师(偏应用) 期望薪资:20000以上 姓名:雷坤 手机号码:18150382334 邮箱:474933858@qq.
本文中测验需要的文件夹下载链接: https://pan.baidu.com/s/1OqFM2TNY75iOST6fBlm6jw 密码: rmbt 下载压缩包后解压如下图所示: image.png 首先将5题的文件复制形成副本,如下图所示: image.png 在资源管理器的路径中输入cmd,如下图所示: image.png 在上图中输入后,按Enter键运行进入cmd窗口。
本文以MongoDB为例,其他服务的查看流程类似: 1.查看服务的PID 名词解释: 服务:电脑访问数据库,其实数据库就是一种服务。服务必须要开启后,才能对其进行访问。
原文链接:https://www.jianshu.com/p/c09beac9f955 本文经过潇洒坤重新编辑,感谢原文作者的辛勤工作。 1.数据集 Iris(鸢尾花)数据集是多重变量分析的数据集。
标题中的英文首字母大写比较规范,但在python实际使用中均为小写。 5.Pandas的数据运算和算术对齐 5.1 Series相加 from pandas import Series s1 = Series([7.
标题中的英文首字母大写比较规范,但在python实际使用中均为小写。 建议读者安装anaconda,这个集成开发环境自带了很多包。 作者推荐到2018年8月2日仍为最新版本的anaconda下载链接: https://pan.baidu.com/s/1pbzVbr1ZJ-iQqJzy1wKs0A 密码: g6ex 下面代码的开发环境为jupyter notebook,使用在jupyter notebook中的截图表示运行结果。
标题中的英文首字母大写比较规范,但在python实际使用中均为小写。 2018年8月2日笔记 建议读者安装anaconda,这个集成开发环境自带了很多包。
标题中的英文首字母大写比较规范,但在python实际使用中均为小写。 本文的写作内容是将25000条评论当中的热词提取出来,并制作词云图 开发环境是jupyter notebook,如果进行实践请使用与作者相同的开发环境。
换源的作用是可以加快python下载库的速度。 本篇文章采用的方法是作者已经编辑好换源的文本文件,读者只需要下载后将其解压到用户文件夹下即可。 1.下载压缩文件 文件下载链接: https://pan.baidu.com/s/1cAHPGjISCiD49v51Lbbpxg 密码: 2bre 2.解压压缩文件 压缩文件是一个配置文件,只有不到1KB。
标题中的英文首字母大写比较规范,但在python实际使用中均为小写。 1.利用pandas进行数据分析+matplot进行可视化 import pandas as pd import numpy as np import matplotlib.
标题中的英文首字母大写比较规范,但在python实际使用中均为小写。 1.Numpy中的matrix 1.1 创建matrix对象 numpy.matrix方法的参数可以为ndarray对象 numpy.
标题中的英文首字母大写比较规范,但在python实际使用中均为小写。 2018年7月30日笔记 作者的集成开发环境是jupyter,Python版本为3.6 建议阅读本文的读者安装anaconda3,里面包含了jupyter、python3.6和matplotlib库 下载链接: https://pan.baidu.com/s/1kKCvpXAlTdRri4lSP6gykA 密码: pygy 1.简介 Matplotlib是一个Python的绘图库,它以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形。
利用分布式爬虫scrapy+redis爬取伯乐在线网站,网站网址:http://blog.jobbole.com/all-posts/ 后文中详情写了整个工程的流程,即时是新手按照指导走也能使程序成功运行。
标题中的英文首字母大写比较规范,但在python实际使用中均为小写。 2018年7月27日笔记 学习内容: 1.从文件中读取数据 2.将数据写入文件 3.利用数学和统计分析函数完成实际统计分析应用 4.掌握数组相关的常用函数 1.文本文件读写 1.1使用numpy.savetxt方法写入文本文件 numpy.savetxt方法需要2个参数:第1个参数是文件名,数据类型为字符串str; 第2个参数是被写入文件的nda数据,数据类型为ndarray对象。
考察内容包括numpy、pandas、matplotlib这3个库的内容 1、请写出numpy中创建数组的方式 答:np.arange、np.array、np.
标题中的英文首字母大写比较规范,但在python实际使用中均为小写。 2018年7月26日笔记 0.学习内容 前面6个学习内容要点链接:https://www.
标题中的英文首字母大写比较规范,但在python实际使用中均为小写。 2018年7月23日笔记 0. 学习内容: Python科学计算库:Numpy需要掌握的知识: 1.Numpy简介;2.Numpy程序包;3.简单的Numpy程序;4.为什么使用Numpy; 5.Numpy是什么;6.Numpy数据溢出; 1. Numpy简介 Numpy是python语言中的科学计算库。
一、 使用scrapy.Selector或BeautifulSoup,实现以下需求(30分) (1)读取给定的dangdang.html页面内容,注:编码为gbk(5分) (2)获取页面中所有图书的名称,价格,作者,出版社及图书图片的url地址(...