配置文件及工具类介绍|学习笔记

简介: 快速学习配置文件及工具类介绍

开发者学堂课程【大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建):配置文件及工具类介绍 】学习笔记与课程紧密联系,让用户快速学习知识

课程地址https://developer.aliyun.com/learning/course/670/detail/11624


配置文件及工具类介绍

 

内容介绍:

一、各类配置文件

二、工具类

 

一、各类配置文件

1、c3p0

在配置文件中,c3p0指的是用来连接mysql数据库

#mysql驱动

driverclass=com.mysql.jdbc.Driver

#mysql数据库连接地址

jdbcurl=jdbc:mysql://192.168.100.160:3306/gciantispider?useUnicode=true&characterEncoding=

#用户名

Username=root

#密码

password=123456

#初始化的连接数,取值应在 minPoolSize 与 maxPootsize 之间,Default:3

initialPoolsize=10

#连接池中保留的最小连接

minpoolsize=10

#连接池中保留的最大连接

maxPoolsize=100

#当连接池中的连接耗尽的时候c3p0一次童时获取的连接数,Default:3

acquireIncrement=3

#最大空闲时间

maxidleTime=1000

#定义在从数据库获取新连接失败后重复尝试的次数,Default:30 acquireRetryAttempts=30

#两次连接中间隔时间,单位毫秒,

Default:1000 acquireRetryDelay=1000 

2、Cookie

Cookie解析配置

3、Hdfs

#存HDFS数据捷径

#黑名单提交到hdfs的路径

blackListPath=hdfs://192.168.100.100:8020/csair/data/rule-black-list/

#btack:istPath=hdfs://10.108.151.101:8020/csair/data/rule-black-liste/

#AntiCalculateResult 数据提交到hdfs的捷径

#antiCalculateResultPath=hdfs://192.168 .30.17:8020/csair/data/rule computedl/

#antigplculateResultPath=hdfs://10.108.15 1.101:8020/csair/data/rule-computed

4、Jedis

#redisCluster实地址

Servers=192.168.100.160:7001,192.168.100.160:7002,192.168.100.160:7003

#连接rediscluster实例超时时间

connectionTimeout = 300000

#redisCluster实例超时时间

soTimeout=300000

#连接redisCluster实何重试次数

maxAttempts=6

#jedis连接配置

#连接池最大连接数

maxTotal =200

#获取连接连接最大等特时间(毫秒)

maxwaitmillis=15000 ...

#最大空闲连接数

maxdle=50

#最小空闲连接数

minidle=10

#对拿到的connection进行validateObject校验

testonBorrow=false

#从连接获取不到连接则阻 

blockwhenExhausted = true

#连接对象后进先出

lifo =true

5、Kafka

#kafka

#kafka服务器地址与端口

default.brokers=192.168.100.10:9092,192.168.100.110:9092,192.168.100.120:9092

#value序列化类

default.value_serializer_class_config=org.apache.kafka.common.serialization.stringseriali

#key序列default.key_serializer_class_config=org.apache.kafka.common.serialization.stringserializer

#个批次提交数据大小

default.batch_size_config-32768

#kafka服务提交消息间时间,0提交不等 default.linger_ms_config = 10

#消费者

#来自采集服务的原数据

source.nginx.topic = B2CDATA_COLLECTION3

#处后的查询数据

source.query.topic = processedquery  

#处理后的订数据

source.book.topic = processedBook

#生产者

#推送查询数据

target.query.topic m processedquery

6、Zookeeper

#zookeeper配置

#zookeeper服务器地址与端口,多个逗号隔开

zkHosts=192.168.100.100:2181,192.168.100.110:2181,192.168.100.120:2181

dataprocess.zkPath=/kafka-data-process

rulecompute.antispider.zkPath=/kafka-rulecompute-antispider

rulecompute.antioccupied.zkPath=/kafka-rulecompute-antioccupied

 

二、工具类

在common中有很多本项目用到的bean,有解析规则类、预定数据请求解析结果类、查询请求参数类、流程类、规则配置

在util中database的c3p0里,创建了连接池。

Querydb

object QueryDB {

def queryData(sql: string,field:string):ArrayBuffer[String]={

val arr=new ArrayBuffer[String]()

val conn=c3p0util.getConnection

val ps conn.preparestatement(sol)

Val rs=ps.executeQuery()

while (rs.next()){

arr.+=(rs.getstring(field))

}

c3p0uti1.close(conn,ps,rs)

arr

)

}

Jedis 可以用作哨兵集群连接单例对象、集群连接单例对象、创建 jedis 集群、创建连接池、获取对象等等

Propertiesutil 用来读取配置文件里的信息,需要key参数、proname 配置文件名称、getstringbykey 等。

相关文章
|
监控 Android开发 C语言
深度解读Android崩溃日志案例分析2:tombstone日志
深度解读Android崩溃日志案例分析2:tombstone日志
1312 0
|
6月前
|
数据采集 存储 API
Python爬虫结合API接口批量获取PDF文件
Python爬虫结合API接口批量获取PDF文件
|
存储 运维 关系型数据库
Cloudreve 自建云盘实践,我说了没人能限得了我的容量和速度!
一、前言 二、Cloudreve 介绍 🔉 功能 ✨ 特性 📌 资料 三、环境准备 四、宝塔配置 1. 获取用户名和密码 2. 8888 端口授权 3. 登录宝塔后台 五、服务安装 1. 在宝塔终端查看服务内核 2. 下载和安装 3. 开放端口 5212 4. 登录服务 六、进程守护 1. Supervisor 配置 2. Supervisor 启动 七、配置域名 1. 解析域名 2. 反向代理 八、数据库切换 九、总结 十、系列推荐
2973 0
Cloudreve 自建云盘实践,我说了没人能限得了我的容量和速度!
|
8月前
|
数据采集 运维 Serverless
云函数采集架构:Serverless模式下的动态IP与冷启动优化
本文探讨了在Serverless架构中使用云函数进行网页数据采集的挑战与解决方案。针对动态IP、冷启动及目标网站反爬策略等问题,提出了动态代理IP、请求头优化、云函数预热及容错设计等方法。通过网易云音乐歌曲信息采集案例,展示了如何结合Python代码实现高效的数据抓取,包括搜索、歌词与评论的获取。此方案不仅解决了传统采集方式在Serverless环境下的局限,还提升了系统的稳定性和性能。
252 0
|
11月前
|
JSON 数据挖掘 API
京东app商品详情API接口系列(京东 API)
本文介绍了使用 Python 调用京东商品详情 API 的方法。前期需安装 `requests` 库处理 HTTP 请求,导入 `json` 库解析 JSON 数据。接口通过商品 ID 获取详细信息,如价格、图片、评价等。示例代码展示了如何构建请求并处理响应数据。应用场景包括电商开发、市场调研和数据分析等,帮助提升用户体验、优化推荐系统及制定市场策略。
|
人工智能 自然语言处理 小程序
云端微光,AI启航:低代码开发的智造未来
在技术革新飞速发展的浪潮中,低代码开发与AI技术的结合正在重塑编程的边界。通过亲身体验腾讯云开发 Copilot,本篇文章从初学者视角出发,深度探索了从需求输入到功能实现的整个流程。Copilot 的自然语言解析能力和模块化设计,不仅缩短了开发周期,更让非技术背景的用户也能轻松迈入技术世界。AI 的加持使开发效率倍增,需求转化更加精准;然而,复杂场景中的生成代码质量和高级功能支持也存在优化空间。文章总结了AI辅助开发的技术优势、应用场景与未来发展方向,并探讨了开发者角色在智能化时代的转型,致力于为读者呈现一
416 3
云端微光,AI启航:低代码开发的智造未来
|
监控
在进行多路直播时,如何保证不同视频源之间的同步性?
【10月更文挑战第7天】在进行多路直播时,如何保证不同视频源之间的同步性?
459 1
|
自然语言处理 数据安全/隐私保护
整合 200 多项相关研究,大模型终生学习最新综述来了
【9月更文挑战第26天】近年来,大型语言模型(LLMs)在自然语言处理、智能问答及内容生成等领域广泛应用。面对不断变化的数据、任务和用户偏好,LLMs需具备适应能力。传统静态数据集训练方式难以满足需求,因此提出了“终身学习”方法,使模型持续学习新知识并避免遗忘旧知识。最新综述文章整合200多项研究,将终身学习分为内部知识(连续预训练和微调)与外部知识(基于检索和工具)两大类,涵盖12种应用场景,探讨了模型扩展和数据选择等新兴技术。然而,终身学习也面临计算资源、知识冲突及数据安全等挑战。
375 6
|
网络协议 Unix Linux
[计算机网络]---TCP协议
[计算机网络]---TCP协议
|
JavaScript
js校验统一社会信用代码
js校验统一社会信用代码
497 0