|
4月前
|
数据采集 自然语言处理 大数据
|

​「Python大数据」LDA主题分析模型

使用Python进行文本聚类,流程包括读取VOC数据、jieba分词、去除停用词,应用LDA模型(n_components=5)进行主题分析,并通过pyLDAvis生成可视化HTML。关键代码涉及数据预处理、CountVectorizer、LatentDirichletAllocation以及HTML文件的本地化处理。停用词和业务术语列表用于优化分词效果。

207 0
|
5月前
|
SQL 资源调度 数据库连接
|

Hive怎么调整优化Tez引擎的查询?在Tez上优化Hive查询的指南

在Tez上优化Hive查询,包括配置参数调整、理解并行化机制以及容器管理。关键步骤包括YARN调度器配置、安全阀设置、识别性能瓶颈(如mapper/reducer任务和连接操作),理解Tez如何动态调整mapper和reducer数量。例如,`tez.grouping.max-size` 影响mapper数量,`hive.exec.reducers.bytes.per.reducer` 控制reducer数量。调整并发和容器复用参数如`hive.server2.tez.sessions.per.default.queue` 和 `tez.am.container.reuse.enabled`

380 0
|
5月前
|
安全 网络安全 数据安全/隐私保护
|

非对称加密的日常实践应用:以RSA加密为例

**RSA加密简介与Python实现** RSA,一种非对称加密技术,基于大数因子分解,用于数据加密和完整性保护。本文介绍了RSA基本原理,包括密钥生成(选取大质数p和q,计算n和φ(n),选择公钥指数e和私钥指数d),并展示了使用Python `cryptography` 库生成密钥对、加密和解密消息的代码示例。通过这些步骤,读者可理解RSA在网络安全中的应用,如HTTPS和数字签名。

275 3
|
5月前
|
分布式计算 大数据 数据处理
|

经典大数据处理框架与通用架构对比

【6月更文挑战第15天】本文介绍Apache Beam是谷歌开源的统一数据处理框架,提供可移植API,支持批处理和流处理。与其他架构相比,Lambda和Kappa分别专注于实时和流处理,而Beam在两者之间提供平衡,具备高实时性和数据一致性,但复杂性较高。选择架构应基于业务需求和场景。

390 3
|
5月前
|
机器学习/深度学习 人工智能 PyTorch
|

PyTorch快速入门与深度学习模型训练

这篇文章是PyTorch的入门指南,介绍了PyTorch作为深度学习框架的基本概念和使用方法。内容包括PyTorch的背景、基础操作如张量创建、运算、自动微分,以及如何构建和训练简单的全连接神经网络模型进行MNIST手写数字识别。通过这篇文章,读者可以快速了解如何在PyTorch中搭建和训练深度学习模型。

223 4
|
6月前
|
机器学习/深度学习 自然语言处理 TensorFlow
|

使用Python实现深度学习模型:注意力机制(Attention)

使用Python实现深度学习模型:注意力机制(Attention)

318 0
|
6月前
|
数据采集 JavaScript 前端开发
|

用爬虫解决问题

【5月更文挑战第12天】本文介绍了爬虫技术的基础、常见问题及解决方案,适合初学者和进阶开发者。文章涵盖爬虫概念、常用Python库(如Requests、BeautifulSoup、Scrapy)、反爬策略(更换User-Agent、使用代理IP、处理动态加载内容)以及代码示例。还强调了爬虫伦理与法律边界,性能优化、安全防护和进阶技巧,鼓励读者在实践中不断提升爬虫技能。

382 29
|
6月前
|
数据采集 数据挖掘 数据处理
|

Pandas在Python面试中的应用与实战演练

【4月更文挑战第16天】本文介绍了Python数据分析库Pandas在面试中的常见问题和易错点,包括DataFrame和Series的创建、数据读写、清洗预处理、查询过滤、聚合分组、数据合并与连接。强调了数据类型检查、索引理解、避免过度使用循环、内存管理和正确区分合并与连接操作的重要性。通过掌握这些知识和代码示例,可提升面试者在Pandas方面的专业能力。

247 3
|
6月前
|
数据采集 Web App开发 数据挖掘
|

利用Python和Selenium实现定时任务爬虫

利用Python和Selenium实现定时任务爬虫

242 1
|
6月前
|
机器人 iOS开发
|

空间音频是什么?

从单声道音频发展到双声道、再到多声道和环绕立体声,数字音频的表现力不断提升。空间音频(也称为三维声音或3D音频)并不只是通过增加声道来创造立体感,而是一种与视频空间化同步的音频处理过程。基于空间的音频甚至可以具有六个自由度,使用户能够互动。声音不仅要清晰动听,还要与空间场景完美契合,带来沉浸式体验。让我们一起深入了解一下空间音频技术。

267 0
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
|

混淆矩阵(Confusion Matrix)

随着机器学习和人工智能的迅速发展,分类模型成为了解决各种问题的重要工具。然而,仅仅知道模型预测对了多少样本是不够的。我们需要一种更详细、更系统的方法来理解模型的分类能力,以及它在不同类别上的表现。 混淆矩阵是在机器学习和统计学中用于评估分类模型性能的一种表格。它对模型的分类结果进行了详细的总结,特别是针对二元分类问题,另外混淆矩阵是用于评估分类模型性能的一种表格,特别适用于监督学习中的分类问题。它以矩阵形式展示了模型对样本进行分类的情况,将模型的预测结果与实际标签进行对比。

328 1
|
6月前
|
机器学习/深度学习 Python
|

LightGBM高级教程:高级特征工程

LightGBM高级教程:高级特征工程【2月更文挑战第8天】

466 2
|
6月前
|
分布式计算 资源调度 Java
|

Spark安装教程

该教程详细介绍了在Linux环境下安装Spark 3.1.2的步骤。首先,检查JDK版本需为1.8。接着,下载Spark资源并设置环境变量`SPARK_HOME`。配置`spark-env.sh`和`yarn-site.xml`文件,禁用内存检查。然后,重启Hadoop集群,启动Spark集群,并通过`jps -ml`检查Spark Master和Worker。可以通过Web UI访问Spark状态,并使用`spark-shell`测试Scala交互环境及Spark on Yarn。最后,学习如何关闭Spark集群。

156 2
|
6月前
|
SQL 消息中间件 Java
|

Flink报错问题之使用debezium-json format报错如何解决

Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。本合集提供有关Apache Flink相关技术、使用技巧和最佳实践的资源。

505 3
来自: 实时计算 Flink  版块
|
6月前
|
数据采集 Web App开发 搜索推荐
|

项目配置之道:优化Scrapy参数提升爬虫效率

项目配置之道:优化Scrapy参数提升爬虫效率

206 0
|
6月前
|
数据可视化 数据挖掘 Python
|

Scipy 中级教程——信号处理

Scipy 中级教程——信号处理【1月更文挑战第8篇】

264 2
|
存储 算法 搜索推荐
|

时间复杂度:一步步理解算法效率

时间复杂度:一步步理解算法效率,更多文章可关注我的微信公众号:Python学习杂记

296 0
|
机器学习/深度学习 人工智能 自动驾驶
|

人工智能概述(二)

人工智能概述(二)

432 0
|
JavaScript 前端开发 vr&ar
|

60个令人兴奋的ThreeJS网站示例

Three.js是一个JavaScript库,它使在Web上创建3D图形比直接使用WebGL容易得多。Three.js是网络上最受欢迎的3D JavaScript库,很容易上手。因此,在这篇文章中,我将展示一些创意网站的例子,以获得灵感,以使用Three.js JavaScript库创建和动画令人兴奋的基于3D浏览器的图形。

763 0
|
机器学习/深度学习 存储 人工智能
|

阿里云机器学习PAI全新推出特征平台 (Feature Store),助力AI建模场景特征数据高效利用

机器学习平台 PAI 推出特征平台(PAI-FeatureStore),在所有需要特征的AI建模场景,用户可通过 Feature Store 轻松地共享和重用特征数据,减少资源和时间成本、提升工作效率。

1383 3
来自: 人工智能平台PAI  版块
|
存储 人工智能 Cloud Native
|

云原生大数据架构实践与思考-DataFunTalk

导读: 作者:振策-阿里云计算平台-产品解决方案, 20230805 本文将分享当前云原生大数据架构的发展历程/架构定义/核心能力/应用场景及趋势思考。主要包括以下四个部分: - 从大数据上云看架构 - 云原生数据平台的核心能力 - Data+AI with Cloud-Native - 未来趋势与思考

2002 0
|
Windows
|

【电脑控制手机屏幕】windows11、10自带投屏功能,三步解决

想用电脑控制手机,但是下载第三方软件好麻烦,只需三步骤即可使用windows系统自带投屏插件实现投屏功能

1352 0
|
机器学习/深度学习 人工智能 分布式计算
|

「开源人说」| 大数据王峰——云原生时代,做不忘初心开源牧码人

王峰 阿里巴巴开源委员会大数据AI领域副主席 阿里云开源大数据平台负责人 Flink中文社区发起人

142920 6
来自: 人工智能平台PAI  版块
|
关系型数据库 MySQL 数据库
|

Flink CDC 2.2 正式发布,新增四种数据源,支持动态加表,提供增量快照框架

Flink CDC 2.2 正式发布,文末有一则消息或许你会感兴趣~

8747 0
来自: 实时计算 Flink  版块
|
存储 数据采集 机器学习/深度学习
|

深度解析数据湖存储方案Lakehouse架构【Databricks 数据洞察公开课】

从数据仓库、数据湖的优劣势,湖仓一体架构的应用和优势等多方面深度解析Lakehouse架构。

2351 1
|
自然语言处理 分布式计算 搜索推荐
|

专题实战 | 如何快速构建高质量电商行业搜索?

本文详细介绍如何快速接入智能开放搜索(OpenSearch)电商行业增强版,助力企业实现高质量搜索效果,提升业务转化率及用户产品体验!

1753 1
来自: 智能搜索推荐  版块
|
人工智能 文字识别 自然语言处理
|

阿里云峰会 | AI搜题加速在线教育行业场景创新

过去的2020年的让所有人难忘的一年,受新冠疫情的影响,各行各业都在挑战中变化,在教育方面也催生了新的商业格局。在线教育平台发展迅猛,阿里云也积极相应,为在线教育的众多客户提供了高效稳定的技术保障。本文介绍了阿里云开放搜索为在线教育掠夺流量的重要工具-拍照搜索的技术原理。

952 0
来自: 智能搜索推荐  版块
|
存储 消息中间件 分布式计算
|

小红书推荐大数据在阿里云上的实践

本篇内容主要分三个部分,在第一部分讲一下实时计算在推荐业务中的使用场景。第二部分讲一下小红书是怎么使用Flink的一些新的功能。第三部分主要是讲一些OLAP的实时分析的场景,以及和阿里云MC-Hologres的合作。

10268 1
|
存储 数据采集 SQL
|

【转载】浅谈MaxCompute资源规划管理及评估

本文主要介绍如何进行MaxCompute存储资源和计算资源的评估及规划管理。

14992 0
来自: 大数据计算 MaxCompute  版块
|
搜索推荐 异构计算 Python
|

新手上路:PAI-DSW实验室创建攻略 | 《阿里云机器学习PAI-DSW入门指南》

新手攻略指南:教你四步创建你的PAI-DSW实验室!

6204 0
来自: 人工智能平台PAI  版块
|
SQL 搜索推荐 TensorFlow
|

【最佳实践】阿里云 Elasticsearch 向量检索4步搭建“以图搜图”搜索引擎

“图片搜索”是作为导购类网站,比较常见的一种功能,其实现的方式也有多种。但如何做到快速、精准、简单等特性,本文给你答案。

11568 1
|
分布式计算 Spark 容器
|

Spark Operator浅析

Spark Operator浅析 本文介绍Spark Operator的设计和实现相关的内容. Spark运行时架构 经过近几年的高速发展,分布式计算框架的架构逐渐趋同. 资源管理模块作为其中最通用的模块逐渐与框架解耦,独立成通用的组件.

9497 1
|
流计算 资源调度 Java
|

Apache Flink 零基础入门(二):开发环境搭建和应用的配置、部署及运行

本文主要面向于初次接触 Flink、或者对 Flink 有了解但是没有实际操作过的同学。希望帮助大家更顺利地上手使用 Flink,并着手相关开发调试工作。

8279 0
来自: 实时计算 Flink  版块
|
数据可视化 定位技术 Windows
|

DataV 4.0 功能简介

106244 7
来自: 数据可视化DataV  版块
|
XML 存储 算法
|

BasicEngine — 基于DII平台的推荐召回引擎

BasicEngine是阿里巴巴搜索事业部自研的推荐在线召回引擎,依托强大的搜索底层技术支持,可以在线实现复杂的关联排序运算,支持灵活的推荐策略组合,为推荐系统的升级发展拓展了无限想象空间。

8304 0
来自: 智能搜索推荐  版块
|
分布式计算 安全 大数据
|

企查查支撑8000万+企业数据的大数据平台技术选型与实现

企查查终端所有企业工商信息均实时同步更新,汇集了目前国内市场中的80个产业链,8000个行业,6000个市场以及8000多万家企业数据。

7836 0
来自: 大数据计算 MaxCompute  版块
|
3天前
|
机器学习/深度学习 自然语言处理 C++
|

TSMamba:基于Mamba架构的高效时间序列预测基础模型

TSMamba通过其创新的架构设计和训练策略,成功解决了传统时间序列预测模型面临的多个关键问题。

17 4
|
4天前
|
机器学习/深度学习 自然语言处理 前端开发
|

前端神经网络入门:Brain.js - 详细介绍和对比不同的实现 - CNN、RNN、DNN、FFNN -无需准备环境打开浏览器即可测试运行-支持WebGPU加速

本文介绍了如何使用 JavaScript 神经网络库 **Brain.js** 实现不同类型的神经网络,包括前馈神经网络(FFNN)、深度神经网络(DNN)和循环神经网络(RNN)。通过简单的示例和代码,帮助前端开发者快速入门并理解神经网络的基本概念。文章还对比了各类神经网络的特点和适用场景,并简要介绍了卷积神经网络(CNN)的替代方案。

17 1
|
5天前
|
存储 安全 Java
|

java电商项目(八)

OAuth 2.0 是一种开放标准,允许用户授权第三方应用访问其在某一网站上的私密资源,而无需提供用户名和密码。它通过提供一个令牌(token)来实现这一功能。OAuth 2.0 主要包括四种授权模式:授权码模式、简化模式、密码模式和客户端模式。授权码模式是最常用的一种,适用于第三方平台登录功能。Spring Security OAuth 2.0 提供了强大的工具来实现授权服务器和资源服务器的集成,支持多种授权模式和令牌存储方式,如内存、数据库、JWT 和

17 0
|
5天前
|
前端开发 Java 数据库
|

如何实现一个项目,小白做项目-java

本教程涵盖了从数据库到AJAX的多个知识点,并详细介绍了项目实现过程,包括静态页面分析、数据库创建、项目结构搭建、JSP转换及各层代码编写。最后,通过通用分页和优化Servlet来提升代码质量。

17 1
|
7天前
|
网络协议 前端开发 Java
|

javaweb-tomcat详解!!!

HTTP协议(HyperText Transfer Protocol)是用于分布式、协作式和超媒体信息系统的应用层协议,是万维网数据通信的基础。HTTP由蒂姆·伯纳斯-李于1989年在CERN发起,标准由W3C和IETF制定。HTTP 1.1是最广泛使用的版本,定义于1999年的RFC 2616。HTTP请求/响应过程包括客户端连接、发送请求、服务器响应、释放连接和客户端解析响应。常见的HTTP方法有GET、POST、PUT、DELETE等。Web服务器如Tomcat、Resin、JBoss、WebSphere和WebLogic支持JSP/Servlet技术,用于开发和部署Web应用

30 2
|
8天前
|
XML JSON API
|

[1688一件代发]API接口关键词搜索(1688.item_search)

1688 一件代发的关键词搜索 API 接口,可快速从平台海量商品库中查找相关信息。主要参数包括:q(搜索关键字)、start_price 和 end_price(价格区间)、page(页码)、page_size(每页显示数量)、sort(排序方式)及 filter(额外过滤条件)。此接口适用于需要精准定位商品的开发者和商家。

41 3
|
9天前
|
存储 安全 算法
|

SSL和TLS部署实践

【10月更文挑战第28天】在TLS中,服务器的加密身份和强大私钥是安全基础,2048位RSA密钥足以满足大多数需求。保护私钥需在可信环境生成、加密存储、使用HSM、及时撤销旧证书、每年更新证书。确保证书覆盖所有域名,选择可靠CA,使用SHA256签名算法,配置完整证书链,禁用不安全加密套件,启用前向保密,使用会话重用机制,启用OCSP Stapling,加密整个网站,删除混合内容,安全设置Cookie,配置HSTS和CSP。

32 1
|
9天前
|
机器学习/深度学习 数据采集 存储
|

使用Python实现智能农业产量预测

使用Python实现智能农业产量预测

122 73
|
10天前
|
缓存 NoSQL 关系型数据库
|

redis数据库超级详细(一)

本文介绍了 Redis 的基础与进阶知识。Redis 是一个使用 ANSI C 编写的开源、支持网络、基于内存、可选持久性的键值对存储数据库,属于 NoSQL 数据库。文章详细讲解了 Redis 的安装、配置、数据类型及其操作,包括字符串、哈希、列表、集合和有序集合等。此外,还提供了 Python 操作 Redis 的示例代码,以及 Redis 在实际应用中的几个典型案例,如 KV 缓存、分布式锁、延迟队列、发布订阅和定时任务等。通过这些内容,读者可以全面了解 Redis 的核心功能和应用场景。

49 1
|
14天前
|
机器学习/深度学习 数据采集 算法框架/工具
|

使用Python实现智能生态系统监测与保护的深度学习模型

使用Python实现智能生态系统监测与保护的深度学习模型

47 4
|
24天前
|
存储 人工智能 前端开发
|

前端大模型应用笔记(三):Vue3+Antdv+transformers+本地模型实现浏览器端侧增强搜索

本文介绍了一个纯前端实现的增强列表搜索应用,通过使用Transformer模型,实现了更智能的搜索功能,如使用“番茄”可以搜索到“西红柿”。项目基于Vue3和Ant Design Vue,使用了Xenova的bge-base-zh-v1.5模型。文章详细介绍了从环境搭建、数据准备到具体实现的全过程,并展示了实际效果和待改进点。

106 2
来自: 智能搜索推荐  版块
|
24天前
|
存储 数据采集 大数据
|

Flink实时湖仓,为汽车行业数字化加速!

本文由阿里云计算平台产品专家李鲁兵(云觉)分享,聚焦汽车行业大数据应用。内容涵盖市场趋势、典型大数据架构、产品市场地位及能力解读,以及典型客户案例。文章详细介绍了新能源汽车市场的快速增长、大数据架构分析、实时湖仓方案的优势,以及Flink和Paimon在车联网中的应用案例。

161 8
来自: 实时计算 Flink  版块
|
29天前
|
供应链 监控 搜索推荐
|

代购系统在面对供应链风险时,有哪些应对策略?

代购系统在面对供应链风险时,可以采取以下应对策略:建立强大的供应链网络、优化物流与配送、打造个性化服务体验、合规经营,注重风险管理、技术赋能,高效运营、深度解析风险、风险预警系统、供应链风险的分类与管理和应急预案和风险管理机制。

49 3
|
1月前
|
API 定位技术
|

api接口如何对接?(带你了解api接口的相关知识)

API接口是在产品和研发领域广泛应用的专业术语,主要用于公司内部系统衔接及公司间合作。本文将详细讲解API接口的概念、必要性及其核心要素。首先介绍API接口的基本原理与应用场景,随后阐述其重要性,最后解析API接口的核心组成部分,帮助读者深入理解API接口的工作机制。适合产品小白和求职者阅读,提升专业知识。

78 0

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

0
今日
64618
内容
110
活动
438177
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务