|
SQL 分布式计算 Serverless
|

阿里云 EMR Serverless Spark 版正式开启商业化

阿里云 EMR Serverless Spark 版正式开启商业化,内置 Fusion Engine,100% 兼容开源 Spark 编程接口,相比于开源 Spark 性能提升300%;提供 Notebook 及 SQL 开发、调试、发布、调度、监控诊断等一站式数据开发体验!

790 3
|
存储 大数据 测试技术
|

用于大数据分析的数据存储格式:Parquet、Avro 和 ORC 的性能和成本影响

在大数据环境中,数据存储格式直接影响查询性能和成本。本文探讨了 Parquet、Avro 和 ORC 三种格式在 Google Cloud Platform (GCP) 上的表现。Parquet 和 ORC 作为列式存储格式,在压缩和读取效率方面表现优异,尤其适合分析工作负载;Avro 则适用于需要快速写入和架构演化的场景。通过对不同查询类型(如 SELECT、过滤、聚合和联接)的基准测试,本文提供了在各种使用案例中选择最优存储格式的建议。研究结果显示,Parquet 和 ORC 在读取密集型任务中更高效,而 Avro 更适合写入密集型任务。正确选择存储格式有助于显著降低成本并提升查询性能。

1809 1
|
存储 消息中间件 算法
|

深入解析OpenStack Cinder:块存储服务详解

本文介绍了OpenStack及其块存储服务Cinder。OpenStack是一个开源云计算管理平台,提供基础设施即服务(IaaS),核心服务包括计算、网络、存储等。Cinder主要用于为虚拟机提供持久性块存储,具备多种功能,如卷操作、备份、快照及与实例的交互等。此外,还详细介绍了Cinder的工作流程、命令行操作及不同存储插件的使用。

2085 8
|
机器学习/深度学习 算法
|

XGBoost中正则化的9个超参数

本文探讨了XGBoost中多种正则化方法及其重要性,旨在通过防止过拟合来提升模型性能。文章首先强调了XGBoost作为一种高效算法在机器学习任务中的应用价值,并指出正则化对于缓解过拟合问题的关键作用,具体包括降低模型复杂度、改善泛化能力和防止模型过度适应训练数据。随后,文章详细介绍了四种正则化方法:减少估计器数量(如使用`early_stopping_rounds`)、使用更简单的树(如调整`gamma`和`max_depth`)、采样(如设置`subsample`和`colsample`)以及收缩(如调节`learning_rate`, `lambda`和`alpha`)。

675 0
|
缓存 Shell 网络安全
|

Git Bash⭐二、与仓库建立连接、提交与下拉项目

Git Bash⭐二、与仓库建立连接、提交与下拉项目

1775 2
|
数据采集 监控 大数据
|

不限量住宅IP代理指南2024版

住宅IP代理是一种特别的代理形式,它通过互联网服务提供商(ISP)池获取真实住宅用户的IP地址。在此背景下,住宅IP通常与特定的物理位置绑定,从而在网络上看起来像是真实用户。该服务为企业及个人执行数据密集型活动时提供了可靠的支持

1329 1
|
存储 缓存 Apache
|

Apache Paimon 在蚂蚁的应用

本文整理自 Apache Paimon Committer 闵文俊老师在5月16日 Streaming Lakehouse Meetup · Online 上的分享。Apache Paimon 是一种实时数据湖格式,设计用于流批一体处理,支持实时更新和OLAP查询。它采用LSM Tree结构,提供多种Changelog Producer和Merge Engine,支持高效的数据合并。Paimon适用于流读、批读及时间旅行查询,与多种查询引擎兼容。在蚂蚁集团的应用中,Paimon降低了资源开销,提升了查询性能,简化了研发流程,特别是在去重、核对场景和离线查询加速方面表现突出。

1539 7
来自: 实时计算 Flink  版块
|
机器学习/深度学习 数据采集 自然语言处理
|

注意力机制中三种掩码技术详解和Pytorch实现

**注意力机制中的掩码在深度学习中至关重要,如Transformer模型所用。掩码类型包括:填充掩码(忽略填充数据)、序列掩码(控制信息流)和前瞻掩码(自回归模型防止窥视未来信息)。通过创建不同掩码,如上三角矩阵,模型能正确处理变长序列并保持序列依赖性。在注意力计算中,掩码修改得分,确保模型学习的有效性。这些技术在现代NLP和序列任务中是核心组件。**

1598 12
|
人工智能 弹性计算 运维
|

操作系统智能助手OS Copilot 产品体验评测

**OS Copilot 体验摘要** - AI爱好者评价其部署简单,一键快捷,无使用障碍,适合作为智能助手。 - 初次使用者表示聊天功能最吸引人,但无法立即评出对工作帮助的程度。 - 愿意推荐给他人,且有参与开源开发及模型训练的兴趣。 **功能反馈** - 用户尝试了全部功能,特别喜欢聊天交互。 - 与通义千问等多款产品对比,OS Copilot的速度较快。 - 希望增加功能:集成云端Notebook,自动代码生成和错误修正,支持所有操作系统。 - 潜在应用:与阿里云服务如魔搭、ECS结合,打造智能开发和工作流程。

387 1
|
存储 SQL 搜索推荐
|

一站式实时数仓Hologres整体能力介绍—2024实时数仓Hologres公开课 01

一站式实时数仓Hologres整体能力介绍—2024实时数仓Hologres公开课 01

130914 19
来自: 实时数仓 Hologres  版块
|
SQL 关系型数据库 MySQL
|

SQLAlchemy使用指南

**SQLAlchemy 指南**:Python SQL 工具包,提供数据库高级抽象。安装:`pip install sqlalchemy`,加上数据库驱动(如 MySQL: `pip install mysql-connector-python`)。基础使用包括:创建数据库连接、定义模型、创建表、添加/查询/更新/删除数据。高级功能涉及关系映射、原生 SQL 语句及 SQLAlchemy Core。推荐阅读官方文档以深入了解。

1365 1
|
计算机视觉
|

【YOLOv8改进】Shape-IoU:考虑边框形状与尺度的指标(论文笔记+引入代码)

YOLO目标检测专栏探讨了边框回归损失的创新方法,强调了目标形状和尺度对结果的影响。提出的新方法Shape-IoU关注边框自身属性,通过聚焦形状和尺度提高回归精度。实验显示,该方法提升了检测效果,超越现有技术,在多个任务中达到SOTA。论文和代码已公开。

1233 3
|
机器学习/深度学习 算法
|

【MATLAB】基于VMD-SSA-LSTM的回归预测模型

【MATLAB】基于VMD-SSA-LSTM的回归预测模型

725 4
|
监控 应用服务中间件 nginx
|

使用 Docker Compose V2 快速搭建日志分析平台 ELK (Elasticsearch、Logstash 和 Kibana)

ELK的架构有多种,本篇分享使用的架构如图所示: Beats(Filebeat) -> -> Elasticsearch -> Kibana,目前生产环境一天几千万的日志,内存占用大概 10G

1533 4

PR曲线、ROC曲线、AUC能干个啥

评判二分类分类器性能的指标有那么多,为什么PR曲线、ROC曲线、AUC值这几个用的比较多。本文从概念、代码实现方面着手进行分享。

1082 4
|
存储 SQL 分布式计算
|

【史上最全】Hadoop精选18道面试题(附回答思路)

【史上最全】Hadoop精选18道面试题(附回答思路)

1968 1
|
运维 监控 安全
|

什么是NetDevOps

总之,NetDevOps是一种综合性的方法,旨在将DevOps原则引入网络运维领域,通过自动化、持续交付、基础设施即代码等实践,

753 1
|
机器学习/深度学习 人工智能 NoSQL
|

人工智能平台PAI产品使用合集之机器学习PAI EasyRec训练时,怎么去除没有意义的辅助任务的模型,用于部署

阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。

1169 1
来自: 人工智能平台PAI  版块
|
分布式计算 DataWorks 监控
|

DataWorks常见问题之打开执行后费率计算预估弹窗如何解决

DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。

353 1
|
数据采集 JavaScript 前端开发
|

使用Go和JavaScript爬取股吧动态信息的完整指南

本文介绍了如何使用Go和JavaScript构建网络爬虫,从股吧网站抓取实时股市信息。通过设置代理服务器以应对反爬策略,利用`got`库执行JavaScript提取动态数据,如用户讨论和市场分析。示例代码展示了爬虫的实现过程,包括浏览器实例创建、代理配置、JavaScript执行及数据打印。此方法有助于投资者及时获取市场资讯,为决策提供支持。

757 4
|
机器学习/深度学习 数据采集 数据处理
|

掌握时间序列特征工程:常用特征总结与 Feature-engine 的应用

本文介绍了时间序列特征工程,包括滚动统计量、滞后特征、差分和变换等技术,用于提升机器学习模型性能。文章还推荐了Python库`feature-engine`,用于简化特征提取,如处理缺失值、编码分类变量和进行时间序列转换。示例代码展示了如何使用`feature-engine`提取时间戳信息、创建滞后特征和窗口特征。通过创建管道,可以高效地完成整个特征工程流程,优化数据预处理并提高模型效果。

2237 15
|
算法
|

【MATLAB】语音信号识别与处理:SG滤波算法去噪及谱相减算法呈现频谱

【MATLAB】语音信号识别与处理:SG滤波算法去噪及谱相减算法呈现频谱

845 1
|
人工智能 API 异构计算
|

基于PAI-EAS一键部署通义千问模型

本教程中,您将学习如何在阿里云模型在线服务(PAI-EAS)一键部署基于开源模型通义千问的WebUI应用,以及使用WebUI和API进行模型推理。

2744 4
来自: 人工智能平台PAI  版块
|
关系型数据库 MySQL BI
|

用友畅捷通基于阿里云 EMR StarRocks 搭建实时湖仓实战分享

本文从用友畅捷通公司介绍及业务背景;数据仓库技术选型、实际案例及未来规划等方面,分享了用友畅捷通基于阿里云 EMR StarRocks 搭建实时湖仓的实战经验。

1864 0
|
机器学习/深度学习 人工智能 分布式计算
|

大模型时代的人工智能+大数据平台,加速创新涌现

2023年10月31日,2023云栖大会上,阿里云副总裁、阿里云计算平台事业部负责人汪军华宣布阿里云人工智能+大数据平台升级发布,以服务大模型时代下各行各业的业务创新。

3420 0
来自: 人工智能平台PAI  版块
|
缓存 网络安全 开发工具
|

Mac/Windows Git配置SSH和Git常用命令及iTerm2使用技巧

Mac/Windows Git配置SSH和Git常用命令及iTerm2使用技巧

843 0

pd.set_option()参数详解

pd.set_option()参数详解

444 0
|
Web App开发 Linux 开发工具
|

Centos7 yum 安装chrome

Centos7 yum 安装chrome配置yum源vim /etc/yum.repos.d/google-chrome.repo写入以下内容[google-chrome]name=google-chromebaseurl=http://dl.google.com/linux/chrome/rpm/stable/$basearchenabled=1gpgcheck=1gpgkey=http...

1271 0
|
虚拟化 数据中心 异构计算
|

GPU 虚拟化技术MIG简介和安装使用教程

使用多实例GPU (MIG/Multi-Instance GPU)可以将强大的显卡分成更小的部分,每个部分都有自己的工作,这样单张显卡可以同时运行不同的任务。本文将对其进行简单介绍并且提供安装和使用的示例。

1541 0
|
XML JSON 编解码
|

Thrift 介绍

Thrift 介绍

606 0
|
机器学习/深度学习 Unix Docker
|

开发专题 | 2:如何在 docker 容器内部运行 docker命令

有些场景在容器内部需要调用 `docker` 命令。为此,本文梳理2种可以在容器内部执行`docker`命令的方法。

2745 0
|
机器学习/深度学习 数据处理 Python
|

Python应用专题 | 5:Python多进程处理数据

本文介绍如何使用多进程的方式高效处理海量任务数据

447 0
|
自然语言处理 搜索推荐 算法
|

阿里云OpenSearch重磅推出LLM问答式搜索产品,助力企业高效构建对话式搜索服务

OpenSearch推出LLM智能问答版,面向行业搜索场景,提供企业专属问答搜索服务,基于内置的LLM大模型提供问答能力,一站式快速搭建问答搜索系统。

13271 7
来自: 智能搜索推荐  版块
|
SQL 存储 数据挖掘
|

EMR StarRocks 极速数据湖分析原理解析

数据湖概念日益火热,本文由阿里云开源大数据 OLAP 团队和 StarRocks 数据湖分析团队共同为大家介绍“ StarRocks 极速数据湖分析 ”背后的原理。 【首月99元】EMR StarRocks 数据湖极速分析体验,试用火热进行中,快来申请吧 -> https://survey.aliyun.com/apps/zhiliao/Yns9d9Xxz

2207 1
|
SQL 机器学习/深度学习 消息中间件
|

十大行业经典案例!Apache Flink 的 40 个最佳实践

如今,Apache Flink 行业应用几何?在降本增效的需求驱动下,企业如何实现数据与算力价值最大化?本文整理了 Flink 社区近一年的社区案例,并按照行业进行分类,供大家参考!

18324 1
来自: 实时计算 Flink  版块
|
分布式计算 监控 大数据
|

利用MaxCompute内建函数及UDTF转换json格式日志数据

本文介绍了如何使用MaxCompute UDF对JSON格式的日志进行信息提取和转换。

17919 0
来自: 大数据计算 MaxCompute  版块
|
4小时前
|
API C++ Python
|

EasyRec和TorchEasyRec中FG NORMAL 和 FG DAG 的区别

TorchEasyRec提供两种特征生成模式:FG_NORMAL(Python逐特征处理,适合调试)与FG_DAG(C++ DAG引擎批量处理,性能更优、支持依赖、stub_type及自动侧识别)。推荐生产环境优先使用FG_DAG。

21 2
来自: 人工智能平台PAI  版块
|
5小时前
|
并行计算 算法框架/工具 iOS开发
|

TorchRec在macos ARM芯片(Apple Silicon)上无法安装

JaggedTensor等在macOS ARM芯片上无法运行,主因是ARM64与x86_64架构不兼容,且TorchRec深度依赖CUDA——而Apple Silicon仅支持Metal。fbgemm-gpu缺失、Rosetta 2不支持CUDA指令,导致关键操作失败。建议改用MLX框架或标准PyTorch张量替代。

21 2
来自: 智能搜索推荐  版块
|
19天前
|
人工智能 安全 API
|

1949AI 轻量化 AI 自动化 本地自动化工具 + 浏览器自动化 + Agent 自动化工具 小说连载生成技术实践

1949AI 轻量化 AI 自动化 本地自动化工具 + 浏览器自动化 + Agent 自动化工具 小说连载生成技术实践

133 1
|
20天前
|
Java 容器 JavaScript
|

从"代码跑不通"到"答辩演示丝滑流畅":毕设部署避坑完全指南

毕设答辩“最后一公里”常因部署失败翻车!本文提供本地一键、云服务器、Docker三种部署方案,重点推荐智码方舟AI生成器——10分钟获取配置完备的部署文档+脚本,规避90%环境问题,助你稳过答辩。

141 2
|
26天前
|
机器学习/深度学习 人工智能 PyTorch
|

写 PyTorch 总像在写脚本?试试 PyTorch Lightning,把模型训练变成“工程化项目”

写 PyTorch 总像在写脚本?试试 PyTorch Lightning,把模型训练变成“工程化项目”

249 14
|
2月前
|
数据采集 人工智能 自然语言处理
|

大模型微调后,如何判断它是不是“变聪明”了?这套评估方法论请收好。

本文系统阐述大模型微调效果评估的核心价值与实践方法:强调评估是检验泛化能力的“试金石”,须坚持人工主观评估(重业务适配性)与自动化客观评估(重量化指标)双轨并行;详解测试集构建、指标选择、基线对比等关键步骤,助力从0到1建立科学、可信、可迭代的评估体系。(239字)

191 3
|
2月前
|
机器学习/深度学习 数据采集 人工智能
|

不会选数据,别说你会AI:一份给新手的极简数据集实战手册

数据集是AI模型的“基石”,决定其性能上限。本文以通俗语言解析数据集的核心概念、获取途径、质量评估与实战步骤,手把手教你打造高质量数据,助力AI项目成功,堪称新手入门与实践的必备指南。

236 0
|
2月前
|
机器学习/深度学习 运维 监控
|

数据不出门,也能一起“卷模型”——聊聊隐私保护下的联邦学习:原理与工程实践

数据不出门,也能一起“卷模型”——聊聊隐私保护下的联邦学习:原理与工程实践

307 4
|
2月前
|
存储 人工智能 运维
|

千亿级训练数据,真不是“存得下就完事了”

千亿级训练数据,真不是“存得下就完事了”

132 2
|
2月前
|
数据采集 人工智能 监控
|

让大模型“开小灶”:手把手教你打造能聊业务的专属AI

本文深入浅出解析AI微调(Fine-tuning)技术:揭示通用大模型“懂常识却不懂行”的根源,详解LoRA等高效微调原理,对比RAG适用场景,并提供数据准备、LoRA训练、效果评估到部署的四步实践指南。助力业务人员低成本打造专属行业AI助手。(239字)

267 0
|
3月前
|
数据采集 人工智能 安全
|

2026AI元年:AI 落地范式转移:已被反复验证的产业级实践共识

本文探讨AI从技术竞赛迈向产业落地的关键转型:2026年成规模化应用分水岭。强调落地核心不在模型参数,而在数据治理、工作流重构、RAG工程化、推理可控性、人类协同机制及四大落地准则——场景对齐、知识解耦、架构弹性、迭代闭环。

253 0
|
3月前
|
数据采集 人工智能 机器人
|

2026年 智能体来了!什么是 AI 智能体工程化?为什么金加德强调 Workflow + Code 才能真正落地?

AI智能体工程化是将AI从聊天工具升级为“数字员工”,通过流程编排(Workflow)、代码逻辑(Code)与知识增强(RAG),让其稳定执行重复性业务流程,实现可复用、可落地的自动化生产。

456 7
来自: 人工智能平台PAI  版块
|
3月前
|
域名解析 网络协议 安全
|

HTTP与Socks5:功能边界及场景适配

本文深入解析Socks5与HTTP协议的核心差异:HTTP是专用于Web通信的应用层协议,支持丰富的请求交互;Socks5则是通用代理协议,可转发各类网络流量,适用多场景。二者定位不同,一为“专用通信语言”,一为“全能流量中介”。文章从机制、功能与应用场景对比,助你精准选型,提升网络效率与安全。

305 4
|
3月前
|
监控 API 开发者
|

关键词搜索京东商品列表 API 指南(2026 最新版)

本文详解京东商品搜索API(jd.item_search与jd.item_get)的技术接入,涵盖接口对比、参数配置、认证流程及Python实现,适用于电商选品、竞品分析与价格监控,助力开发者高效获取京东商品数据。

342 4

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

9
今日
69327
内容
128
活动
439807
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务