|
6月前
|
机器学习/深度学习 API 异构计算
|

JAX快速上手:从NumPy到GPU加速的Python高性能计算库入门教程

JAX是Google开发的高性能数值计算库,旨在解决NumPy在现代计算需求下的局限性。它不仅兼容NumPy的API,还引入了自动微分、GPU/TPU加速和即时编译(JIT)等关键功能,显著提升了计算效率。JAX适用于机器学习、科学模拟等需要大规模计算和梯度优化的场景,为Python在高性能计算领域开辟了新路径。

591 0
|
7月前
|
传感器 人工智能 运维
|

吃得安心靠AI?聊聊AI在食品供应链安全里的“神操作”

吃得安心靠AI?聊聊AI在食品供应链安全里的“神操作”

366 6
|
7月前
|
存储 SQL Cloud Native
|

热烈祝贺 Flink 2.0 存算分离入选 VLDB 2025

Apache Flink 2.0架构实现重大突破,论文《Disaggregated State Management in Apache Flink® 2.0》被VLDB 2025收录。该研究提出解耦式状态管理架构,通过异步执行框架与全新存储引擎ForSt,实现状态与计算分离,显著提升扩展性、容错能力与资源效率,推动Flink向云原生演进,开启流计算新时代。

928 1
来自: 实时计算 Flink  版块
|
7月前
|
传感器 算法 数据挖掘
|

Python时间序列平滑技术完全指南:6种主流方法原理与实战应用

时间序列数据分析中,噪声干扰普遍存在,影响趋势提取。本文系统解析六种常用平滑技术——移动平均、EMA、Savitzky-Golay滤波器、LOESS回归、高斯滤波与卡尔曼滤波,从原理、参数配置、适用场景及优缺点多角度对比,并引入RPR指标量化平滑效果,助力方法选择与优化。

1531 0
|
8月前
|
搜索推荐 数据挖掘 计算机视觉
|

小红书视频图文提取:采集+CV的实战手记

这是一套用于自动抓取小红书热门视频内容的工具脚本,支持通过关键词搜索提取前3名视频的封面图、视频文件及基本信息(标题、作者、发布时间)。适用于品牌营销分析、热点追踪或图像处理等场景。脚本包含代理配置、接口调用和文件下载功能,并提供扩展建议如图像识别与情绪分析。适合需要高效采集小红书数据的团队或个人使用,稳定性和灵活性兼备。

669 4
|
9月前
|
自然语言处理 前端开发 API
|

10个常用的无头CMS(Headless CMS)

无头CMS是一种内容管理系统,它将前端和后端分离,只关注内容的创建和管理,而不处理呈现内容的前端界面。传统的CMS通常将内容管理和展示耦合在一起,即内容的创建、编辑和展示都依赖于特定的前端界面和模板。而无头CMS则将内容与前端逻辑完全解耦,提供了一种更加灵活的方式来处理内容。

1783 5
|
9月前
|
数据采集 Web App开发 JavaScript
|

Python爬虫如何获取JavaScript动态渲染后的网页内容?

Python爬虫如何获取JavaScript动态渲染后的网页内容?

1067 6
|
10月前
|
人工智能 自动驾驶 物联网
|

5G到底有多牛?一文看懂它的原理与优势!

5G到底有多牛?一文看懂它的原理与优势!

770 19
|
11月前
|
存储 运维 监控
|

阿里妈妈基于 Flink+Paimon 的 Lakehouse 应用实践

本文总结了阿里妈妈数据技术专家陈亮在Flink Forward Asia 2024大会上的分享,围绕广告业务背景、架构设计及湖仓方案演进展开。内容涵盖广告生态运作、实时数仓挑战与优化,以及基于Paimon的湖仓方案优势。通过分层设计与技术优化,实现业务交付周期缩短30%以上,资源开销降低40%,并大幅提升系统稳定性和运营效率。文章还介绍了阿里云实时计算Flink版的免费试用活动,助力企业探索实时计算与湖仓一体化解决方案。

1194 3
来自: 实时计算 Flink  版块
|
11月前
|
数据采集 XML JavaScript
|

Python爬虫:从人民网提取视频链接的完整指南

Python爬虫:从人民网提取视频链接的完整指南

1664 2
|
12月前
|
Web App开发 安全 Linux
|

【独家揭秘2025】VMware Workstation Pro虚拟机:免费安装教程大放送,一键解锁操作系统模拟神器!

VMware Workstation Pro 是由威睿(VMware)公司开发的一款功能强大的桌面虚拟化软件,允许用户在同一台物理计算机上同时运行多个操作系统,如Windows、..

1271 2
|
12月前
|
SQL 数据可视化 atlas
|

低空经济新基建!DataV Atlas 如何用大模型玩转空间数据?

阿里云DataV Atlas推出搭载通义千问最新2.5 Max大模型「时空SQL智能小助手」,通过自然语言生成专业SQL,简化空间数据分析流程,助力智慧农田、城市低空交通及应急调度等领域,推动精准决策和智能化管理。零门槛体验空间智能分析革命,开启“会思考的天空网络”新时代。

847 5
来自: 数据可视化DataV  版块
|
12月前
|
JSON API 数据格式
|

爱回收获取询价项API接口(爱回收API系列)

爱回收是国内领先的电子产品回收平台,提供便捷的二手设备回收服务。开发者可通过其API接口集成询价功能,提升应用竞争力。该API采用POST请求,需传递app_id、timestamp、sign等参数,返回JSON格式的回收价格信息。示例代码展示了如何使用Python调用此API,获取并打印询价项和回收价格。请确保替换实际的app_id和app_secret,并关注官方文档以保持接口信息准确。

618 0
|
机器学习/深度学习 人工智能 自然语言处理
|

国产AI神器Deepseek,本地离线使用教程!

国产AI神器Deepseek,本地离线使用教程!

1739 14
来自: 人工智能平台PAI  版块
|
机器学习/深度学习 人工智能 自然语言处理
|

PAI Model Gallery 支持云上一键部署 DeepSeek-V3、DeepSeek-R1 系列模型

DeepSeek 系列模型以其卓越性能在全球范围内备受瞩目,多次评测中表现优异,性能接近甚至超越国际顶尖闭源模型(如OpenAI的GPT-4、Claude-3.5-Sonnet等)。企业用户和开发者可使用 PAI 平台一键部署 DeepSeek 系列模型,实现 DeepSeek 系列模型与现有业务的高效融合。

7741 91
来自: 人工智能平台PAI  版块
|
机器学习/深度学习 监控 数据可视化
|

提升数据科学工作流效率的10个Jupyter Notebook高级特性

Jupyter Notebooks 是数据科学家和Python开发人员的核心工具,提供代码执行、文本编辑和数据可视化的无缝整合。本文介绍其高级功能,如Magic命令优化代码执行、IpyWidgets增强交互性、自动重载模块更新、内联文档系统、可折叠标题、nbconvert多格式转换、变量监控、JupyterLab集成开发环境、终端集成和调试系统等,助您提升工作效率并充分发挥Jupyter的潜力。

507 22
|
机器学习/深度学习 人工智能 自然语言处理
|

云上一键部署 DeepSeek-V3 模型,阿里云 PAI-Model Gallery 最佳实践

本文介绍了如何在阿里云 PAI 平台上一键部署 DeepSeek-V3 模型,通过这一过程,用户能够轻松地利用 DeepSeek-V3 模型进行实时交互和 API 推理,从而加速 AI 应用的开发和部署。

5340 32
来自: 人工智能平台PAI  版块
|
JSON API 数据格式
|

京东商品SKU价格接口(Jd.item_get)丨京东API接口指南

京东商品SKU价格接口(Jd.item_get)是京东开放平台提供的API,用于获取商品详细信息及价格。开发者需先注册账号、申请权限并获取密钥,随后通过HTTP请求调用API,传入商品ID等参数,返回JSON格式的商品信息,包括价格、原价等。接口支持GET/POST方式,适用于Python等语言的开发环境。

1850 11
|
存储 数据采集 大数据
|

数据仓库建模规范思考

本文介绍了数据仓库建模规范,包括模型分层、设计、数据类型、命名及接口开发等方面的详细规定。通过规范化分层逻辑、高内聚松耦合的设计、明确的命名规范和数据类型转换规则,提高数据仓库的可维护性、可扩展性和数据质量,为企业决策提供支持。

1257 10
|
机器学习/深度学习 存储 并行计算
|

Differential Transformer: 通过差分注意力机制提升大语言模型性能

《Differential Transformer》论文提出了一种新的差分注意力机制,旨在解决传统Transformer模型过分关注不相关信息的问题。该机制通过计算两个独立的注意力图谱之差来消除注意力噪声,提高模型性能。实验结果显示,DIFF Transformer在减少参数量和训练token数量的同时,显著提升了多目标检索任务的准确率。

753 11

如果API调用失败,我应该如何排查问题?

当小红书API调用失败时,可按以下步骤排查:1. 检查请求参数;2. 确认身份验证凭据;3. 控制调用频率;4. 检查网络连接;5. 查看错误码和日志;6. 核实授权范围;7. 联系技术支持;8. 定期更新与测试。这些方法有助于系统地解决问题,确保API调用稳定。

1470 1
|
存储 人工智能 缓存
|

官宣开源|阿里云与清华大学共建AI大模型推理项目Mooncake

2024年6月,国内优质大模型应用月之暗面Kimi与清华大学MADSys实验室(Machine Learning, AI, Big Data Systems Lab)联合发布了以 KVCache 为中心的大模型推理架构 Mooncake。

1800 1
|
网络协议 程序员 数据库
|

什么是公网IP和内网IP

【10月更文挑战第27天】公网IP与内网IP是网络通信中的两个重要概念。公网IP是互联网上的唯一标识,而内网IP仅在局域网内部有效,用于局域网内的设备通信。由于IPv4地址资源有限,通常一个公司或家庭只有一个公网IP,内部设备通过NAT(网络地址转换)技术共享该公网IP访问互联网。这样不仅节省了IP资源,还提高了网络安全性和稳定性。

1378 0
|
机器学习/深度学习 PyTorch 算法框架/工具
|

数据平衡与采样:使用 DataLoader 解决类别不平衡问题

【8月更文第29天】在机器学习项目中,类别不平衡问题非常常见,特别是在二分类或多分类任务中。当数据集中某个类别的样本远少于其他类别时,模型可能会偏向于预测样本数较多的类别,导致少数类别的预测性能较差。为了解决这个问题,可以采用不同的策略来平衡数据集,包括过采样(oversampling)、欠采样(undersampling)以及合成样本生成等方法。本文将介绍如何利用 PyTorch 的 `DataLoader` 来处理类别不平衡问题,并给出具体的代码示例。

3060 2
|
XML 存储 API
|

RAG效果优化:高质量文档解析详解

本文介绍了如何通过高质量的文档解析提升RAG系统整体的效果。

16998 15
来自: 智能搜索推荐  版块
|
编解码 数据可视化 定位技术
|

60行代码就可以训练/微调 Segment Anything 2 (SAM 2)

本文演示了如何在仅60行代码内(不包括标注和导入)对SAM2进行微调。

1386 1
|
Ubuntu Python
|

ubuntu build install python3.12 and config pip

该脚本用于在 Ubuntu 上编译安装 Python 3.12,并配置 pip 使用国内镜像源。主要步骤包括安装依赖、下载并解压 Python 源码、编译安装、创建符号链接、配置 pip 源,以及验证安装和更新 pip。通过运行此脚本,可以快速完成 Python 3.12 的安装和配置。

1912 0
来自: 大数据运维SREWorks  版块
|
存储 Python
|

数据包络分析(Data Envelopment Analysis, DEA)详解与Python代码示例

数据包络分析(Data Envelopment Analysis, DEA)详解与Python代码示例

6100 2
|
运维 安全 数据安全/隐私保护
|

隐语(SecretFlow)联邦学习实训营第一期笔记

**摘要:** 本文探讨了数据可信流通的概念,强调了数据来源确认、使用范围界定、流程追溯和风险防范的重要性。数据流通分为内循环(安全域内)和外循环(跨域),其中外循环面临黑客攻击、内部泄露和数据滥用等风险。为建立技术信任,提出了身份验证、利益对齐、能力预期和行为审计四点要求,涉及隐私计算、可信计算等技术。隐语作为隐私计算框架,提供服务以支持数据安全流通,通过开源降低接入门槛,并具备统一架构、原生应用、开放拓展、高性能和多轮安全验证等优势。开源隐语助力解决数据权属和信任问题,促进数据要素的安全流通。

737 0
|
SQL 分布式计算 DataWorks
|

MaxCompute产品使用问题之任务修改后提交,会什么时候生效

MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。

178 2
来自: 大数据计算 MaxCompute  版块
|
SQL DataWorks 安全
|

DataWorks产品使用合集之如何进行私有化部署

DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。

584 1
|
机器学习/深度学习 Python
|

ReLU

本文探讨了高等数学中ReLU(修正线性单元)在神经网络的应用。ReLU函数定义为$f(x) = \max(0, x)$,其导数为$1$($x \geq 0$)或$0$($x < 0$)。适用于除二分类问题外的其他问题。Python代码展示了ReLU及其导数的图形绘制。

480 1
|
机器学习/深度学习 数据处理 计算机视觉
|

LabelStudio环境搭建以及使用且解除上传文件限制

LabelStudio是开源的数据标注工具,支持多种类型如文本、图像、音频、视频的标注任务。它具有多种标注类型、可扩展性、团队协作和版本控制等功能,并可在本地、云端或Docker中部署。通过设置环境变量`DATA_UPLOAD_MAX_NUMBER_FILES`,可以解除上传文件数量限制。使用Docker安装时,可运行包含该变量的命令以启动容器,并通过http://localhost:8080访问。遇到文件数限制问题,可增大此变量值以解决。

4599 3
|
Python
|

新手向 Python:VsCode环境下Manim配置

该文介绍了如何准备和配置开发环境以使用Manim,主要包括两个步骤:一是准备工作,需要下载并安装VsCode和Anaconda,其中Anaconda需添加到系统PATH环境变量,并通过清华镜像源配置;二是配置环境,VsCode中安装中文插件和Python扩展,激活并配置虚拟环境。最后,安装ffmpeg和manim,通过VsCode运行测试代码验证配置成功。

1806 1
|
关系型数据库 MySQL 数据处理
|

实时计算 Flink版产品使用合集之如何采集sqlserver 从节点

实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStreamAPI、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。

184 0
来自: 实时计算 Flink  版块
|
Ubuntu
|

Ubuntu20.04安装软件报错:The following packages have unmet dependencies - 蓝易云

请注意,替换上述命令中的 `<package-name>`为你实际要安装的软件包名。

3127 0
|
Java 应用服务中间件 Maven
|

解决“Unable to start embedded Tomcat“错误的完整指南

通过逐步检查以上问题,你应该能够解决 "Unable to start embedded Tomcat" 错误,并使Tomcat成功启动。

4832 1
|
数据采集 大数据 数据安全/隐私保护
|

掌握网络抓取技术:利用RobotRules库的Perl下载器一览小红书的世界

本文探讨了使用Perl和RobotRules库在遵循robots.txt规则下抓取小红书数据的方法。通过分析小红书的robots.txt文件,配合亿牛云爬虫代理隐藏真实IP,以及实现多线程抓取,提高了数据采集效率。示例代码展示了如何创建一个尊重网站规则的数据下载器,并强调了代理IP稳定性和抓取频率控制的重要性。

575 7
|
SQL HIVE
|

Hive中日期处理函数的使用(date_format、date_add、date_sub、next_day)

Hive中日期处理函数的使用(date_format、date_add、date_sub、next_day)

4275 3
|
SQL XML JSON
|

Hive函数全解——思维导图 + 七种函数类型

Hive函数全解——思维导图 + 七种函数类型

635 2
|
消息中间件 安全 Kafka
|

2024年了,如何更好的搭建Kafka集群?

我们基于Kraft模式和Docker Compose同时采用最新版Kafka v3.6.1来搭建集群。

4044 2
|
机器学习/深度学习 分布式计算 并行计算
|

【MATLAB】史上最全的13种数据拟合算法全家桶

【MATLAB】史上最全的13种数据拟合算法全家桶

2579 1
|
并行计算 TensorFlow 调度
|

推荐场景GPU优化的探索与实践:CUDA Graph与多流并行的比较与分析

RTP 系统(即 Rank Service),是一个面向搜索和推荐的 ranking 需求,支持多种模型的在线 inference 服务,是阿里智能引擎团队沉淀多年的技术产品。今年,团队在推荐场景的GPU性能优化上又做了新尝试——在RTP上集成了Multi Stream,改变了TensorFlow的单流机制,让多流的执行并行,作为增加GPU并行度的另一种选择。本文详细介绍与比较了CUDA Graph与多流并行这两个方案,以及团队的实践成果与心得。

4263 1
|
消息中间件 存储 NoSQL
|

基于 Flink CDC 的现代数据栈实践

阿里云技术专家,Apache Flink PMC Member & Committer, Flink CDC Maintainer 徐榜江和阿里云高级研发工程师,Apache Flink Contributor & Flink CDC Maintainer 阮航,在 Flink Forward Asia 2022 数据集成专场的分享。

1775 0
来自: 实时计算 Flink  版块
|
运维 达摩院 Kubernetes
|

SREWorks数智运维平台开源一周年 | 智能运维aiops的回顾与展望

开源的这一年,我们聊一聊。

2378 0
来自: 大数据计算 MaxCompute  版块
|
存储 消息中间件 SQL
|

Flink Table Store 0.3 构建流式数仓最佳实践

阿里巴巴高级技术专家,Apache Flink PMC 李劲松(之信),在 FFA 2022 实时湖仓的分享。

2287 0
来自: 实时计算 Flink  版块
|
存储 人工智能 分布式计算
|

阿里云云原生一体化数仓 — 离线实时一体化新能力解读

介绍MaxCompute+Hologres离线和实时数仓一体化优于之前有离线、有在线、有很多不同的引擎的实现方案,通过用实时的引擎做预处理,实现离线实时数据入仓后做更加实时的服务化BI分析实践。

3118 1
来自: 大数据计算 MaxCompute  版块
|
SQL 存储 分布式计算
|

Delta Lake的演进历史及现状【Databricks 数据洞察公开课】

从大数据平台架构的演进、Delta Lake关键特性、版本迭代、重要功能等多方面,介绍Delta Lake的演进和优势。

1602 0
|
关系型数据库 MySQL 数据库
|

Flink CDC 2.2 正式发布,新增四种数据源,支持动态加表,提供增量快照框架

Flink CDC 2.2 正式发布,文末有一则消息或许你会感兴趣~

9800 0
来自: 实时计算 Flink  版块

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

0
今日
69094
内容
128
活动
439688
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务