|
5月前
|
人工智能 数据处理 Apache
|

Forrester发布流式数据平台报告:Flink 创始团队跻身领导者行列,实时AI能力获权威认可

Ververica,由Apache Flink创始团队创立、阿里云旗下企业,首次入选Forrester 2025流式数据平台领导者象限,凭借在实时AI与流处理领域的技术创新及全场景部署能力获高度认可,成为全球企业构建实时数据基础设施的核心选择。

458 10
来自: 实时计算 Flink  版块
|
5月前
|
SQL 存储 分布式计算
|

Parquet 和 ORC 到底有啥区别?别再云里雾里了,咱今天把列式存储聊明白!

Parquet 和 ORC 到底有啥区别?别再云里雾里了,咱今天把列式存储聊明白!

514 9
|
6月前
|
供应链 算法 大数据
|

数据不是水晶球,却能让我们少踩 90% 的坑:未来经济预测的真实力量

数据不是水晶球,却能让我们少踩 90% 的坑:未来经济预测的真实力量

393 1
|
6月前
|
运维 Kubernetes Devops
|

从DevOps到GitOps:自动化再进化,运维的未来不靠“人”,靠“流

从DevOps到GitOps:自动化再进化,运维的未来不靠“人”,靠“流

424 3
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
|

教育行业如何做GEO?让AI成为你的课程推荐官

过去,学生找课程靠搜索;现在,他们直接问AI:“附近有哪些性价比高的编程课?”或“商科最好的在线大学?”——AI不会简单罗列链接,而是直接推荐答案。如果你的教育机构没被AI“看见”,可能已经错过了新一轮流量红利。 作为深耕GEO领域的实战团队,数聚酷科技结合教育行业特性,总结出以下可落地的GEO优化策略,帮助你的课程和…

496 6
来自: 智能搜索推荐  版块
|
6月前
|
消息中间件 存储 Kafka
|

流、表与“二元性”的幻象

本文探讨流与表的“二元性”本质,指出实现该特性需具备主键、变更日志语义和物化能力。强调Kafka与Iceberg因缺乏更新语义和主键支持,无法真正实现二元性,唯有统一系统如Flink、Paimon或Fluss才能无缝融合流与表。

461 7
来自: 实时计算 Flink  版块
|
7月前
|
人工智能 运维 监控
|

Flink 智能调优:从人工运维到自动化的实践之路

本文由阿里云Flink产品专家黄睿撰写,基于平台实践经验,深入解析流计算作业资源调优难题。针对人工调优效率低、业务波动影响大等挑战,介绍Flink自动调优架构设计,涵盖监控、定时、智能三种模式,并融合混合计费实现成本优化。展望未来AI化方向,推动运维智能化升级。

923 8
来自: 实时计算 Flink  版块
|
7月前
|
机器学习/深度学习 大数据 关系型数据库
|

基于python大数据的台风灾害分析及预测系统

针对台风灾害预警滞后、精度不足等问题,本研究基于Python与大数据技术,构建多源数据融合的台风预测系统。利用机器学习提升路径与强度预测准确率,结合Django框架实现动态可视化与实时预警,为防灾决策提供科学支持,显著提高应急响应效率,具有重要社会经济价值。

647 4
|
8月前
|
XML JSON 算法
|

京东商品 SKU 信息接口(jingdong.ware.sku.get)技术干货:数据拉取、规格解析与字段治理(附踩坑总结 + 可运行代码)

本文详解京东商品SKU接口对接技术,涵盖核心参数、权限申请、签名生成、规格解析及常见坑点解决方案,结合可运行代码与实战经验,助力开发者高效集成SKU数据,实现库存、价格等关键信息精准获取。

652 1
|
8月前
|
人工智能 JSON 测试技术
|

AI智能体开发实战:从提示工程转向上下文工程的完整指南

曾被热捧的提示工程正逐渐退潮,本文揭示其局限性,并提出“上下文工程”新范式:通过结构化提示、精准上下文管理、工具调用与统一状态,构建可扩展、可恢复、生产级的智能体工作流,推动AI系统迈向工程化与可控化。

949 9
|
8月前
|
数据采集 数据库 索引
|

新闻网站的数据采集与更新思路

该方案设计了一个跨站点的增量更新引擎,用于高效采集央视新闻、中国新闻网和环球网等多源新闻数据。通过代理IP和内容哈希签名技术,实现新闻的新增与更新检测,大幅降低冗余抓取和带宽消耗。实验表明,该方法在多源新闻采集中具备高效性和实用性,可拓展为行业级舆情雷达系统,支持事件追踪与趋势分析。

551 2
|
9月前
|
JSON 数据挖掘 API
|

小红书笔记评论API数据解析(附代码)

本资源介绍如何通过小红书官方API获取笔记评论数据,包含评论内容、用户信息、点赞数等关键字段。支持分页请求,适用于舆情分析、用户研究及市场调研。提供完整Python调用示例,涵盖请求签名、响应解析等核心流程,助力高效获取结构化评论数据。

645 0
|
10月前
|
JSON Java API
|

如何获取sku详情信息

`item_sku`接口用于获取商品的SKU详细信息,支持通过商品ID和SKU ID查询。提供公共参数及请求参数说明,并包含请求和响应示例。支持多种开发语言,如Curl、PHP、JAVA等,适用于电商应用开发。

542 0
|
10月前
|
数据采集 自然语言处理 NoSQL
|

利用中间件实现任务去重与分发精细化:股吧舆情数据采集与分析实战

本项目针对东方财富股吧设计精细化采集方案,解决重复采集、调度混乱与反爬等问题,构建舆情分析数据模型。通过采集帖子内容、用户行为与情绪信号,实现情绪趋势可视化、热点识别与个股预警,助力把握市场风向。

585 0
|
11月前
|
机器学习/深度学习 数据采集 算法
|

Python AutoML框架选型攻略:7个工具性能对比与应用指南

本文系统介绍了主流Python AutoML库的技术特点与适用场景,涵盖AutoGluon、PyCaret、TPOT、Auto-sklearn、H2O AutoML及AutoKeras等工具,帮助开发者根据项目需求高效选择自动化机器学习方案。

1334 1
|
11月前
|
存储 运维 监控
|

OpenFeature 实战:统一特征开关在风控模型的落地与灰度发布方案

在金融风控场景中,模型迭代速度与线上稳定性之间的平衡是一大挑战。传统硬编码方式存在耦合度高、控制粒度粗、缺乏审计等问题,导致误拦截损失显著。本文介绍了基于 OpenFeature 的解决方案,通过动态配置、细粒度控制和多语言支持实现高效特征管理,并结合灰度发布、熔断机制和安全审计提升系统稳定性与发布安全性。实战数据显示,该方案显著缩短上线周期、降低故障率并提升模型覆盖率,具备高可用性和可扩展性,适用于复杂风控环境下的策略迭代需求。

701 8
|
12月前
|
人工智能 开发框架 自然语言处理
|

企业级AI搜索解决方案:阿里云AI搜索开放平台

本文介绍了 阿里云 AI 搜索开放平台作提供丰富的 AI 搜索组件化服务,兼容主流开发框架 LangChain和 LlamaIndex,支持搜索专属大模型、百炼等大模型服务,以及 Elasticsearch、Havenask 等开源引擎。用户可灵活调用多模态数据解析、大语言模型、效果测评等数十个服务,实现智能搜索、检索增强生成(RAG)、多模态搜索等场景的搭建。

1136 0
来自: 智能搜索推荐  版块
|
供应链 API 开发者
|

1688 商品数据接口终极指南:Python 开发者如何高效获取标题 / 价格 / 销量数据(附调试工具推荐)

1688商品列表API是阿里巴巴开放平台提供的服务,允许开发者通过API获取1688平台的商品信息(标题、价格、销量等)。适用于电商选品、比价工具、供应链管理等场景。使用时需构造请求URL,携带参数(如q、start_price、end_price等),发送HTTP请求并解析返回的JSON/XML数据。示例代码展示了如何用Python调用该API获取商品列表。

658 18
|
数据采集 前端开发 JavaScript
|

Python爬虫如何应对网站的反爬加密策略?

Python爬虫如何应对网站的反爬加密策略?

921 11
|
数据采集 算法 数据挖掘
|

别再野蛮操作了!用Python优雅地搞定数据清洗

别再野蛮操作了!用Python优雅地搞定数据清洗

714 33
|
数据采集 存储 Web App开发
|

如何避免爬虫因Cookie过期导致登录失效

如何避免爬虫因Cookie过期导致登录失效

1345 7
|
数据采集 JSON API
|

Python 实战:用 API 接口批量抓取小红书笔记评论,解锁数据采集新姿势

小红书作为社交电商的重要平台,其笔记评论蕴含丰富市场洞察与用户反馈。本文介绍的小红书笔记评论API,可获取指定笔记的评论详情(如内容、点赞数等),支持分页与身份认证。开发者可通过HTTP请求提取数据,以JSON格式返回。附Python调用示例代码,帮助快速上手分析用户互动数据,优化品牌策略与用户体验。

2290 3
|
数据采集 JSON API
|

Python 实战!利用 API 接口获取小红书笔记详情的完整攻略

小红书笔记详情API接口帮助商家和数据分析人员获取笔记的详细信息,如标题、内容、作者信息、点赞数等,支持市场趋势与用户反馈分析。接口通过HTTP GET/POST方式请求,需提供`note_id`和`access_token`参数,返回JSON格式数据。以下是Python示例代码,展示如何调用该接口获取数据。使用时请遵守平台规范与法律法规。

1362 0
|
存储 监控 数据挖掘
|

京东物流基于Flink & StarRocks的湖仓建设实践

本文整理自京东物流高级数据开发工程师梁宝彬在Flink Forward Asia 2024的分享,聚焦实时湖仓的探索与建设、应用实践、问题思考及未来展望。内容涵盖京东物流通过Flink和Paimon等技术构建实时湖仓体系的过程,解决复杂业务场景下的数据分析挑战,如多维OLAP分析、大屏监控等。同时,文章详细介绍了基于StarRocks的湖仓一体方案,优化存储成本并提升查询效率,以及存算分离的应用实践。最后,对未来数据服务的发展方向进行了展望,计划推广长周期数据存储服务和原生数据湖建设,进一步提升数据分析能力。

1268 1
来自: 实时计算 Flink  版块
|
JSON API 开发者
|

深入研究:1688 拍立淘图片搜索 API 详解

本文介绍了 1688 拍立淘图片搜索 API 的功能与使用方法。该 API 支持开发者通过上传图片,在 1688 平台上搜索相似商品,返回商品标题、价格、销量等信息,适用于电商数据分析和商品推荐等场景。文章详细说明了接口的请求方式(HTTP POST)、参数(如 app_key、timestamp、sign 和 image)及 JSON 响应格式。此外,提供了 Python 请求示例代码,涵盖图片 Base64 编码、签名生成、发送请求及响应处理等步骤,帮助开发者快速集成与调试。

558 1
|
存储 分布式计算 OLAP
|

百观科技基于阿里云 EMR 的数据湖实践分享

百观科技为应对海量复杂数据处理的算力与成本挑战,基于阿里云 EMR 构建数据湖。EMR 依托高可用的 OSS 存储、开箱即用的 Hadoop/Spark/Iceberg 等开源技术生态及弹性调度,实现数据接入、清洗、聚合与分析全流程。通过 DLF 与 Iceberg 的优化、阶梯式弹性调度(资源利用率提升至70%)及倚天 ARM 机型搭配 EMR Trino 方案,兼顾性能与成本,支撑数据分析需求,降低算力成本。

838 59
|
机器学习/深度学习 人工智能 自然语言处理
|

DAPO: 面向开源大语言模型的解耦裁剪与动态采样策略优化系统

DAPO(Decoupled Clip and Dynamic Sampling Policy Optimization)是由字节跳动提出的一种突破性的开源大语言模型强化学习系统。基于Qwen2.5-32B基础模型,DAPO在AIME 2024测试中以50分的优异成绩超越了现有最佳模型,

1500 6
|
人工智能 JSON 自然语言处理
|

如何用大模型评估大模型——PAI-Judge裁判员大语言模型的实现简介

阿里云人工智能平台 PAI 推出 PAI-Judge 裁判员大模型,为用户构建符合应用场景的多维度、细粒度的评测体系,支持单模型评测和双模型竞技两种模式,允许用户自定义参数,实现准确、灵活、高效的模型自动化评测,为模型迭代优化提供数据支撑。 相比通用大模型尤其在回答确定性/数学类问题、角色扮演、创意文体写作、翻译等场景下,PAI-Judge 系列模型表现优异,可以直接用于大模型的评估与质检。

1577 8
来自: 人工智能平台PAI  版块
|
存储 SQL 监控
|

Hologres Dynamic Table快速入门

本文由Hologres PD赵红梅分享,主题为Dynamic Table快速入门。内容分为三部分:一是介绍Dynamic Table,包括其在实时数仓中的应用场景及技术实现;二是讲解Dynamic Table的使用方法与实操,涵盖全量、增量及混合刷新模式的创建与操作;三是提供使用建议,如选择刷新模式、监控延迟、分区表应用及计算资源分配等。此外,还对比了Dynamic Table与其他产品(如DIS异步物化视图和Snowflake Dynamic Tables)的功能差异,并推荐下载Hologres 3.0实践手册以深入了解一体化实时湖仓平台的最新功能。

940 23
来自: 实时数仓 Hologres  版块
|
数据采集 机器学习/深度学习 数据可视化
|

探索大数据分析的无限可能:R语言的应用与实践

探索大数据分析的无限可能:R语言的应用与实践

710 9
|
消息中间件 关系型数据库 MySQL
|

基于 Flink CDC YAML 的 MySQL 到 Kafka 流式数据集成

本教程展示如何使用Flink CDC YAML快速构建从MySQL到Kafka的流式数据集成作业,涵盖整库同步和表结构变更同步。无需编写Java/Scala代码或安装IDE,所有操作在Flink CDC CLI中完成。首先准备Flink Standalone集群和Docker环境(包括MySQL、Kafka和Zookeeper),然后通过配置YAML文件提交任务,实现数据同步。教程还介绍了路由变更、写入多个分区、输出格式设置及上游表名到下游Topic的映射等功能,并提供详细的命令和示例。最后,包含环境清理步骤以确保资源释放。

1111 2
来自: 实时计算 Flink  版块
|
JSON API 开发者
|

闲鱼商品详情API接口(闲鱼API系列)

闲鱼商品详情API为开发者提供便捷、高效且合规的途径,获取闲鱼平台上特定商品的详细信息,如标题、价格、描述和图片等。该接口采用GET请求方式,需传入app_key、item_id、timestamp和sign等参数,返回JSON格式数据。示例代码展示了如何使用Python调用此API,包括生成签名和处理响应。开发者需替换实际的app_key、app_secret和商品ID,并关注官方文档以确保接口使用的准确性。

3738 1
|
人工智能 自然语言处理 监控
|

大语言模型的解码策略与关键优化总结

本文系统性地阐述了大型语言模型(LLMs)中的解码策略技术原理及其应用。通过深入分析贪婪解码、束搜索、采样技术等核心方法,以及温度参数、惩罚机制等优化手段,为研究者和工程师提供了全面的技术参考。文章详细探讨了不同解码算法的工作机制、性能特征和优化方法,强调了解码策略在生成高质量、连贯且多样化文本中的关键作用。实例展示了各类解码策略的应用效果,帮助读者理解其优缺点及适用场景。

1500 20
|
自然语言处理 算法 JavaScript
|

面向长文本的多模型协作摘要架构:多LLM文本摘要方法

多LLM摘要框架通过生成和评估两个步骤处理长文档,支持集中式和分散式两种策略。每个LLM独立生成文本摘要,集中式方法由单一LLM评估并选择最佳摘要,而分散式方法则由多个LLM共同评估,达成共识。论文提出两阶段流程:先分块摘要,再汇总生成最终摘要。实验结果显示,多LLM框架显著优于单LLM基准,性能提升最高达3倍,且仅需少量LLM和一轮生成评估即可获得显著效果。

937 10
|
存储 供应链 安全
|

区块链技术在选举中的应用:透明与安全的新时代

区块链技术在选举中的应用:透明与安全的新时代

619 16
|
开发框架 .NET 开发者
|

简化 ASP.NET Core 依赖注入(DI)注册-Scrutor

Scrutor 是一个简化 ASP.NET Core 应用程序中依赖注入(DI)注册过程的开源库,支持自动扫描和注册服务。通过简单的配置,开发者可以轻松地从指定程序集中筛选、注册服务,并设置其生命周期,同时支持服务装饰等高级功能。适用于大型项目,提高代码的可维护性和简洁性。仓库地址:<https://github.com/khellang/Scrutor>

680 5
|
API 数据安全/隐私保护 开发者
|

实时获取小红书详情 API 数据

小红书详情API数据获取指南:注册开发者账号,创建应用并申请接口权限,构建请求获取笔记详情,使用Python等语言处理响应数据。需遵守使用规则,注意调用频率和数据安全。

1790 6
|
存储 人工智能 缓存
|

官宣开源|阿里云与清华大学共建AI大模型推理项目Mooncake

2024年6月,国内优质大模型应用月之暗面Kimi与清华大学MADSys实验室(Machine Learning, AI, Big Data Systems Lab)联合发布了以 KVCache 为中心的大模型推理架构 Mooncake。

2096 1

分享一些在 1688 上找一件代发商品的技巧

在1688上找一件代发商品需明确自身需求与定位,筛选可靠供应商,研究商品信息,利用精准搜索和平台推荐,关注活动,并与供应商充分沟通,确保合作顺畅。

2251 0
|
自然语言处理 算法 搜索推荐
|

NLTK模块使用详解

NLTK(Natural Language Toolkit)是基于Python的自然语言处理工具集,提供了丰富的功能和语料库。本文详细介绍了NLTK的安装、基本功能、语料库加载、词频统计、停用词去除、分词分句、词干提取、词形还原、词性标注以及WordNet的使用方法。通过示例代码,帮助读者快速掌握NLTK的核心功能。

3331 1
|
SQL 存储 缓存
|

降本60% ,阿里云 EMR StarRocks 全新发布存算分离版本

阿里云 EMR Serverless StarRocks 现已推出全新存算分离版本,该版本不仅基于开源 StarRocks 进行了全面优化,实现了存储与计算解耦架构,还在性能、弹性伸缩以及多计算组隔离能力方面取得了显著进展。

1564 62
|
数据可视化 IDE 数据挖掘
|

Python助您洞察先机:2024年A股市场数据抓取与分析实战

【10月更文挑战第1天】随着2024年中国股市的强劲表现,投资者们对于如何高效获取并分析相关金融数据的需求日益增长。本文旨在介绍如何利用Python这一强大的编程语言来抓取最新的A股交易数据,并通过数据分析技术为个人投资决策提供支持。

2158 2
|
分布式计算 大数据 Serverless
|

云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展

在2024云栖大会开源大数据专场上,阿里云宣布推出实时计算Flink产品的新一代向量化流计算引擎Flash,该引擎100%兼容Apache Flink标准,性能提升5-10倍,助力企业降本增效。此外,EMR Serverless Spark产品启动商业化,提供全托管Serverless服务,性能提升300%,并支持弹性伸缩与按量付费。七猫免费小说也分享了其在云上数据仓库治理的成功实践。其次 Flink Forward Asia 2024 将于11月在上海举行,欢迎报名参加。

1041 6
来自: 实时计算 Flink  版块
|
人工智能 数据可视化 前端开发
|

DB-GPT v0.6.0 版本更新,发布六大核心新特性!

DB-GPT v0.6.0 版本已发布,这是一个开源的AI原生数据应用开发框架,带来了多项新特性,包括AWEL协议升级至2.0,支持复杂编排;改进的数据应用创建与生命周期管理,支持多模式构建;GraphRAG增强图社区摘要与混合检索,图索引成本降低50%;丰富的Agent Memory类型;支持Text2NLU与Text2GQL微调;GPT-Vis前端可视化升级。这些更新助力企业快速构建智能数据应用,推动数字化转型。

1126 3
|
存储 运维 监控
|

服务器高效运维管理方案

智能运维作为保障业务连续性和提升系统性能的关键环节,其重要性日益凸显。服务器作为承载各类应用与数据的核心基础设施,其稳定性、安全性和性能直接关系到企业的业务运行效率和用户体验

1550 1
|
存储 缓存 PyTorch
|

使用PyTorch从零构建Llama 3

本文将详细指导如何从零开始构建完整的Llama 3模型架构,并在自定义数据集上执行训练和推理。

700 1
|
存储 监控 安全
|

服务器安全:构建数字时代的坚固堡垒

在数字化时代,服务器安全至关重要,它直接影响企业业务连续性和客户数据保护。服务器遭受攻击或数据泄露将给企业带来巨大损失。服务器面临网络攻击、恶意软件、内部与物理威胁。关键防护措施包括严格访问控制、数据加密与备份、安全审计与监控、部署防火墙和入侵检测系统、及时安全更新及物理安全防护。最佳实践涵盖制定全面安全策略、采用先进技术、员工培训、定期安全评估与测试及建立应急响应团队。通过这些措施,企业能构建坚实的服务器安全防护体系。

1210 55
|
网络协议
|

使用`http.server`模块搭建简单HTTP服务器

使用`http.server`模块搭建简单HTTP服务器

828 0
|
数据采集 算法 搜索推荐
|

Python基于RFM模型和K-Means聚类算法进行航空公司客户价值分析

Python基于RFM模型和K-Means聚类算法进行航空公司客户价值分析

1262 0
来自: 人工智能平台PAI  版块
|
分布式计算 大数据 数据处理
|

「大数据」Kappa架构

**Kappa架构**聚焦于流处理,用单一处理层应对实时和批量数据,消除Lambda架构的双重系统。通过数据重放保证一致性,简化开发与维护,降低成本,提升灵活性。然而,资源消耗大,复杂查询处理不易。关键技术包括Apache Flink、Spark Streaming、Kafka、DynamoDB等,适合需实时批量数据处理的场景。随着流处理技术进步,其优势日益凸显。

1076 0

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

0
今日
69522
内容
128
活动
439957
关注
你好!
登录掌握更多精彩内容

活跃用户

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务