|
人工智能 固态存储 调度
|

【Paper Reading】结合 NanoFlow 研究,优化大语言模型服务效率的探索

本文将深入探讨 NanoFlow 的关键思路和核心技术,分析 NanoFlow 与 阿里云人工智能平台 PAI 在实际工作中应用的潜力。

614 7
来自: 人工智能平台PAI  版块
|
机器学习/深度学习 数据可视化 算法
|

图特征工程实践指南:从节点中心性到全局拓扑的多尺度特征提取

本文详细介绍了如何利用NetworkX库从图结构中提取重要特征。首先,通过定义辅助函数设置了图的可视化选项,并以Zachary网络数据集为例进行了可视化展示。接着,文章深入探讨了三类图特征:基于节点的特征(如节点度、中心性等)、基于边的特征(如最短路径、邻域重叠等)以及基于图的特征(如Graphlets、Weisfeiler-Leman特征等)。通过这些特征的提取与分析,可以全面理解网络结构,识别关键节点,分析信息流动模式,并发现潜在的隐藏模式。本文不仅展示了如何应用这些特征来揭示社交网络中的角色和联系,还强调了其在交通网络分析和生物系统研究等领域的广泛应用潜力。

686 12
|
消息中间件 canal 数据采集
|

Flink CDC 在货拉拉的落地与实践

陈政羽在Apache Asia Community Over Code 2024上分享了《货拉拉在Flink CDC生产实践落地》。文章介绍了货拉拉业务背景、技术选型及其在实时数据采集中的挑战与解决方案,详细阐述了Flink CDC的技术优势及在稳定性、兼容性等方面的应用成果。通过实际案例展示了Flink CDC在提升数据采集效率、降低延迟等方面的显著成效,并展望了未来发展方向。

927 14
来自: 实时计算 Flink  版块
|
SQL 存储 NoSQL
|

阿里云 EMR StarRocks 在七猫的应用和实践

本文整理自七猫资深大数据架构师蒋乾老师在 《阿里云 x StarRocks:极速湖仓第二季—上海站》的分享。

1002 2
|
jenkins 持续交付
|

使用 Jenkinsfile 实现流水线即代码 (Pipeline as Code)

【8月更文第31天】在现代软件开发实践中,持续集成(CI)和持续部署(CD)已经成为不可或缺的一部分。Jenkins 是一个非常流行的 CI/CD 工具,它支持多种方式来定义构建流程,其中“流水线即代码”(Pipeline as Code)是一种将构建逻辑版本化并纳入源代码管理的方法。这种方式不仅使得构建流程更加透明,也方便团队协作和版本控制。

1099 0
|
缓存 分布式计算 算法
|

优化Hadoop MapReduce性能的最佳实践

【8月更文第28天】Hadoop MapReduce是一个用于处理大规模数据集的软件框架,适用于分布式计算环境。虽然MapReduce框架本身具有很好的可扩展性和容错性,但在某些情况下,任务执行可能会因为各种原因导致性能瓶颈。本文将探讨如何通过调整配置参数和优化算法逻辑来提高MapReduce任务的效率。

1388 0
|
消息中间件 Prometheus 监控
|

RabbitMQ性能调优指南

【8月更文第28天】RabbitMQ 是一个非常流行的消息队列中间件,它支持多种消息协议,并且可以轻松集成到各种系统中。随着应用的扩展,确保 RabbitMQ 在高负载环境下能够高效稳定地运行变得至关重要。本文将深入探讨如何通过配置、监控以及最佳实践来优化 RabbitMQ 的性能。

2242 1
|
SQL 缓存 测试技术
|

实时计算 Flink版产品使用问题之如何实现滚动窗口统计用户不重复的总数

实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。

252 0
来自: 实时计算 Flink  版块
|
数据采集 人工智能 安全
|

阿里云Elasticsearch 企业级AI搜索方案发布

本文从AI搜索落地的挑战、阿里云在RAG场景的实践、效果提升三个方面,深度解读阿里云Elasticsearch 企业级AI搜索方案。

1187 8
|
机器学习/深度学习 数据采集 人工智能
|

AI技术实践:利用机器学习算法预测房价

人工智能(Artificial Intelligence, AI)已经深刻地影响了我们的生活,从智能助手到自动驾驶,AI的应用无处不在。然而,AI不仅仅是一个理论概念,它的实际应用和技术实现同样重要。本文将通过详细的技术实践,带领读者从理论走向实践,详细介绍AI项目的实现过程,包括数据准备、模型选择、训练和优化等环节。

1340 3
|
传感器 供应链 物联网
|

ERP系统与物联网(IoT)集成:实现智能化业务管理

【7月更文挑战第29天】 ERP系统与物联网(IoT)集成:实现智能化业务管理

1177 0
|
监控 算法 数据可视化
|

ERP系统中的生产调度与计划排程解析

【7月更文挑战第25天】 ERP系统中的生产调度与计划排程解析

795 1
|
监控 数据挖掘 数据安全/隐私保护
|

ERP系统中的报价与报价管理模块解析

【7月更文挑战第25天】 ERP系统中的报价与报价管理模块解析

1071 3
|
数据采集 DataWorks 测试技术
|

DataWorks产品使用合集之如何通过REST API进行数据采集,并且自定义传入API的参数

DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。

436 26
|
关系型数据库 MySQL 网络安全
|

实时计算 Flink版操作报错合集之Debezium引擎因为其他错误而关闭,导致无法检索到引擎的schema历史记录,该如何解决

在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。

446 1
来自: 实时计算 Flink  版块
|
机器学习/深度学习 自然语言处理 TensorFlow
|

使用Python实现深度学习模型:文本生成与自然语言处理

【7月更文挑战第14天】 使用Python实现深度学习模型:文本生成与自然语言处理

598 12
|
机器学习/深度学习 数据采集 算法
|

Python实现Catboost分类模型(CatBoostClassifier算法)项目实战

Python实现Catboost分类模型(CatBoostClassifier算法)项目实战

1049 0
来自: 人工智能平台PAI  版块
|
数据采集 搜索推荐 算法
|

Python基于协同过滤算法进行电子商务网站用户行为分析及服务智能推荐

Python基于协同过滤算法进行电子商务网站用户行为分析及服务智能推荐

499 2
来自: 人工智能平台PAI  版块
|
机器学习/深度学习 数据采集 算法
|

Python实现xgboost分类模型(XGBClassifier算法)项目实战

Python实现xgboost分类模型(XGBClassifier算法)项目实战

1089 0
来自: 人工智能平台PAI  版块
|
调度 C++ 开发者
|

C++一分钟之-认识协程(coroutine)

【6月更文挑战第30天】C++20引入的协程提供了一种轻量级的控制流抽象,便于异步编程,减少了对回调和状态机的依赖。协程包括使用`co_await`、`co_return`、`co_yield`的函数,以及协程柄和awaiter来控制执行。它们适合异步IO、生成器和轻量级任务调度。常见问题包括与线程混淆、不当使用`co_await`和资源泄漏。例如,斐波那契生成器协程展示了如何生成序列。正确理解和使用协程能简化异步代码,但需注意生命周期管理。

438 4
|
SQL 分布式计算 DataWorks
|

MaxCompute产品使用问题之如何通过临时查询功能来书写和运行SQL语句

MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。

224 0
来自: 大数据计算 MaxCompute  版块
|
编解码 机器人 测试技术
|

2024年6月计算机视觉论文推荐:扩散模型、视觉语言模型、视频生成等

6月还有一周就要结束了,我们今天来总结2024年6月上半月发表的最重要的论文,重点介绍了计算机视觉领域的最新研究和进展。

611 8
|
安全 编译器 C++
|

C++一分钟之-构造函数与析构函数

【6月更文挑战第20天】C++中的构造函数初始化对象,析构函数负责资源清理。构造函数有默认、参数化和拷贝形式,需注意异常安全和成员初始化。析构确保资源释放,避免内存泄漏,要防止重复析构。示例代码展示了不同构造函数和析构函数的调用情况。掌握构造和析构是有效管理对象生命周期和资源的关键。

250 2
|
分布式计算 Serverless 调度
|

EMR Serverless Spark:结合实时计算 Flink 基于 Paimon 实现流批一体

本文演示了使用实时计算 Flink 版和 Serverless Spark 产品快速构建 Paimon 数据湖分析的流程,包括数据入湖 OSS、交互式查询,以及离线Compact。Serverless Spark完全兼容Paimon,通过内置的DLF的元数据实现了和其余云产品如实时计算Flink版的元数据互通,形成了完整的流批一体的解决方案。同时支持灵活的作业运行方式和参数配置,能够满足实时分析、生产调度等多项需求。

61208 107
|
机器学习/深度学习 JSON 测试技术
|

CNN依旧能战:nnU-Net团队新研究揭示医学图像分割的验证误区,设定先进的验证标准与基线模型

在3D医学图像分割领域,尽管出现了多种新架构和方法,但大多未能超越2018年nnU-Net基准。研究发现,许多新方法的优越性未经严格验证,揭示了验证方法的不严谨性。作者通过系统基准测试评估了CNN、Transformer和Mamba等方法,强调了配置和硬件资源的重要性,并更新了nnU-Net基线以适应不同条件。论文呼吁加强科学验证,以确保真实性能提升。通过nnU-Net的变体和新方法的比较,显示经典CNN方法在某些情况下仍优于理论上的先进方法。研究提供了新的标准化基线模型,以促进更严谨的性能评估。

609 0
|
机器学习/深度学习 计算机视觉
|

【YOLOv8改进】骨干网络: SwinTransformer (基于位移窗口的层次化视觉变换器)

YOLO目标检测创新改进与实战案例专栏介绍了YOLO的有效改进,包括使用新型视觉Transformer——Swin Transformer。Swin Transformer解决了Transformer在视觉领域的尺度变化和高分辨率问题,采用分层结构和移位窗口自注意力计算,适用于多种视觉任务,如图像分类、目标检测和语义分割,性能超越先前最佳模型。此外,文章还展示了如何在YOLOv8中引入Swin Transformer,并提供了相关代码实现。

1297 3
|
机器学习/深度学习 数据采集 算法
|

机器学习:升维(Polynomial Regression)

该文介绍了升维的概念,指出在低维度中难以对混合数据进行有效分类,而升维是通过算法将数据投射到高维空间以改善模型性能。文章以多项式回归为例,说明了如何通过升维将非线性关系转换为线性关系,并提供了Python代码示例展示了如何使用`PolynomialFeatures`进行升维。代码结果显示,随着维度增加,模型从欠拟合逐渐过渡到过拟合。

1597 0
|
分布式计算 安全 Hadoop
|

HBase Shell-org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: Server is not running yet 已解决

在HBase Shell遇到错误时,检查Hadoop非安全模式:`hdfs dfsadmin -safemode get`。问题解决在于`hbase-site.xml`中添加配置:Zookeeper客户端端口设为2181和预写日志提供者设为filesystem。

713 6
|
机器学习/深度学习 搜索推荐 数据可视化
|

大数据用户画像之基本概念

大数据用户画像利用大数据技术分析用户基本信息、消费行为、兴趣、社交及地理数据,创建详细用户模型,助力企业精准营销。涉及技术包括数据挖掘、大数据处理(Hadoop、Spark)、数据可视化、机器学习和数据库管理。通过用户画像,企业可实现市场定位、个性化推荐、精准广告、产品优化和风险控制。学习该领域需掌握多个技术栈,包括相关算法、工具及业务理解。

1812 4
|
存储 传感器 网络协议
|

ClickHouse 数据类型、表引擎与TTL

ClickHouse数据类型包括UInt8、Int64等,对应Java的Short、Long等,支持数字、字符串、日期时间、数组、枚举、UUID和IP地址等多种类型。建表时需确定好数据类型,避免后期转换影响效率。不要使用Nullable类型,因其低效。合理设置分区和索引,避免轻量删除和修改操作。表引擎如TinyLog适合小规模数据,MergeTree适用于有序时间序列,ReplacingMergeTree用于替换更新数据,AggregatingMergeTree和SummingMergeTree做聚合计算,CollapsingMergeTree保留最新状态。

1061 1
|
SQL Oracle 关系型数据库
|

实时计算 Flink版产品使用合集之Managed Memory内存的含义是什么

实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。

861 0
来自: 实时计算 Flink  版块
|
机器学习/深度学习 存储 并行计算
|

深入解析xLSTM:LSTM架构的演进及PyTorch代码实现详解

xLSTM的新闻大家可能前几天都已经看过了,原作者提出更强的xLSTM,可以将LSTM扩展到数十亿参数规模,我们今天就来将其与原始的lstm进行一个详细的对比,然后再使用Pytorch实现一个简单的xLSTM。

764 2
|
存储 数据可视化 API
|

1688商品详情数据接口:如何通过1688 API实现批量商品数据抓取和分析

使用1688 API进行批量商品数据抓取和分析,首先需注册账号创建应用获取App Key和Secret Key。研究API文档,构建请求URL,如商品详情、搜索、销售量等接口。利用编程语言发送HTTP请求,实时抓取并处理数据,存储到数据库。实施优化策略,处理错误,记录日志。数据可视化展示并确保API安全性。编写文档并持续更新以适应API变化。参考[c0b.cc/R4rbK2]获取API测试和SDK。

793 3
|
Oracle 关系型数据库 数据库
|

实时计算 Flink版操作报错合集之错误信息"ORA-65040: operation not allowed from within a pluggable database"如何解决

在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。

837 2
来自: 实时计算 Flink  版块
|
关系型数据库 MySQL 数据库
|

实时计算 Flink版产品使用合集之在进行数据同步时,遇到了时区问题,怎么设置时区

实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。

206 1
来自: 实时计算 Flink  版块
|
Go 开发者
|

Golang深入浅出之-Go语言项目构建工具:Makefile与go build

【4月更文挑战第27天】本文探讨了Go语言项目的构建方法,包括`go build`基本命令行工具和更灵活的`Makefile`自动化脚本。`go build`适合简单项目,能直接编译Go源码,但依赖管理可能混乱。通过设置`GOOS`和`GOARCH`可进行跨平台编译。`Makefile`适用于复杂构建流程,能定义多步骤任务,但编写较复杂。在选择构建方式时,应根据项目需求权衡,从`go build`起步,逐渐过渡到Makefile以实现更高效自动化。

460 2
|
机器学习/深度学习 自然语言处理 异构计算
|

Python深度学习面试:CNN、RNN与Transformer详解

【4月更文挑战第16天】本文介绍了深度学习面试中关于CNN、RNN和Transformer的常见问题和易错点,并提供了Python代码示例。理解这三种模型的基本组成、工作原理及其在图像识别、文本处理等任务中的应用是评估技术实力的关键。注意点包括:模型结构的混淆、过拟合的防治、输入序列长度处理、并行化训练以及模型解释性。掌握这些知识和技巧,将有助于在面试中展现优秀的深度学习能力。

662 11
|
机器学习/深度学习 自然语言处理 索引
|

Moirai:Salesforce的时间序列预测基础模型

过去几个月,时间序列基础模型发展迅速,包括TimeGPT、Lag-Llama、Google的TimesFM、Amazon的Chronos和Salesforce的Moirai。本文聚焦于Moirai,这是一个用于时间序列预测的通用模型,尤其强调零样本推理能力。Moirai处理各种数据频率、适应未知协变量并生成概率预测。文章介绍了Moirai的三个关键特性:多尺寸补丁投影层、任意变量注意力和混合分布。此外,还对比了Moirai与Chronos和TimeGPT,发现Moirai在性能上未超越Chronos,后者在数据效率上更优,但不支持多变量预测。

778 2
|
SQL 运维 监控
|

面经:Presto/Trino高性能SQL查询引擎解析

【4月更文挑战第10天】本文深入探讨了大数据查询引擎Trino(现称Trino)的核心特性与应用场景,适合面试准备。重点包括:Trino的分布式架构(Coordinator与Worker节点)、连接器与数据源交互、查询优化(CBO、动态过滤)及性能调优、容错与运维实践。通过实例代码展示如何解释查询计划、创建自定义连接器以及查看查询的I/O预期。理解这些知识点将有助于在面试中脱颖而出,并在实际工作中高效处理数据分析任务。

1016 12
|
数据采集 存储 JavaScript
|

赋能数据收集:从机票网站提取特价优惠的JavaScript技巧

使用JavaScript和爬虫代理IP,旅游行业可高效抓取机票特价信息。通过模拟不同地区用户,提升数据收集成功率,全面了解市场动态。数据存储到数据库后进行统计分析,助力企业把握用户需求和市场趋势优化决策。

236 1
|
存储 BI 关系型数据库
|

数仓学习---数仓开发之DWS层

数仓学习---数仓开发之DWS层

1482 4
来自: 大数据计算 MaxCompute  版块
|
Oracle 关系型数据库 数据处理
|

Flink CDC产品常见问题之flink postgresqlcdc 报错如何解决

Flink CDC(Change Data Capture)是一个基于Apache Flink的实时数据变更捕获库,用于实现数据库的实时同步和变更流的处理;在本汇总中,我们组织了关于Flink CDC产品在实践中用户经常提出的问题及其解答,目的是辅助用户更好地理解和应用这一技术,优化实时数据处理流程。

520 0
来自: 实时计算 Flink  版块
|
Ubuntu Linux
|

linux怎么查看自己的ip地址

在Linux系统中,有多种方法可以查看自己的IP地址。

1332 2
来自: 智能搜索推荐  版块
|
算法 Python
|

LightGBM高级教程:自动调参与超参数优化

LightGBM高级教程:自动调参与超参数优化【2月更文挑战第5天】

1872 2
|
SQL 分布式计算 数据库
|

离线数仓--大数据技术之DolphinScheduler

离线数仓--大数据技术之DolphinScheduler

1265 2
|
SQL 消息中间件 Java
|

Flink报错问题之使用debezium-json format报错如何解决

Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。本合集提供有关Apache Flink相关技术、使用技巧和最佳实践的资源。

915 3
来自: 实时计算 Flink  版块
|
开发框架 前端开发 机器人
|

从模型到前端,你应该知道的LLM生态系统指南

LLM在在2023年发展的风生水起,一个围绕LLM的庞大生态系统正在形成,本文通过介绍这个生态系统的核心组成部分,来详细整理LLM的发展。

1028 2
|
数据采集 机器学习/深度学习 存储
|

使用LORA微调RoBERTa

模型微调是指在一个已经训练好的模型的基础上,针对特定任务或者特定数据集进行再次训练以提高性能的过程。微调可以在使其适应特定任务时产生显着的结果。

732 0
|
SQL 数据可视化 数据挖掘
|

EMR Notebook 开启公测,提供交互式数据分析平台

EMR Notebook 是一个 Serverless 化的交互式数据分析和探索平台,满足大数据和 AI 融合下的数据处理需求,现已开启免费公测,欢迎体验!

539 4
|
资源调度 供应链 监控
|

探索企业资源规划(ERP)系统的基本概念

探索企业资源规划(ERP)系统的基本概念

539 0

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

0
今日
67686
内容
128
活动
439494
关注
你好!
登录掌握更多精彩内容

活跃用户

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务