|
5月前
|
人工智能 自然语言处理 算法
|

阿里云PAI大模型评测最佳实践

在大模型时代,模型评测是衡量性能、精选和优化模型的关键环节,对加快AI创新和实践至关重要。PAI大模型评测平台支持多样化的评测场景,如不同基础模型、微调版本和量化版本的对比分析。本文为您介绍针对于不同用户群体及对应数据集类型,如何实现更全面准确且具有针对性的模型评测,从而在AI领域可以更好地取得成就。

41829 15
来自: 人工智能平台PAI  版块
|
5月前
|
监控 网络协议 JavaScript
|

WebSocket技术详解与应用指南

WebSocket是全双工TCP协议,解决HTTP的单向通信问题,允许服务器主动推送信息。本文档介绍了WebSocket的基本概念、工作原理(基于HTTP握手,通过帧进行数据通信)、应用场景(实时聊天、在线游戏、数据监控等)和实现方法(客户端使用JavaScript API,服务器端有多种编程语言库支持)。学习WebSocket能提升Web应用的实时性和交互性。

850 1
|
6月前
|
SQL Cloud Native 架构师
|

深入浅出Presto:大数据查询引擎的原理与应用

【4月更文挑战第7天】Presto是高性能的分布式SQL查询引擎,专为大规模数据交互式分析设计。它采用分离式架构,内存计算和动态规划优化查询,支持跨源查询、交互式查询和ANSI SQL兼容性。应用于大数据分析、实时数据湖查询和云原生部署。Presto的灵活性和效率使其在大数据处理领域备受推崇,适合分析师、数据科学家和IT架构师使用。未来将在博客中分享更多实践和案例。

832 1
|
6月前
|
分布式计算 大数据 数据处理
|

Apache Spark:提升大规模数据处理效率的秘籍

【4月更文挑战第7天】本文介绍了Apache Spark的大数据处理优势和核心特性,包括内存计算、RDD、一站式解决方案。分享了Spark实战技巧,如选择部署模式、优化作业执行流程、管理内存与磁盘、Spark SQL优化及监控调优工具的使用。通过这些秘籍,可以提升大规模数据处理效率,发挥Spark在实际项目中的潜力。

463 0
|
6月前
|
SQL 消息中间件 存储
|

Flink报错问题之Flink报错:Table sink 'a' doesn't support consuming update and delete changes which is produced by node如何解决

Flink报错通常是指在使用Apache Flink进行实时数据处理时遇到的错误和异常情况;本合集致力于收集Flink运行中的报错信息和解决策略,以便开发者及时排查和修复问题,优化Flink作业的稳定性。

1477 0
来自: 实时计算 Flink  版块
|
自然语言处理 并行计算 算法
|

cp-sat求解器介绍及使用案例

cp-sat求解器介绍及使用案例 更多文章欢迎关注我的微信公众号:Python学习杂记

1004 1
|
自然语言处理 搜索推荐 算法
|

阿里云OpenSearch重磅推出LLM问答式搜索产品,助力企业高效构建对话式搜索服务

OpenSearch推出LLM智能问答版,面向行业搜索场景,提供企业专属问答搜索服务,基于内置的LLM大模型提供问答能力,一站式快速搭建问答搜索系统。

12014 7
来自: 智能搜索推荐  版块
|
存储 机器学习/深度学习 分布式计算
|

【DSW Gallery】COMMON_IO使用指南

COMMON_IO模块提供了TableReader和TableWriter两个接口,使用TableReader可以读取ODPS Table中的数据,使用TableWriter可以将数据写入ODPS Table。

2427 0
来自: 人工智能平台PAI  版块
|
前端开发 数据可视化 大数据
|

DataV地图组件全新发布,带你玩转地理大数据

DataV平面地图组件全新升级,无级缩放、支持下钻的行政区域热力图、高性能渲染、多合一散点图、线热力图、数据优先渲染...,带你抢先看!

31451 1
来自: 数据可视化DataV  版块
|
2天前
|
人工智能 架构师
|

活动火热报名中|阿里云&Elastic:AI Search Tech Day

2024年11月22日,阿里云与Elastic联合举办“AI Search Tech Day”技术思享会活动。

31 2
|
5天前
|
监控 PyTorch 数据处理
|

通过pin_memory 优化 PyTorch 数据加载和传输:工作原理、使用场景与性能分析

在 PyTorch 中,`pin_memory` 是一个重要的设置,可以显著提高 CPU 与 GPU 之间的数据传输速度。当 `pin_memory=True` 时,数据会被固定在 CPU 的 RAM 中,从而加快传输到 GPU 的速度。这对于处理大规模数据集、实时推理和多 GPU 训练等任务尤为重要。本文详细探讨了 `pin_memory` 的作用、工作原理及最佳实践,帮助你优化数据加载和传输,提升模型性能。

31 4
|
1月前
|
数据采集 XML 数据挖掘
|

CDGA|数据治理新视角:清洗数据,让数据质量飞跃提升

在数据治理中,标准化处理和确保数据的可溯源性是两个重要的方面。通过标准化处理,我们可以将复杂的数据转化为易于管理和分析的形式;通过确保数据的可溯源性,我们可以验证数据的准确性和可靠性。这两个方面共同构成了数据治理的基石,为数据分析和挖掘提供了有力的支持。因此,我们应该重视数据治理工作,不断完善和优化数据治理体系,以应对日益复杂的数据挑战。

160 0
|
1月前
|
数据可视化 IDE 数据挖掘
|

Python助您洞察先机:2024年A股市场数据抓取与分析实战

【10月更文挑战第1天】随着2024年中国股市的强劲表现,投资者们对于如何高效获取并分析相关金融数据的需求日益增长。本文旨在介绍如何利用Python这一强大的编程语言来抓取最新的A股交易数据,并通过数据分析技术为个人投资决策提供支持。

214 1
|
3月前
|
缓存 应用服务中间件 nginx
|

Web服务器的缓存机制与内容分发网络(CDN)

【8月更文第28天】随着互联网应用的发展,用户对网站响应速度的要求越来越高。为了提升用户体验,Web服务器通常会采用多种技术手段来优化页面加载速度,其中最重要的两种技术就是缓存机制和内容分发网络(CDN)。本文将深入探讨这两种技术的工作原理及其实现方法,并通过具体的代码示例加以说明。

300 1
|
3月前
|
机器学习/深度学习 人工智能 安全
|

AI时代:程序员如何重塑核心竞争力

【8月更文第5天】近年来,人工智能(AI)和生成式预训练模型(AIGC)的飞速发展对软件开发行业产生了深远的影响。ChatGPT、Midjourney、Claude 等大语言模型的出现,不仅极大地提高了编程效率,还改变了程序员的工作方式。随着AI辅助编程工具的日益普及,程序员们面临着前所未有的机遇与挑战。本文旨在探讨在AI时代,程序员应如何调整自己的职业路径和发展策略,以保持和提升自身的竞争力。

514 0
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
|

大语言模型的Scaling Law:如何随着模型大小、训练数据和计算资源的增加而扩展

在这篇文章中,我们将介绍使这些模型运作的秘密武器——一个由三个关键部分组成的法则:模型大小、训练数据和计算能力。通过理解这些因素如何相互作用和规模化,我们将获得关于人工智能语言模型过去、现在和未来的宝贵见解。

551 7
|
4月前
|
机器学习/深度学习 供应链 监控
|

ERP系统中的供应链风险识别与应对策略解析

【7月更文挑战第25天】 ERP系统中的供应链风险识别与应对策略解析

383 1
|
4月前
|
供应链 监控 调度
|

ERP系统中的销售订单管理与订单跟踪解析

【7月更文挑战第25天】 ERP系统中的销售订单管理与订单跟踪解析

298 2
|
4月前
|
数据采集 人工智能 监控
|

阿里云百炼模型训练实战流程:从入门到实战应用

【7月更文第2天】阿里云百炼是AI大模型开发平台,提供一站式服务,涵盖模型训练到部署。用户从注册登录、创建应用开始,选择模型框架,配置资源。接着,进行数据准备、预处理,上传至阿里云OSS。模型训练涉及设置参数、启动训练及调优。训练后,模型导出并部署为API,集成到应用中。平台提供监控工具确保服务性能。通过百炼,开发者能高效地进行大模型实战,开启AI创新。

1372 2
|
5月前
|
SQL 分布式计算 DataWorks
|

DataWorks操作报错合集之错误提示“ODPS-0130161: Parse exception - invalid token 'WITH', expect 'SEMICOLON'”,该怎么办

DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。

504 0
|
5月前
|
数据采集 数据可视化 数据挖掘
|

数据挖掘实战:使用Python进行数据分析与可视化

在大数据时代,Python因其强大库支持和易学性成为数据挖掘的首选语言。本文通过一个电商销售数据案例,演示如何使用Python进行数据预处理(如处理缺失值)、分析(如销售额时间趋势)和可视化(如商品类别销售条形图),揭示数据背后的模式。安装`pandas`, `numpy`, `matplotlib`, `seaborn`后,可以按照提供的代码步骤,从读取CSV到数据探索,体验Python在数据分析中的威力。这只是数据科学的入门,更多高级技术等待发掘。【6月更文挑战第14天】

449 11
|
5月前
|
机器学习/深度学习 并行计算 PyTorch
|

使用PyTorch Profiler进行模型性能分析,改善并加速PyTorch训练

加速机器学习模型训练是工程师的关键需求。PyTorch Profiler提供了一种分析工具,用于测量CPU和CUDA时间,以及内存使用情况。通过在训练代码中嵌入分析器并使用tensorboard查看结果,工程师可以识别性能瓶颈。Profiler的`record_function`功能允许为特定操作命名,便于跟踪。优化策略包括使用FlashAttention或FSDP减少内存使用,以及通过torch.compile提升速度。监控CUDA内核执行和内存分配,尤其是避免频繁的cudaMalloc,能有效提升GPU效率。内存历史记录分析有助于检测内存泄漏和优化批处理大小。

390 1
|
5月前
|
数据采集 机器学习/深度学习 数据挖掘
|

使用Python进行数据预处理与清洗的最佳实践

本文探讨了Python在数据预处理和清洗中的关键作用。预处理包括数据收集、整合、探索、转换和标准化,而清洗则涉及缺失值、重复值、异常值的处理及数据格式转换。文中提供了使用pandas库进行数据读取、缺失值(如用平均值填充)和重复值处理、异常值检测(如IQR法则)以及数据转换(如min-max缩放)的代码示例。此外,还讲解了文本数据清洗的基本步骤,包括去除标点、转换为小写和停用词移除。整体上,文章旨在帮助读者掌握数据预处理和清洗的最佳实践,以提高数据分析的准确性和效率。

576 2
|
5月前
|
消息中间件 存储 NoSQL
|

Celery:高效异步任务队列的深度解析与应用实践

Celery 是一个流行的 Python 分布式任务队列,用于处理耗时的异步任务,提升Web应用性能。它包括消息中间件(如RabbitMQ、Redis)、任务生产者和消费者。Celery支持异步处理、分布式执行、任务调度、结果存储和错误处理。通过一个发送邮件验证码的实例,展示了如何安装配置、定义任务、触发任务以及查看执行结果。Celery的使用能有效优化应用响应速度和资源管理。

843 3
|
5月前
|
网络安全 安全 Java
|

Java一分钟之-SSL/TLS:安全套接字层与传输层安全

【6月更文挑战第2天】本文介绍了SSL/TLS协议在保护数据传输中的作用,以及Java中使用JSSE实现SSL/TLS的基础。内容涵盖SSL/TLS工作流程、版本、常见问题及解决办法。通过`SSLSocket`和`SSLServerSocket`示例展示了服务器和客户端的实现,并强调证书管理、配置检查和依赖更新的最佳实践,以确保安全的通信。

545 4
|
6月前
|
Ubuntu 网络安全 数据安全/隐私保护
|

使用WinSCP工具,将windows文件传输到虚拟机Ubuntu系统

使用WinSCP工具,将windows文件传输到虚拟机Ubuntu系统

972 4
|
6月前
|
存储 NoSQL 分布式数据库
|

【HBase入门与实战】一文搞懂HBase!

该文档介绍了HBase,一种高吞吐量的NoSQL数据库,适合处理大规模数据。HBase具备快速读写、列式存储和天然支持集群部署的特点,常用于高并发场景。NoSQL与关系型数据库的主要区别在于数据模型、查询语言和可伸缩性。HBase的物理架构包括Client、Zookeeper、HMaster和RegionServer,其中RegionServer管理数据存储。HBase的读写流程利用MemStore和Bloom Filter提高效率。此外,文档还提到了HBase的应用,如时间序列数据、消息传递和内容服务。

657 1
|
6月前
|
Go API 开发者
|

Golang深入浅出之-文件与目录操作:os与path/filepath包

【4月更文挑战第26天】Go语言标准库`os`和`path/filepath`提供文件读写、目录操作等功能。本文涵盖`os.Open`, `os.Create`, `os.Mkdir`, `filepath.Join`等API的使用,强调了文件关闭、路径处理、并发写入和权限问题的处理,并给出实战代码示例,帮助开发者高效、安全地操作文件与目录。注意使用`defer`关闭文件,`filepath`处理路径分隔符,以及通过同步机制解决并发写入冲突。

303 2
|
6月前
|
数据采集 运维 算法
|

大数据项目管理:从需求分析到成果交付的全流程指南

【4月更文挑战第9天】本文介绍了大数据项目从需求分析到成果交付的全过程,包括需求收集与梳理、可行性分析、项目规划、数据准备与处理、系统开发与集成,以及成果交付与运维。文中通过实例展示了如何进行数据源接入、数据仓库建设、系统设计、算法开发,同时强调了需求理解、知识转移、系统运维的重要性。此外,还提供了Python和SQL代码片段,以说明具体技术实现。在大数据项目管理中,需结合业务和技术,灵活运用这些方法,确保项目的成功执行和价值实现。

1707 1
|
6月前
|
算法
|

MATLAB | 插值算法 | 二维interp2插值法 | 附数据和出图代码 | 直接上手

MATLAB | 插值算法 | 二维interp2插值法 | 附数据和出图代码 | 直接上手

362 0
|
6月前
|
机器学习/深度学习 算法 atlas
|

RAG 2.0架构详解:构建端到端检索增强生成系统

RAG(检索增强生成)旨在通过提供额外上下文帮助大型语言模型(LLM)生成更精准的回答。现有的RAG系统由独立组件构成,效率不高。RAG 2.0提出了一种预训练、微调和对齐所有组件的集成方法,通过双重反向传播最大化性能。文章探讨了不同的检索策略,如TF-IDF、BM25和密集检索,并介绍了如SPLADE、DRAGON等先进算法。目前的挑战包括创建可训练的检索器和优化检索-生成流程。研究表明,端到端训练的RAG可能提供最佳性能,但资源需求高。未来研究需关注检索器的上下文化和与LLM的协同优化。

818 1
|
6月前
|
人工智能 JSON 运维
|

AI大模型运维开发探索第三篇:深入浅出运维智能体

大模型出现伊始,我们就在SREWorks开源社区征集相关的实验案例。玦离同学提供了面向大数据HDFS集群的智能体案例,非常好地完成了运维诊断的目标。于是基于这一系列的实验和探索。本文详细介绍智能体在运维诊断中的应用探索。

2080 3
来自: 大数据运维SREWorks  版块
|
6月前
|
人工智能 机器人 测试技术
|

使用LM Studio在本地运行LLM完整教程

GPT-4被普遍认为是最好的生成式AI聊天机器人,但开源模型一直在变得越来越好,并且通过微调在某些特定领域是可以超过GPT4的。

2698 1
|
6月前
|
算法
|

【MATLAB】WOA鲸鱼算法优化的VMD信号分解算法

【MATLAB】WOA鲸鱼算法优化的VMD信号分解算法

770 0
|
12月前
|
存储 传感器 数据可视化
|

3D目标检测数据集 KITTI(标签格式解析、3D框可视化、点云转图像、BEV鸟瞰图)

本文介绍在3D目标检测中,理解和使用KITTI 数据集,包括KITTI 的基本情况、下载数据集、标签格式解析、3D框可视化、点云转图像、画BEV鸟瞰图等,并配有实现代码。

1486 1
|
JSON 自然语言处理 固态存储
|

大神都这么做,让 Kibana 搜索语法 query string 也能轻松上手

kibana 的搜索框默认选择了 query string 的搜索语法,虽然简洁却不简单,本文来帮大家如何轻松上手;

16453 1
|
15小时前
|
存储 编解码 搜索推荐
|

如何在Windows和Mac上免费将蓝光转换为MKV?

蓝光光盘因能提供高质量的视频和音频内容而备受青睐,但其使用上的局限性却不容忽视。相比之下,MKV作为一种广受支持的视频格式,与大多数播放设备和平台都能完美兼容,为用户带来了更大的便利性和灵活性。

30 0
|
7天前
|
机器学习/深度学习 人工智能 自然语言处理
|

Tokenformer:基于参数标记化的高效可扩展Transformer架构

本文是对发表于arXiv的论文 "TOKENFORMER: RETHINKING TRANSFORMER SCALING WITH TOKENIZED MODEL PARAMETERS" 的深入解读与扩展分析。主要探讨了一种革新性的Transformer架构设计方案,该方案通过参数标记化实现了模型的高效扩展和计算优化。

44 0
|
1月前
|
数据采集 存储 监控
|

数据治理:解锁数据资产潜力,驱动企业决策与业务增长的密钥

在当今这个数据驱动的时代,企业所拥有的数据资产已成为其核心竞争力的重要组成部分。然而,仅仅拥有海量数据并不足以确保成功,关键在于如何有效地管理和利用这些数据,以支持精准决策、优化运营流程并推动业务持续增长。这就是数据治理的重要性所在——它是一套系统性的方法和流程,旨在确保数据质量、安全性、可用性和合规性,从而让数据资产能够最大化地支持企业决策和业务增长。

125 4
ly~
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
|

大数据在智慧金融中的应用

在智能算法交易中,深度学习揭示价格波动的复杂动力学,强化学习依据市场反馈优化策略,助力投资者获取阿尔法收益。智能监管合规利用自然语言处理精准解读法规,实时追踪监管变化,确保机构紧跟政策。大数据分析监控交易,预警潜在违规行为,变被动防御为主动预防。数智化营销通过多维度数据分析,构建细致客户画像,提供个性化产品推荐。智慧客服借助 AI 技术提升服务质量,增强客户满意度。

100 2
|
1月前
|
人工智能 数据可视化 前端开发
|

DB-GPT v0.6.0 版本更新,发布六大核心新特性!

DB-GPT v0.6.0 版本已发布,这是一个开源的AI原生数据应用开发框架,带来了多项新特性,包括AWEL协议升级至2.0,支持复杂编排;改进的数据应用创建与生命周期管理,支持多模式构建;GraphRAG增强图社区摘要与混合检索,图索引成本降低50%;丰富的Agent Memory类型;支持Text2NLU与Text2GQL微调;GPT-Vis前端可视化升级。这些更新助力企业快速构建智能数据应用,推动数字化转型。

96 3
|
3月前
|
消息中间件 分布式计算 Hadoop
|

利用Hadoop进行实时数据分析的挑战与解决方案

【8月更文第28天】随着大数据技术的快速发展,企业和组织面临着越来越复杂的实时数据处理需求。Hadoop 作为一种分布式存储和处理大数据的框架,虽然擅长于批处理任务,但在处理实时数据流时存在一定的局限性。为了克服这些限制,Hadoop 经常与其他实时处理框架(如 Apache Kafka 和 Apache Storm)结合使用。本文将探讨如何利用 Hadoop 结合 Kafka 和 Storm 实现近实时的数据处理,并提供相关的代码示例。

363 0
|
3月前
|
缓存 分布式计算 算法
|

优化Hadoop MapReduce性能的最佳实践

【8月更文第28天】Hadoop MapReduce是一个用于处理大规模数据集的软件框架,适用于分布式计算环境。虽然MapReduce框架本身具有很好的可扩展性和容错性,但在某些情况下,任务执行可能会因为各种原因导致性能瓶颈。本文将探讨如何通过调整配置参数和优化算法逻辑来提高MapReduce任务的效率。

450 0
|
3月前
|
搜索推荐 算法 UED
|

必应SEO优化步骤:提升网站在必应搜索引擎中的排名

本文深入剖析了必应(Bing)搜索引擎的优化策略,为网站管理员提供了一套完整的必应SEO优化步骤。文章内容兼具深度与独特见解,旨在帮助读者在激烈的网络竞争中脱颖而出。助力您的网站迈向更高的排名。

420 3
来自: 智能搜索推荐  版块
|
4月前
|
机器学习/深度学习 数据采集 人工智能
|

ERP系统中的人工智能与机器学习应用:提升企业智能化管理

【7月更文挑战第29天】 ERP系统中的人工智能与机器学习应用:提升企业智能化管理

528 0
|
4月前
|
人工智能 搜索推荐 安全
|

云上远程医疗:跨越时空的医疗革新,重塑健康服务新生态

政策支持和监管加强:随着云上远程医疗的快速发展,政府将出台更多支持政策和监管措施,促进产业的健康有序发展。同时,行业也将加强自律和协作,共同推动云上远程医疗的规范化、标准化发展。 跨界融合与生态构建:云上远程医疗将与保险、健康管理等领域实现跨界融合,构建更加完善的健康服务生态体系。这将有助于提升整个医疗健康行业的服务水平和竞争力。 结语

268 0
|
4月前
|
机器学习/深度学习 存储 人工智能
|

构建坚不可摧的系统安全防线:策略、实践与未来展望

系统安全是维护社会稳定、保障企业运营和个人隐私的重要基石。构建坚不可摧的系统安全防线需要从多个维度出发制定全面的安全策略并付诸实践。未来随着技术的不断进步和应用场景的不断拓展,系统安全将面临更多的挑战和机遇。只有不断创新和完善安全技术和策略才能应对日益复杂的安全威胁和挑战确保系统的安全和稳定运行。

526 0
|
4月前
|
监控 数据挖掘 数据安全/隐私保护
|

ERP系统中的培训与发展管理

【7月更文挑战第25天】 ERP系统中的培训与发展管理

376 2
|
4月前
|
监控 数据安全/隐私保护 Python
|

ERP系统中的资产管理模块详解

【7月更文挑战第25天】 ERP系统中的资产管理模块详解

350 4
|
4月前
|
缓存 JavaScript API
|

NodeJS代理配置指南:详细步骤和代码示例

**Node.js 代理配置:解决HTTP请求转发与CORS挑战** 在现代开发环境中,Node.js以其高效和灵活性深受青睐,但正确配置代理以处理跨域请求和API调用仍是复杂任务。本文提供全面指南,从基础到高级设置,教授如何在Node.js中使用代理,覆盖httpOptions、npm代理及第三方库的运用,以增强API调用灵活性。

469 23

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

3
今日
64614
内容
110
活动
438171
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务