|
7月前
|
存储 Ubuntu 关系型数据库
|

Ubuntu 20.04 卸载与安装 MySQL 5.7 详细教程

该文档提供了在Ubuntu上卸载和安装MySQL 5.7的步骤。首先,通过`apt`命令卸载所有MySQL相关软件包及配置。然后,下载特定版本(5.7.32)的MySQL安装包,解压并安装所需依赖。接着,按照特定顺序安装解压后的deb包,并在安装过程中设置root用户的密码。安装完成后,启动MySQL服务,连接数据库并验证。最后,提到了开启GTID和二进制日志的配置方法。

1567 5
|
7月前
|
机器学习/深度学习 算法 Python
|

LightGBM中的特征选择与重要性评估

LightGBM中的特征选择与重要性评估【2月更文挑战第1天】

1284 0
|
2月前
|
人工智能 JSON 自然语言处理
|

基于阿里云通义千问的AI模型应用开发指南

阿里云通义千问是阿里巴巴集团推出的多模态大语言模型平台,提供了丰富的API和接口,支持多种AI应用场景,如文本生成、图像生成和对话交互等。本文将详细介绍阿里云通义千问的产品功能,并展示如何使用其API来构建一个简单的AI应用,包括程序代码和具体操作流程,以帮助开发者快速上手。

642 3
|
SQL 存储 分布式计算
|

Data Lake 三剑客——Delta、Hudi、Iceberg 对比分析

定性上讲,三者均为 Data Lake 的数据存储中间层,其数据管理的功能均是基于一系列的 meta 文件。meta 文件的角色类似于数据库的 catalog/wal,起到 schema 管理、事务管理和数据管理的功能。

15969 2
|
7月前
|
数据采集 消息中间件 存储
|

Flume 快速入门【概述、安装、拦截器】

Apache Flume 是一个开源的数据采集工具,用于从各种数据源(如日志、网络数据、消息队列)收集大规模数据,并将其传输和加载到数据存储系统(如 HDFS、HBase、Hive)。Flume 由数据源(Source)、通道(Channel)、拦截器(Interceptor)和接收器(Sink)组成,支持灵活配置以适应不同的数据流处理需求。安装 Flume 包括解压软件包、配置环境变量和调整日志及内存设置。配置文件定义数据源、通道、拦截器和接收器,拦截器允许预处理数据。Flume 适用于构建数据管道,整合分散数据到中心存储系统,便于分析和报告。

1145 3
|
7月前
|
存储 数据挖掘 大数据
|

大数据数仓建模基础理论【维度表、事实表、数仓分层及示例】

数据仓库建模是组织和设计数据以支持数据分析的过程,包括ER模型和维度建模。ER模型通过实体和关系描述数据结构,遵循三范式减少冗余。维度建模,特别是Kimball方法,用于数据仓库设计,便于分析和报告。事实表存储业务度量,如销售数据,分为累积、快照、事务和周期性快照类型。维度表提供描述性信息,如时间、产品、地点和客户详情。数仓通常分层为ODS(源数据)、DWD(明细数据)、DIM(公共维度)、DWS(数据汇总)和ADS(应用数据),以优化数据管理、质量、查询性能和适应性。

1780 3
|
7月前
|
JSON 自然语言处理 对象存储
|

通义千问开源模型在PAI灵骏的最佳实践

本文将展示如何基于阿里云PAI灵骏智算服务,在通义千问开源模型之上进行高效分布式继续预训练、指令微调、模型离线推理验证以及在线服务部署。

62739 7
来自: 人工智能平台PAI  版块
|
4月前
|
搜索推荐 Docker 容器
|

生信分析代码之前还好好的,怎么就报错了 Error in Ops. data. frame(guide_loc, panel_loc) :'==' only defined for equally-sized data frames

执行 `DimPlot` 函数时遇到错误 `;Error in Ops. data. frame(g guides_loc, panel_loc) : '==' only defined for equally-sized data frames`。解决方案和办法

1123 0
|
7月前
|
自然语言处理 搜索推荐 机器人
|

阿里巴巴的通义千问大模型

阿里巴巴通义千问是基于Transformer的大型语言模型,预训练于多样化数据集,支持18亿至720亿参数规模。在多模态英文任务中表现出色,且具备多语言对话及图片文本识别能力。可应用于搜索引擎、问答系统和对话交互,提供智能体验。然而,模型在逻辑题和指令理解上存在不足,需在特定领域进行优化。

1893 1
|
4月前
|
XML 存储 API
|

RAG效果优化:高质量文档解析详解

本文介绍了如何通过高质量的文档解析提升RAG系统整体的效果。

12793 15
来自: 智能搜索推荐  版块
|
6月前
|
机器学习/深度学习 数据处理 计算机视觉
|

LabelStudio环境搭建以及使用且解除上传文件限制

LabelStudio是开源的数据标注工具,支持多种类型如文本、图像、音频、视频的标注任务。它具有多种标注类型、可扩展性、团队协作和版本控制等功能,并可在本地、云端或Docker中部署。通过设置环境变量`DATA_UPLOAD_MAX_NUMBER_FILES`,可以解除上传文件数量限制。使用Docker安装时,可运行包含该变量的命令以启动容器,并通过http://localhost:8080访问。遇到文件数限制问题,可增大此变量值以解决。

1162 2
|
编解码 自然语言处理 并行计算
|

【经典论文解读】YOLACT 实例分割(YOLOv5、YOLOv8实例分割的基础)

 YOLACT是经典的单阶段、实时、实例分割方法,在YOLOv5和YOLOv8中的实例分割,也是基于 YOLACT实现的,有必要理解一下它的模型结构和设计思路。

1814 0
|
4月前
|
机器学习/深度学习 数据采集 PyTorch
|

高效数据加载与预处理:利用 DataLoader 优化训练流程

【8月更文第29天】 在深度学习中,数据加载和预处理是整个训练流程的重要组成部分。随着数据集规模的增长,数据加载的速度直接影响到模型训练的时间成本。为了提高数据加载效率并简化数据预处理流程,PyTorch 提供了一个名为 `DataLoader` 的工具类。本文将详细介绍如何使用 PyTorch 的 `DataLoader` 来优化数据加载和预处理步骤,并提供具体的代码示例。

798 1
|
1天前
|
Web App开发 移动开发 安全
|

h5页面的优缺点(浅谈)

H5页面优点包括:跨平台性,易于传播,丰富的多媒体支持,开发成本低,更新便捷,良好的交互性。缺点则有:性能受限,功能受限,高度依赖网络,存在安全风险,用户体验一致性差。确保H5页面在不同设备上的兼容性,需遵循HTML5标准,使用响应式设计,并进行多设备测试。优化H5页面性能的方法包括减少HTTP请求,压缩文件大小,利用缓存机制,优化代码执行效率等。

55 4
|
4月前
|
机器学习/深度学习 PyTorch 算法框架/工具
|

数据平衡与采样:使用 DataLoader 解决类别不平衡问题

【8月更文第29天】在机器学习项目中,类别不平衡问题非常常见,特别是在二分类或多分类任务中。当数据集中某个类别的样本远少于其他类别时,模型可能会偏向于预测样本数较多的类别,导致少数类别的预测性能较差。为了解决这个问题,可以采用不同的策略来平衡数据集,包括过采样(oversampling)、欠采样(undersampling)以及合成样本生成等方法。本文将介绍如何利用 PyTorch 的 `DataLoader` 来处理类别不平衡问题,并给出具体的代码示例。

897 2
|
4月前
|
机器学习/深度学习 人工智能 供应链
|

AI在各行业的具体应用与未来展望

人工智能(Artificial Intelligence, AI)作为一项颠覆性技术,正在逐步改变我们的生活和工作方式。从语音助手到自动驾驶汽车,AI的应用已经深入到各个领域。本文将详细探讨AI在不同行业中的具体应用,以及未来可能的发展方向。

796 6
|
7月前
|
JSON 安全 Java
|

2024年的选择:为什么Go可能是理想的后端语言

【4月更文挑战第27天】Go语言在2024年成为后端开发的热门选择,其简洁设计、内置并发原语和强大工具链备受青睐。文章探讨了Go的设计哲学,如静态类型、垃圾回收和CSP并发模型,并介绍了使用Gin和Echo框架构建Web服务。Go的并发通过goroutines和channels实现,静态类型确保代码稳定性和安全性,快速编译速度利于迭代。Go广泛应用在云计算、微服务等领域,拥有丰富的生态系统和活跃社区,适合作为应对未来技术趋势的语言。

1267 0
|
7月前
|
消息中间件 安全 Kafka
|

2024年了,如何更好的搭建Kafka集群?

我们基于Kraft模式和Docker Compose同时采用最新版Kafka v3.6.1来搭建集群。

1527 2
|
4天前
|
机器学习/深度学习 存储 缓存
|

ORCA:基于持续批处理的LLM推理性能优化技术详解

大语言模型(LLMs)的批处理优化面临诸多挑战,尤其是由于推理过程的迭代性导致的资源利用不均问题。ORCA系统通过引入迭代级调度和选择性批处理技术,有效解决了这些问题,大幅提高了GPU资源利用率和系统吞吐量,相比FasterTransformer实现了最高37倍的性能提升。

54 26
|
2月前
|
数据采集 存储 数据处理
|

数据治理:如何制定数据标准与规范

在当今这个数据驱动的时代,数据已成为企业最宝贵的资产之一。然而,随着数据量的爆炸性增长和数据来源的多样化,如何有效地管理和利用这些数据成为了企业面临的重大挑战。数据治理作为确保数据质量、安全性、合规性和可访问性的关键过程,其核心在于制定并执行一套科学、合理的数据标准与规范。本文将探讨如何制定数据标准与规范,以推动企业的数据治理实践。

573 3
|
机器学习/深度学习 PyTorch 算法框架/工具
|

SE 注意力模块 原理分析与代码实现

本文介绍SE注意力模块,它是在SENet中提出的,SENet是ImageNet 2017的冠军模型;SE模块常常被用于CV模型中,能较有效提取模型精度,所以给大家介绍一下它的原理,设计思路,代码实现,如何应用在模型中。

1560 0
|
2月前
|
DataWorks 数据挖掘 关系型数据库
|

基于hologres搭建轻量OLAP分析平台解决方案评测

一文带你详细了解基于hologres搭建轻量OLAP分析平台解决方案的优与劣

378 8
来自: 实时数仓 Hologres  版块
|
5月前
|
供应链 Shell Python
|

经济订货量(Economic Order Quantity,简称EOQ)

经济订货量(Economic Order Quantity,简称EOQ)

690 1
|
5月前
|
数据采集 机器学习/深度学习 算法
|

Python实现多元线性回归模型(statsmodels OLS算法)项目实战

Python实现多元线性回归模型(statsmodels OLS算法)项目实战

841 2
来自: 人工智能平台PAI  版块
|
7月前
|
存储 NoSQL 分布式数据库
|

【HBase入门与实战】一文搞懂HBase!

该文档介绍了HBase,一种高吞吐量的NoSQL数据库,适合处理大规模数据。HBase具备快速读写、列式存储和天然支持集群部署的特点,常用于高并发场景。NoSQL与关系型数据库的主要区别在于数据模型、查询语言和可伸缩性。HBase的物理架构包括Client、Zookeeper、HMaster和RegionServer,其中RegionServer管理数据存储。HBase的读写流程利用MemStore和Bloom Filter提高效率。此外,文档还提到了HBase的应用,如时间序列数据、消息传递和内容服务。

892 1
|
3天前
|
机器学习/深度学习 算法 安全
|

从方向导数到梯度:深度学习中的关键数学概念详解

方向导数衡量函数在特定方向上的变化率,其值可通过梯度与方向向量的点积或构造辅助函数求得。梯度则是由偏导数组成的向量,指向函数值增长最快的方向,其模长等于最速上升方向上的方向导数。这两者的关系在多维函数分析中至关重要,广泛应用于优化算法等领域。

52 36
ly~
|
2月前
|
供应链 监控 搜索推荐
|

大数据的应用场景

大数据在众多行业中的应用场景广泛,涵盖金融、零售、医疗保健、交通物流、制造、能源、政府公共服务及教育等领域。在金融行业,大数据用于风险评估、精准营销、反欺诈以及决策支持;零售业则应用于商品推荐、供应链管理和门店运营优化等;医疗保健领域利用大数据进行疾病预测、辅助诊断和医疗质量评估;交通物流业通过大数据优化物流配送、交通管理和运输安全;制造业则在生产过程优化、设备维护和供应链协同方面受益;能源行业运用大数据提升智能电网管理和能源勘探效率;政府和公共服务部门借助大数据改善城市管理、政务服务及公共安全;教育行业通过大数据实现个性化学习和资源优化配置;体育娱乐业则利用大数据提升赛事分析和娱乐制作水平。

530 2
|
4月前
|
机器学习/深度学习 自然语言处理 PyTorch
|

PyTorch 中的动态图与静态图:理解它们的区别及其应用场景

【8月更文第29天】深度学习框架中的计算图是构建和训练神经网络的基础。PyTorch 支持两种类型的计算图:动态图和静态图。本文旨在阐述这两种计算图的区别、各自的优缺点以及它们在不同场景下的应用。

896 0
|
7月前
|
数据采集 运维 算法
|

大数据项目管理:从需求分析到成果交付的全流程指南

【4月更文挑战第9天】本文介绍了大数据项目从需求分析到成果交付的全过程,包括需求收集与梳理、可行性分析、项目规划、数据准备与处理、系统开发与集成,以及成果交付与运维。文中通过实例展示了如何进行数据源接入、数据仓库建设、系统设计、算法开发,同时强调了需求理解、知识转移、系统运维的重要性。此外,还提供了Python和SQL代码片段,以说明具体技术实现。在大数据项目管理中,需结合业务和技术,灵活运用这些方法,确保项目的成功执行和价值实现。

1847 1
|
DataWorks
|

DataWorks售前咨询

DataWorks售前咨询

8790 4
|
2天前
|
人工智能 自然语言处理 算法
|

AI时代的企业内训全景图:从案例到实战

作为一名扎根在HR培训领域多年的“老兵”,我越来越清晰地感受到,企业内训的本质其实是为企业持续“造血”。无论是基础岗的新人培训、技能岗的操作规范培训,还是面向技术中坚力量的高阶技术研讨,抑或是管理层的战略思维提升课,内训的价值都是在帮助企业内部提升能力水平,进而提高组织生产力,减少对外部资源的依赖。更为重要的是,在当前AI、大模型、Embodied Intelligence等新兴技术快速迭代的背景下,企业必须不断为人才升级赋能,才能在市场竞争中保持领先。

51 13
来自: 人工智能平台PAI  版块
|
7月前
|
机器学习/深度学习 数据采集 算法
|

机器学习:升维(Polynomial Regression)

该文介绍了升维的概念,指出在低维度中难以对混合数据进行有效分类,而升维是通过算法将数据投射到高维空间以改善模型性能。文章以多项式回归为例,说明了如何通过升维将非线性关系转换为线性关系,并提供了Python代码示例展示了如何使用`PolynomialFeatures`进行升维。代码结果显示,随着维度增加,模型从欠拟合逐渐过渡到过拟合。

528 0
|
1月前
|
SQL 人工智能 DataWorks
|

DataWorks:新一代 Data+AI 数据开发与数据治理平台演进

本文介绍了阿里云 DataWorks 在 DA 数智大会 2024 上的最新进展,包括新一代智能数据开发平台 DataWorks Data Studio、全新升级的 DataWorks Copilot 智能助手、数据资产治理、全面云原生转型以及更开放的开发者体验。这些更新旨在提升数据开发和治理的效率,助力企业实现数据价值最大化和智能化转型。

313 5
|
3月前
|
存储 人工智能 搜索推荐
|

RAG系统的7个检索指标:信息检索任务准确性评估指南

大型语言模型(LLMs)在生成式AI领域备受关注,但其知识局限性和幻觉问题仍具挑战。检索增强生成(RAG)通过引入外部知识和上下文,有效解决了这些问题,并成为2024年最具影响力的AI技术之一。RAG评估需超越简单的实现方式,建立有效的性能度量标准。本文重点讨论了七个核心检索指标,包括准确率、精确率、召回率、F1分数、平均倒数排名(MRR)、平均精确率均值(MAP)和归一化折损累积增益(nDCG),为评估和优化RAG系统提供了重要依据。这些指标不仅在RAG中发挥作用,还广泛应用于搜索引擎、电子商务、推荐系统等领域。

800 1
|
7月前
|
Java 网络安全 API
|

Java一分钟之-JavaMail:发送电子邮件

本文介绍了使用JavaMail API发送电子邮件的步骤,包括环境准备、依赖引入、基本配置和代码示例。通过添加Maven或Gradle依赖,设置SMTP服务器信息并实现Authenticator,可以创建和发送邮件。同时,文章列举了SMTP认证失败、连接超时等常见问题及其解决方案,并提出了安全与最佳实践建议,如启用SSL/TLS、避免硬编码密码和妥善处理异常。

1210 0
|
机器学习/深度学习 数据采集 人工智能
|

从零开始构建自己的AI:一个初学者的机器学习教程

通过这个简单的机器学习教程,我们初步了解了从数据收集、选择模型到训练和预测的基本流程。机器学习是一个广阔的领域,有很多知识和技能需要深入学习。希望本教程能为初学者提供一个入门的指引,引导大家探索更多有关机器学习的知识。感谢您阅读本文,如果您有任何问题或想法,请在评论区与我分享!让我们一起踏上机器学习的旅程,构建属于自己的AI。

2413 1
|
分布式计算 自然语言处理 DataWorks
|

高效使用 PyODPS 最佳实践

以更清晰的认知 PyODPS,DataWorks PyODPS 节点以及 PyODPS 何时在计算集群运行,开发者如何利用 PyODPS 更高效地进行数据开发。

16372 3
来自: 大数据计算 MaxCompute  版块
|
4月前
|
分布式计算 并行计算 数据处理
|

大规模数据处理的最佳实践:使用 Dask 进行高效并行计算

【8月更文第29天】在大数据时代,高效地处理大规模数据集是至关重要的。Python 社区提供了一些强大的工具来帮助开发者进行并行和分布式计算,其中之一就是 Dask。本文将详细介绍如何使用 Dask 来优化大规模数据集的处理效率,并提供一些实用的代码示例。

716 3
|
4月前
|
机器学习/深度学习 PyTorch 数据处理
|

数据增强与 DataLoader:提升模型泛化能力的策略

【8月更文第29天】在深度学习中,数据的质量和数量对于模型的性能至关重要。数据增强是一种常用的技术,它通过对原始数据进行变换(如旋转、缩放、裁剪等)来生成额外的训练样本,从而增加训练集的多样性和规模。这有助于提高模型的泛化能力,减少过拟合的风险。同时,`DataLoader` 是 PyTorch 中一个强大的工具,可以有效地加载和预处理数据,并支持并行读取数据,这对于加速训练过程非常有帮助。

327 1

【免费资料】IEEE33节点系统参数及拓扑图visio

初学者入门配电网可参考经典的IEEE 33节点系统,此系统在文献中广泛应用。资源包括节点和支路参数的Excel表格及Visio的网络拓扑图,可免费下载。配电网以闭环设计增强灵活性和可靠性,故障恢复涉及网络拓扑约束。提供的MATLAB相关链接探讨了孤岛、重构及故障恢复策略。

579 0
|
7月前
|
Java 关系型数据库 数据库连接
|

实时计算 Flink版操作报错之遇到错误org.apache.flink.table.api.ValidationException: Could not find any factory for identifier 'jdbc',该如何解决

在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。

1750 2
来自: 实时计算 Flink  版块
|
存储 缓存 异构计算
|

大语言模型量化方法对比:GPTQ、GGUF、AWQ

在过去的一年里,大型语言模型(llm)有了飞速的发展,在本文中,我们将探讨几种(量化)的方式,除此以外,还会介绍分片及不同的保存和压缩策略。

3200 0
|
12天前
|
自然语言处理 数据安全/隐私保护
|

Chatgpt注册账号详细教程!

本文介绍了ChatGPT的基本用途及注册流程,包括注册前的准备(如稳定网络和有效邮箱)和详细步骤(如访问官网、填写信息、设置密码、邮箱验证、个人信息设置)。新手必读,助你轻松上手。

87 0
|
2月前
|
数据采集 人工智能 安全
|

数据治理的实践与挑战:大型案例解析

在当今数字化时代,数据已成为企业运营和决策的核心资源。然而,随着数据量的爆炸性增长和数据来源的多样化,数据治理成为了企业面临的重要挑战之一。本文将通过几个大型案例,探讨数据治理的实践、成效以及面临的挑战。

301 4
|
3月前
|
数据采集 机器学习/深度学习 人工智能
|

云栖实录 | GenAI 时代 AI Infra 工程技术趋势与平台演进

本文根据2024云栖大会实录整理而成,演讲信息如下: 演讲人:林伟 | 阿里云智能集团研究员、阿里云人工智能平台 PAI 负责人;黄博远|阿里云智能集团资深产品专家、阿里云人工智能平台 PAI 产品负责人 活动:2024 云栖大会 - AI Infra 核心技术专场、人工智能平台 PAI 年度发布专场

636 0
来自: 人工智能平台PAI  版块
|
6月前
|
数据采集 Web App开发 数据处理
|

一步步教你用Python Selenium抓取动态网页任意行数据

使用Python Selenium爬取动态网页,结合代理IP提升抓取效率。安装Selenium,配置代理(如亿牛云),设置User-Agent和Cookies以模拟用户行为。示例代码展示如何使用XPath提取表格数据,处理异常,并通过隐式等待确保页面加载完成。代理、模拟浏览器行为和正确配置增强爬虫性能和成功率。

681 3
|
6月前
|
存储 自然语言处理 NoSQL
|

Vector | Graph:蚂蚁首个开源Graph RAG框架设计解读

引入知识图谱技术后,传统RAG链路到Graph RAG链路会有什么样的变化,如何兼容RAG中的向量数据库(Vector Database)和图数据库(Graph Database)基座,以及蚂蚁的Graph RAG开源技术方案和未来优化方向。

3922 2
|
7月前
|
数据采集 SQL 监控
|

大数据清洗的艺术:有效处理缺失值、异常值与重复数据

【4月更文挑战第8天】本文探讨了大数据清洗的三个关键环节:缺失值处理、异常值识别与处理、重复数据消除。在处理缺失值时,涉及识别、理解原因、选择删除、填充或保留策略,并进行结果验证。异常值识别包括统计方法、业务规则和可视化检查,处理策略包括删除、修正和标记。重复数据的识别基于主键和关键属性,处理策略有删除、合并和哈希,处理后需持续监控。数据清洗是一门艺术,需要结合统计学、编程技能和业务理解。

1803 2
|
Python
|

相关系数 r 和决定系数 R2 的那些事

有人说相关系数(correlation coefficient, r)和决定系数(coefficient of determination, R2,读作R-Squared)都是评价两个变量相关性的指标,且相关系数的平方就是决定系数?这种说法对不对呢?请听下文分解!

1253 0
|
4天前
|
数据采集 监控 安全
|

智能辅助快运装车规划系统整体建设方案

本方案为一家全国性快运企业设计,针对其分拣与装车过程中的问题,提出了一套全面的智能辅助快运装车规划系统。该系统通过多源货品整合、优先级驱动的配送安排、地址信息精准转化等功能,结合先进的智能算法,实现高效的装车与配送规划,从而提升调度精度、降低物流成本、提高配送效率。系统分六个阶段逐步建设,从基础平台搭建到持续优化,确保系统的高效运行与持续改进。

47 3

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

0
今日
64814
内容
112
活动
438296
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务