大数据与机器学习-博文-第3页-阿里云开发者社区

dataworks_demo21

|

DataWorks

|

博文

DataWorks售前咨询

7957 4 6

来自：大数据开发治理DataWorks 版块

melody2023

|

存储编解码 iOS开发

|

博文

视频文件格式：MOV与MP4格式的区别是什么？

视频文件有多种格式，很多人在下载时不知道该选择哪种文件格式。不同格式有不同特点，各自有优缺点。本文将详细介绍常见的MOV和MP4的特点与区别，以供读者了解及选择。

2535 2 2

TuGraphAnalytics

|

5月前

|

存储自然语言处理 NoSQL

|

博文

Vector | Graph：蚂蚁首个开源Graph RAG框架设计解读

引入知识图谱技术后，传统RAG链路到Graph RAG链路会有什么样的变化，如何兼容RAG中的向量数据库（Vector Database）和图数据库（Graph Database）基座，以及蚂蚁的Graph RAG开源技术方案和未来优化方向。

3655 2 3

游客sdsk2yjnftll6

|

6月前

|

人工智能数据安全/隐私保护

|

博文

如何实现AI检测与反检测原理

AI检测器用于识别AI生成的文本，如ChatGPT，通过困惑度和爆发性指标评估文本。低困惑度和低爆发性可能指示AI创作。OpenAI正研发AI文本水印系统，但尚处早期阶段。现有检测器对长文本较准确，但非100%可靠，最高准确率约84%。工具如AIUNDETECT和AI Humanizer提供AI检测解决方案，适用于学生、研究人员和内容创作者。

1334 0 1

AI小怪兽

|

20天前

|

机器学习/深度学习数据可视化自动驾驶

|

博文

YOLO11-seg分割如何训练自己的数据集（道路缺陷）

本文介绍了如何使用自己的道路缺陷数据集训练YOLOv11-seg模型，涵盖数据集准备、模型配置、训练过程及结果可视化。数据集包含4029张图像，分为训练、验证和测试集。训练后，模型在Mask mAP50指标上达到0.673，展示了良好的分割性能。

223 4 4

蓝易云

|

6月前

|

Ubuntu

|

博文

Ubuntu20.04安装软件报错：The following packages have unmet dependencies - 蓝易云

请注意，替换上述命令中的 `<package-name>`为你实际要安装的软件包名。

1294 0 0

李麒麟

|

6月前

|

并行计算 Ubuntu Docker

|

博文

Docker环境Ubuntu20.04安装Python3.10版本

1707 0 0

阿里云大数据Al技术

|

4月前

|

机器学习/深度学习人工智能分布式计算

|

博文

阿里云人工智能平台PAI论文入选OSDI '24

阿里云人工智能平台PAI的论文《Llumnix: Dynamic Scheduling for Large Language Model Serving》被OSDI '24录用。论文通过对大语言模型（LLM）推理请求的动态调度，大幅提升了推理服务质量和性价比。

398 11 11

来自：人工智能平台PAI 版块

Deephub

|

2月前

|

存储人工智能搜索推荐

|

博文

大型语言模型（LLMs）在生成式AI领域备受关注，但其知识局限性和幻觉问题仍具挑战。检索增强生成（RAG）通过引入外部知识和上下文，有效解决了这些问题，并成为2024年最具影响力的AI技术之一。RAG评估需超越简单的实现方式，建立有效的性能度量标准。本文重点讨论了七个核心检索指标，包括准确率、精确率、召回率、F1分数、平均倒数排名（MRR）、平均精确率均值（MAP）和归一化折损累积增益（nDCG），为评估和优化RAG系统提供了重要依据。这些指标不仅在RAG中发挥作用，还广泛应用于搜索引擎、电子商务、推荐系统等领域。

536 1 2

kng32f3vbngrm

|

6月前

|

数据采集消息中间件存储

|

博文

Flume 快速入门【概述、安装、拦截器】

Apache Flume 是一个开源的数据采集工具，用于从各种数据源（如日志、网络数据、消息队列）收集大规模数据，并将其传输和加载到数据存储系统（如 HDFS、HBase、Hive）。Flume 由数据源（Source）、通道（Channel）、拦截器（Interceptor）和接收器（Sink）组成，支持灵活配置以适应不同的数据流处理需求。安装 Flume 包括解压软件包、配置环境变量和调整日志及内存设置。配置文件定义数据源、通道、拦截器和接收器，拦截器允许预处理数据。Flume 适用于构建数据管道，整合分散数据到中心存储系统，便于分析和报告。

858 3 3

奔跑的数据

|

1天前

|

数据采集 Web App开发监控

|

博文

捕获抖音截图：如何用Puppeteer保存页面状态

随着抖音直播的兴起，实时动态和互动元素吸引了大量用户。为了捕获直播页面的实时信息，本文介绍了如何使用 Puppeteer 和代理 IP 服务，解决页面动态加载、反爬虫机制等问题，实现自动化抓取和截图保存。通过安装 Puppeteer、配置代理 IP 和编写简单脚本，可以高效地捕获抖音直播页面的状态。

67 51 51

郑小健

|

3月前

|

分布式计算并行计算数据处理

|

博文

大规模数据处理的最佳实践：使用 Dask 进行高效并行计算

【8月更文第29天】在大数据时代，高效地处理大规模数据集是至关重要的。Python 社区提供了一些强大的工具来帮助开发者进行并行和分布式计算，其中之一就是 Dask。本文将详细介绍如何使用 Dask 来优化大规模数据集的处理效率，并提供一些实用的代码示例。

477 3 3

灵杰开发者

|

19天前

|

SQL Java API

|

博文

Apache Flink 2.0-preview released

Apache Flink 社区正积极筹备 Flink 2.0 的发布，这是自 Flink 1.0 发布以来的首个重大更新。Flink 2.0 将引入多项激动人心的功能和改进，包括存算分离状态管理、物化表、批作业自适应执行等，同时也包含了一些不兼容的变更。目前提供的预览版旨在让用户提前尝试新功能并收集反馈，但不建议在生产环境中使用。

490 13 13

来自：实时计算 Flink 版块

游客wxcco55wjbm5g

|

6月前

|

弹性计算大数据测试技术

|

博文

2024年新版阿里云服务器价格表整理汇总，阿里云服务器收费报价详情

随着云计算技术的日益成熟，阿里云作为国内领先的云服务提供商，不断推出适应市场需求的云服务器产品。今天，我们就来详细解析一下阿里云新版云服务器的收费价格，帮助大家更好地选择适合自己的云服务器。2024年阿里云服务器租用价格表更新，云服务器ECS经济型e实例2核2G、3M固定带宽99元一年、ECS u1实例2核4G、5M固定带宽、80G ESSD Entry盘优惠价格199元一年，轻量应用服务器2核2G3M带宽轻量服务器一年61元、2核4G4M带宽轻量服务器一年165元12个月、2核4G服务器30元3个月，幻兽帕鲁4核16G和8核32G服务器配置，云服务器ECS可以选择经济型e实例、通用算力u1实

1466 0 0

Lwcah

|

6月前

|

算法

|

博文

【MATLAB】史上最全的11种数字信号滤波去噪算法全家桶

1547 0 0

1778908750453455

|

1天前

|

存储 XML 人工智能

|

博文

深度解读AI在数字档案馆中的创新应用：高效识别与智能档案管理

基于OCR技术的纸质档案电子化方案，通过先进的AI能力平台，实现手写、打印、复古文档等多格式高效识别与智能归档。该方案大幅提升了档案管理效率，确保数据安全与隐私，为档案馆提供全面、智能化的电子化管理解决方案。

65 48 48

来自：人工智能平台PAI 版块

ly~

|

2月前

|

传感器存储供应链

|

博文

大数据在供应链管理中的具体应用案例

以下是大数据在供应链管理中的具体应用案例：沃尔玛通过整合内外部数据进行需求预测，提前调配应急物资；亚马逊利用大数据优化库存管理，提高周转率并降低成本；DHL通过传感器收集数据优化物流路线，提升运输效率。大数据的优势在于提高需求预测准确性、优化库存管理、提升物流效率、增强供应商管理和提高供应链可视性，从而实现全方位的供应链优化。

478 2 2

灵杰开发者

|

6月前

|

机器学习/深度学习人工智能 Cloud Native

|

博文

福利「Flink Forward Asia 2023 」视频合集！

2023 年 12 月 9 日，Flink Forward Asia 2023 在北京圆满结束。本届大会共有 70+ 演讲议题、30+ 一线大厂技术与实践分享。现所有专场回放视频已经出炉，并在开发者社区上线。

5327 2 3

来自：实时计算 Flink 版块

阿里云大数据Al技术

|

2月前

|

机器学习/深度学习人工智能分布式计算

|

博文

使用PAI+LLaMA Factory 微调 Qwen2-VL 模型，搭建文旅领域知识问答机器人

本次教程介绍了如何使用 PAI ×LLaMA Factory 框架，基于全参方法微调 Qwen2-VL 模型，使其能够进行文旅领域知识问答，同时通过人工测试验证了微调的效果。

709 0 3

来自：人工智能平台PAI 版块

郑小健

|

3月前

|

机器学习/深度学习自然语言处理 PyTorch

|

博文

PyTorch 中的动态图与静态图：理解它们的区别及其应用场景

【8月更文第29天】深度学习框架中的计算图是构建和训练神经网络的基础。PyTorch 支持两种类型的计算图：动态图和静态图。本文旨在阐述这两种计算图的区别、各自的优缺点以及它们在不同场景下的应用。

525 0 0

CiiLii西里网

|

6月前

|

自然语言处理搜索推荐机器人

|

博文

阿里巴巴的通义千问大模型

阿里巴巴通义千问是基于Transformer的大型语言模型，预训练于多样化数据集，支持18亿至720亿参数规模。在多模态英文任务中表现出色，且具备多语言对话及图片文本识别能力。可应用于搜索引擎、问答系统和对话交互，提供智能体验。然而，模型在逻辑题和指令理解上存在不足，需在特定领域进行优化。

1636 1 1

来自：开源大数据平台 E-MapReduce 版块

工程师甲

|

存储 JSON Oracle

|

博文

【最佳实践】esrally：Elasticsearch 官方压测工具及运用详解

由于 Elasticsearch（后文简称 es）的简单易用及其在大数据处理方面的良好性能，越来越多的公司选用 es 作为自己的业务解决方案。然而在引入新的解决方案前，不免要做一番调研和测试，本文便是介绍官方的一个 es 压测工具 esrally，希望能为大家带来帮助。

16569 0 4

来自：检索分析服务 Elasticsearch版版块

hju6meadphitw

|

4月前

|

存储算法数据可视化

|

博文

云上大数据分析平台：解锁数据价值，驱动智能决策新篇章

实时性与流式处理：随着实时数据分析需求的增加，云上大数据分析平台将更加注重实时性和流式处理能力的建设。通过优化计算引擎和存储架构等技术手段，平台将能够实现对数据流的高效处理和分析，为企业提供实时决策支持。通过优化计算引擎和存储架构等技术手段，平台将能够实现对数据流的高效处理和分析，为企业提供实时决策支持。

601 8 8

Echo_Wish

|

20天前

|

机器学习/深度学习数据可视化 TensorFlow

|

博文

【9月更文第4天】企业资源计划（ERP）系统是现代企业管理不可或缺的一部分，它集成了公司的关键业务流程，并提供了统一的数据管理平台。本文将探讨如何从零开始构建一个简单的ERP系统，并提供一些基本的代码示例来演示关键组件的开发过程。

631 3 3

游客k3xxeidsm2ess

|

3月前

|

人工智能自然语言处理搜索推荐

|

博文

国内可用的 Web Search API，可以平替Bing Search API

近期人们发现，AI对搜索引擎的需求远远超过人类。这个团队专为AI打造搜索引擎，上线仅60天就已被调用超30万次。

562 1 1

游客3yzgfta4mwrno

|

2月前

|

人工智能数据可视化数据挖掘

|

博文

上海“爷叔”神话分析——爱在深秋

上海“爷叔”股市评论走红，言论影响巨大，分析显示其预测大多不准确，但个别时机准确，模拟操作获利，反映股市预测复杂性，强调投资需谨慎。

354 1 1

来自：数据可视化DataV 版块

阿里云大数据Al技术

|

6月前

|

自然语言处理算法 OLAP

|

博文

【4月更文挑战第9天】本文探讨了大数据隐私保护的三大策略：数据加密、数据脱敏和访问控制。数据加密通过加密技术保护静态和传输中的数据，密钥管理确保密钥安全；数据脱敏通过替换、遮蔽和泛化方法降低敏感信息的敏感度；访问控制则通过用户身份验证和权限设置限制数据访问。示例代码展示了数据库、文件系统和API访问控制的实施方式，强调了在实际应用中需结合业务场景和平台特性定制部署。

1670 0 0

hshsgsg

|

3月前

|

搜索推荐 Docker 容器

|

博文

生信分析代码之前还好好的,怎么就报错了 Error in Ops. data. frame(guide_loc, panel_loc) :'==' only defined for equally-sized data frames

执行 `DimPlot` 函数时遇到错误 `;Error in Ops. data. frame(g guides_loc, panel_loc) : '==' only defined for equally-sized data frames`。解决方案和办法

877 0 0

工程师甲

|

机器学习/深度学习存储运维

|

博文

Elasticsearch 既是搜索引擎又是数据库？真的有那么全能吗？

经常遇到很多朋友询问，如何学好 Elasticsearch？这个问题本质上很不好回答，但我一直又很想好好回答，所以本文就以我个人的经验视角，跟大家探讨一下如何正确的拥抱 Elasticsearch。

11504 2 2

来自：检索分析服务 Elasticsearch版版块

想飞的雪糕

|

21天前

|

机器学习/深度学习人工智能自然语言处理

|

博文

前端大模型入门（三）：编码(Tokenizer)和嵌入(Embedding)解析 - llm的输入

本文介绍了大规模语言模型（LLM）中的两个核心概念：Tokenizer和Embedding。Tokenizer将文本转换为模型可处理的数字ID，而Embedding则将这些ID转化为能捕捉语义关系的稠密向量。文章通过具体示例和代码展示了两者的实现方法，帮助读者理解其基本原理和应用场景。

116 1 1

QQ_Now

|

分布式计算监控大数据

|

博文

利用MaxCompute内建函数及UDTF转换json格式日志数据

本文介绍了如何使用MaxCompute UDF对JSON格式的日志进行信息提取和转换。

15666 0 1

来自：大数据计算 MaxCompute 版块

ly~

|

1月前

|

供应链监控搜索推荐

|

博文

大数据的应用场景

大数据在众多行业中的应用场景广泛，涵盖金融、零售、医疗保健、交通物流、制造、能源、政府公共服务及教育等领域。在金融行业，大数据用于风险评估、精准营销、反欺诈以及决策支持；零售业则应用于商品推荐、供应链管理和门店运营优化等；医疗保健领域利用大数据进行疾病预测、辅助诊断和医疗质量评估；交通物流业通过大数据优化物流配送、交通管理和运输安全；制造业则在生产过程优化、设备维护和供应链协同方面受益；能源行业运用大数据提升智能电网管理和能源勘探效率；政府和公共服务部门借助大数据改善城市管理、政务服务及公共安全；教育行业通过大数据实现个性化学习和资源优化配置；体育娱乐业则利用大数据提升赛事分析和娱乐制作水平。

279 2 2

Echo_Wish

|

3月前

|

机器学习/深度学习数据采集 TensorFlow

|

博文

使用Python实现深度学习模型：智能环境监测与预警

【8月更文挑战第11天】使用Python实现深度学习模型：智能环境监测与预警

444 2 2

IT陈寒

|

机器学习/深度学习数据采集人工智能

人工智能 (AI) 的发展历程从20世纪50年代起步，历经初始探索、早期发展、专家系统兴起、机器学习崛起直至深度学习革命。1950年图灵测试提出，1956年达特茅斯会议标志着AI研究开端。60-70年代AI虽取得初步成果但仍遭遇困境。80年代专家系统如MYCIN展现AI应用潜力。90年代机器学习突飞猛进，1997年深蓝战胜国际象棋冠军。21世纪以来，深度学习技术革新了AI，在图像、语音识别等领域取得重大成就。尽管AI已广泛应用，但仍面临数据隐私、伦理等挑战。未来AI将加强人机协作、增强学习与情感智能，并在医疗、教育等领域发挥更大作用。

777 0 0

来自：人工智能平台PAI 版块

游客abjvtlmk3s7yk

|

传感器编解码

|

博文

什么是HDR？HDR与SDR的区别？

HDR（高动态范围）技术是一种近年来变得流行的图像技术，用于拍摄更自然、更真实的影像，尤其在Audio / Visual设备和数码相机等方面得到了广泛应用。在这里，我们将解释HDR技术的具体是什么，HDR与SDR的区别，HDR与4K的关系，以及HDR一般内置在哪些设备中。

1745 0 0

楚国玉

|

机器学习/深度学习运维算法

|

博文

梯度&散度&旋度&峰度&偏度你分得清楚吗？驻点&鞍点你分得清楚吗？曲率&斜率你分得清楚吗？

本文介绍了四种常见的物理量：加速度，速度，位移和力学功。详细介绍了它们的定义、计算以及在物理学和工程学领域中的应用。此外，本文还介绍了四种与物理量相关的概念：向量、标量、质量和密度。数学，物理，机器学习领域常见概念区分

1201 0 0

1442573646622176

|

1月前

|

存储人工智能安全

|

博文

数据治理：强化数据安全与隐私保护的基石

在当今这个数字化时代，数据已成为推动社会进步和企业发展的核心驱动力。从个人消费习惯到企业运营策略，从政府决策支持到科研创新突破，数据无处不在，其价值不言而喻。然而，随着数据量的爆炸性增长和流通范围的扩大，数据安全与隐私保护问题也日益凸显，成为制约数据价值最大化利用的重要瓶颈。因此，构建完善的数据治理体系，特别是强化数据安全与隐私保护，成为了时代发展的必然要求。

136 5 5

hannahc001

|

3月前

|

数据采集人工智能监控

|

博文

赌你一定想要！OpenDataLab首款大模型多模态标注平台Label-LLM正式开源

Label-LLM 是一款专为大模型训练设计的多模态文本对话标注工具，支持团队协作，让标注工作变得简单高效。它不仅涵盖丰富的任务类型，如回答采集、偏好收集和内容评估等，还支持多模态数据标注，包括图像、视频和音频。Label-LLM具备预标注载入功能，能大幅提升工作效率，并提供全方位的任务管理与可视化分析，确保标注质量。快来体验这款强大的标注平台吧！[部署文档](https://github.com/opendatalab/LabelLLM)

581 0 0

神秘海盗

|

3月前

|

机器学习/深度学习人工智能供应链

|

博文

AI在各行业的具体应用与未来展望

人工智能（Artificial Intelligence, AI）作为一项颠覆性技术，正在逐步改变我们的生活和工作方式。从语音助手到自动驾驶汽车，AI的应用已经深入到各个领域。本文将详细探讨AI在不同行业中的具体应用，以及未来可能的发展方向。

526 6 6

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

DataWorks售前咨询

视频文件格式：MOV与MP4格式的区别是什么？

Vector | Graph：蚂蚁首个开源Graph RAG框架设计解读

如何实现AI检测与反检测原理

YOLO11-seg分割如何训练自己的数据集（道路缺陷）

Ubuntu20.04安装软件报错：The following packages have unmet dependencies - 蓝易云

Docker环境Ubuntu20.04安装Python3.10版本

阿里云人工智能平台PAI论文入选OSDI '24

RAG系统的7个检索指标：信息检索任务准确性评估指南

Flume 快速入门【概述、安装、拦截器】

捕获抖音截图：如何用Puppeteer保存页面状态

大规模数据处理的最佳实践：使用 Dask 进行高效并行计算

Apache Flink 2.0-preview released

2024年新版阿里云服务器价格表整理汇总，阿里云服务器收费报价详情

【MATLAB】史上最全的11种数字信号滤波去噪算法全家桶

深度解读AI在数字档案馆中的创新应用：高效识别与智能档案管理

大数据在供应链管理中的具体应用案例

福利「Flink Forward Asia 2023 」视频合集！

使用PAI+LLaMA Factory 微调 Qwen2-VL 模型，搭建文旅领域知识问答机器人

PyTorch 中的动态图与静态图：理解它们的区别及其应用场景

阿里巴巴的通义千问大模型

【最佳实践】esrally：Elasticsearch 官方压测工具及运用详解

云上大数据分析平台：解锁数据价值，驱动智能决策新篇章

使用Python实现深度学习模型：智能天气预测与气候分析

异步数据加载技巧：实现 DataLoader 的最佳实践

高效数据加载与预处理：利用 DataLoader 优化训练流程

如何开发一个ERP系统：从零开始构建

国内可用的 Web Search API，可以平替Bing Search API

上海“爷叔”神话分析——爱在深秋

阿里云PAI大模型RAG对话系统最佳实践

开发专题 | 1 ：下载 huggingface 上模型的正确姿势

数据平衡与采样：使用 DataLoader 解决类别不平衡问题

PyTorch 与边缘计算：将深度学习模型部署到嵌入式设备

确保数据安全与隐私保护的数据治理最佳实践

大数据隐私保护策略：加密、脱敏与访问控制实践

生信分析代码之前还好好的,怎么就报错了 Error in Ops. data. frame(guide_loc, panel_loc) :'==' only defined for equally-sized data frames

Elasticsearch 既是搜索引擎又是数据库？真的有那么全能吗？

前端大模型入门（三）：编码(Tokenizer)和嵌入(Embedding)解析 - llm的输入

利用MaxCompute内建函数及UDTF转换json格式日志数据

大数据的应用场景

使用Python实现深度学习模型：智能环境监测与预警

从零开始构建自己的AI：一个初学者的机器学习教程

数字孪生核心技术揭秘（三）：倾斜摄影

小红书 API 接口使用指南：笔记详情数据接口的接入与使用

人工智能（AI）技术的发展史

什么是HDR？HDR与SDR的区别？

梯度&散度&旋度&峰度&偏度你分得清楚吗？驻点&鞍点你分得清楚吗？曲率&斜率你分得清楚吗？

数据治理：强化数据安全与隐私保护的基石

赌你一定想要！OpenDataLab首款大模型多模态标注平台Label-LLM正式开源

AI在各行业的具体应用与未来展望

大数据与机器学习

活跃用户

相关产品