|
5月前
|
人工智能 数据可视化 Java
|

性能提升 10 倍, DIFY 模式迁移至 Spring AI Alibaba 模式 零改造实现

将 Dify 应用迁移至 Spring AI Alibaba,可兼顾可视化开发效率与代码工程灵活性,显著提升系统性能与扩展能力,适用于复杂 AI 业务场景。

832 0
|
5月前
|
SQL 人工智能 数据可视化
|

开源AI BI可视化工具-WrenAI

Wren AI 是一款开源的 SQL AI 代理,支持数据、产品及业务团队通过聊天、直观界面和与 Excel、Google Sheets 的集成获取洞察。它结合大型语言模型(LLM)与检索增强生成(RAG)技术,助力用户高效处理复杂数据分析任务。

1020 5
|
6月前
|
人工智能 分布式计算 大数据
|

构建AI时代的大数据基础设施-MaxCompute多模态数据处理最佳实践

本文介绍了大数据与AI一体化架构的演进及其实现方法,重点探讨了Data+AI开发全生命周期的关键步骤。文章分析了大模型开发中的典型挑战,如数据管理混乱、开发效率低下和运维管理困难,并提出了解决方案。同时,详细描述了MaxCompute在构建AI时代数据基础设施中的作用,包括其强大的计算能力、调度能力和易用性特点。此外,还展示了MaxCompute在多模态数据处理中的应用实践以及具体客户案例,最后提供了体验MaxFrame解决方案的方式。

780 2
来自: 大数据计算 MaxCompute  版块
|
7月前
|
机器学习/深度学习 人工智能 算法
|

大型多模态推理模型技术演进综述:从模块化架构到原生推理能力的综合分析

该研究系统梳理了大型多模态推理模型(LMRMs)的技术发展,从早期模块化架构到统一的语言中心框架,提出原生LMRMs(N-LMRMs)的前沿概念。论文划分三个技术演进阶段及一个前瞻性范式,深入探讨关键挑战与评估基准,为构建复杂动态环境中的稳健AI系统提供理论框架。未来方向聚焦全模态泛化、深度推理与智能体行为,推动跨模态融合与自主交互能力的发展。

593 13
|
7月前
|
分布式计算 Hadoop 数据挖掘
|

“Hadoop整不明白,数据分析就白搭?”——教你用Hadoop撸清大数据处理那点事

“Hadoop整不明白,数据分析就白搭?”——教你用Hadoop撸清大数据处理那点事

390 34
|
7月前
|
自然语言处理 前端开发 API
|

10个常用的无头CMS(Headless CMS)

无头CMS是一种内容管理系统,它将前端和后端分离,只关注内容的创建和管理,而不处理呈现内容的前端界面。传统的CMS通常将内容管理和展示耦合在一起,即内容的创建、编辑和展示都依赖于特定的前端界面和模板。而无头CMS则将内容与前端逻辑完全解耦,提供了一种更加灵活的方式来处理内容。

1402 3
|
8月前
|
人工智能 Linux 定位技术
|

使用 Godot 开发游戏的通用流程

使用 Godot 开发游戏的通用流程

1005 3
|
8月前
|
数据采集 JavaScript 前端开发
|

Pyppeteer实战:基于Python的无头浏览器控制新选择

本文详细讲解了如何使用 Pyppeteer 结合爬虫代理高效采集小红书热点推荐信息。通过设置代理 IP、Cookie 和自定义 User-Agent,突破目标网站的反爬机制,实现标题、内容和评论的数据提取。文章结合代码示例与技术关系图谱,清晰展示从数据采集到分析的全流程,为复杂网站的数据获取提供参考。读者可在此基础上优化异常处理、并发抓取等功能,提升爬虫性能。

581 8
|
8月前
|
机器学习/深度学习 数据可视化 算法
|

Ray Flow Insight:让分布式系统调试不再"黑盒"

作为Ray社区的积极贡献者,我们希望将这些实践中沉淀的技术能力回馈给社区,推动Ray生态在实际场景中的应用深度和广度。因此,2024年底我们做了激活AntRay开源社区的决策,AntRay会始终保持与官方Ray版本强同步(即AntRay会紧随Ray官方社区版本而发布),内部Feature亦会加速推向AntRay以开源研发模式及时反哺内部业务,同时会将社区关注的Feature提交至Ray官方社区,实现内外部引擎双向价值流动。后续我们会以系列文章形式同步蚂蚁推向开源的新特性,本文将重点介绍:Ray Flow Insight —— 让分布式系统调试不再"黑盒"。

1161 5
|
9月前
|
机器学习/深度学习 JavaScript PyTorch
|

9个主流GAN损失函数的数学原理和Pytorch代码实现:从经典模型到现代变体

生成对抗网络(GAN)的训练效果高度依赖于损失函数的选择。本文介绍了经典GAN损失函数理论,并用PyTorch实现多种变体,包括原始GAN、LS-GAN、WGAN及WGAN-GP等。通过分析其原理与优劣,如LS-GAN提升训练稳定性、WGAN-GP改善图像质量,展示了不同场景下损失函数的设计思路。代码实现覆盖生成器与判别器的核心逻辑,为实际应用提供了重要参考。未来可探索组合优化与自适应设计以提升性能。

774 7
|
10月前
|
人工智能 自然语言处理 API
|

解锁 DeepSeek API 接口:构建智能应用的技术密钥

在数字化时代,智能应用蓬勃发展,DeepSeek API 作为关键技术之一,提供了强大的自然语言处理能力。本文详细介绍 DeepSeek API,并通过 Python 请求示例帮助开发者快速上手。DeepSeek API 支持文本生成、问答系统、情感分析和文本分类等功能,具备高度灵活性和可扩展性,适用于多种场景。示例展示了如何使用 Python 调用 API 生成关于“人工智能在医疗领域的应用”的短文。供稿者:Taobaoapi2014。

770 2
|
11月前
|
机器学习/深度学习 人工智能 NoSQL
|

记忆层增强的 Transformer 架构:通过可训练键值存储提升 LLM 性能的创新方法

Meta研究团队开发的记忆层技术通过替换Transformer中的前馈网络(FFN),显著提升了大语言模型的性能。记忆层使用可训练的固定键值对,规模达百万级别,仅计算最相似的前k个键值,优化了计算效率。实验显示,记忆层使模型在事实准确性上提升超100%,且在代码生成和通用知识领域表现优异,媲美4倍计算资源训练的传统模型。这一创新对下一代AI架构的发展具有重要意义。

603 11
|
11月前
|
存储 数据采集 分布式计算
|

大数据是什么?用浅显的语言揭开神秘面纱

大数据是什么?用浅显的语言揭开神秘面纱

754 11
|
12月前
|
存储 SQL 大数据
|

从数据存储到分析:构建高效开源数据湖仓解决方案

今年开源大数据迈向湖仓一体(Lake House)时代,重点介绍Open Lake解决方案。该方案基于云原生架构,兼容开源生态,提供开箱即用的数据湖仓产品。其核心优势在于统一数据管理和存储,支持实时与批处理分析,打破多计算产品的数据壁垒。通过阿里云的Data Lake Formation和Apache Paimon等技术,用户可高效搭建、管理并分析大规模数据,实现BI和AI融合,满足多样化数据分析需求。

1002 7
来自: 实时计算 Flink  版块
|
机器学习/深度学习 PyTorch 算法框架/工具
|

数据平衡与采样:使用 DataLoader 解决类别不平衡问题

【8月更文第29天】在机器学习项目中,类别不平衡问题非常常见,特别是在二分类或多分类任务中。当数据集中某个类别的样本远少于其他类别时,模型可能会偏向于预测样本数较多的类别,导致少数类别的预测性能较差。为了解决这个问题,可以采用不同的策略来平衡数据集,包括过采样(oversampling)、欠采样(undersampling)以及合成样本生成等方法。本文将介绍如何利用 PyTorch 的 `DataLoader` 来处理类别不平衡问题,并给出具体的代码示例。

2880 2
|
机器学习/深度学习 人工智能 分布式计算
|

阿里云人工智能平台PAI论文入选OSDI '24

阿里云人工智能平台PAI的论文《Llumnix: Dynamic Scheduling for Large Language Model Serving》被OSDI '24录用。论文通过对大语言模型(LLM)推理请求的动态调度,大幅提升了推理服务质量和性价比。

1383 11
来自: 人工智能平台PAI  版块
|
SQL HIVE
|

【Hive SQL 每日一题】环比增长率、环比增长率、复合增长率

该文介绍了环比增长率、同比增长率和复合增长率的概念及计算公式,并提供了SQL代码示例来计算商品的月度增长率。环比增长率是相邻两期数据的增长率,同比增长率是与去年同期相比的增长率,复合增长率则是连续时间段内平均增长的速率。文章还包含了一组销售数据用于演示如何运用这些增长率进行计算。

1132 4
|
存储 Linux 虚拟化
|

Hyper-V 安装 CentOS 8.5

本文档介绍了在 Windows 10 上使用 Hyper-V 安装 CentOS 8.5.2111 的详细步骤

818 3
|
机器学习/深度学习 数据挖掘 PyTorch
|

使用Python实现长短时记忆网络(LSTM)的博客教程

使用Python实现长短时记忆网络(LSTM)的博客教程

2022 0
|
机器学习/深度学习 PyTorch 算法框架/工具
|

归一化技术比较研究:Batch Norm, Layer Norm, Group Norm

本文将使用合成数据集对三种归一化技术进行比较,并在每种配置下分别训练模型。记录训练损失,并比较模型的性能。

1125 2
|
SQL 存储 人工智能
|

Flink 在蚂蚁实时特征平台的深度应用

本文整理自蚂蚁集团高级技术专家赵亮星云,在 Flink Forward Asia 2023 AI 特征工程专场的分享。

2326 3
来自: 实时计算 Flink  版块
|
机器学习/深度学习 资源调度 数据可视化
|

Mamba详细介绍和RNN、Transformer的架构可视化对比

Transformer体系结构已经成为大型语言模型(llm)成功的主要组成部分。为了进一步改进llm,人们正在研发可能优于Transformer体系结构的新体系结构。其中一种方法是Mamba(一种状态空间模型)。

1350 2
|
算法 自动驾驶 开发者
|

Cityscapes数据集(智能驾驶场景的语义分割)

面向智能驾驶(辅助驾驶、自动驾驶)场景下的语义分割任务,由于非结构化场景的复杂性,是一个非常具有挑战性的任务,所以有许多研究者和研究机构公开了很多相关的数据集推动语义分割领域的发展。本文主要介绍Cityscapes数据集。

1458 0
|
数据采集 存储 人工智能
|

AI 模型:数据收集和清洗

AI 模型:数据收集和清洗

1356 2
|
机器学习/深度学习 存储 算法
|

机器学习面试笔试知识点-决策树、随机森林、梯度提升决策树(GBDT)、XGBoost、LightGBM、CatBoost

机器学习面试笔试知识点-决策树、随机森林、梯度提升决策树(GBDT)、XGBoost、LightGBM、CatBoost

1385 0
|
机器学习/深度学习 算法 决策智能
|

选址问题-精确重心法和遗传算法

选址问题-精确重心法和遗传算法

2384 0
|
JSON JavaScript 数据可视化
|

可视化JSON数据工具推荐:JSON Viewer Pro和JSONGrid

本文介绍了两款可视化JSON数据的工具:JSON Viewer Pro和JSONGrid。它们都提供了丰富的功能和用户友好的界面,使用户能够更轻松地理解和处理JSON格式的数据。这些功能包括查看和分析、编辑和修改、格式化和美化、折叠和展开、高亮和搜索、排序和过滤、导入和导出等。这些工具对于开发人员、数据分析师和任何需要处理JSON的人都非常实用。

4502 0
|
机器学习/深度学习 测试技术
|

机器学习系列 | 01:多类别分类任务(multi-class)中为何precision,recall和F1相等?

在 multi-class 分类任务中,如果使用 micro 类指标,那么 micro-precision, micro-recall和micro-F1值都是相等的。本文主要针对这个现象进行解释。

1591 0
|
PyTorch 算法框架/工具 Python
|

【Pycharm配置】在Pycharm中配置Jupyter环境

在Pycharm中使用Jupyter,并配置自定义的Conda环境

3935 0
|
机器学习/深度学习 数据采集 自然语言处理
|

【Deep Learning A情感文本分类实战】2023 Pytorch+Bert、Roberta+TextCNN、BiLstm、Lstm等实现IMDB情感文本分类完整项目(项目已开源)

亮点:代码开源+结构清晰+准确率高+保姆级解析 🍊本项目使用Pytorch框架,使用上游语言模型+下游网络模型的结构实现IMDB情感分析 🍊语言模型可选择Bert、Roberta 🍊神经网络模型可选择BiLstm、LSTM、TextCNN、Rnn、Gru、Fnn共6种 🍊语言模型和网络模型扩展性较好,方便读者自己对模型进行修改

1493 0
|
存储 分布式计算 Kubernetes
|

Spark+Celeborn:更快,更稳,更弹性

本文整理自阿里云 EMR Spark 团队的周克勇(一锤),在 Spark&DS Meetup 的分享。

69677 0
|
消息中间件 存储 SQL
|

使用Databricks+Confluent进行实时数据采集入湖和分析【Databricks 数据洞察公开课】

本文介绍网约车模拟数据从产生,发布到流数据服务 Confluent,通过Databricks Structured Streaming进行实时数据处理,存储到LakeHouse,并使用spark和spark sql进行分析的应用实践。

1383 0
|
监控 Oracle 关系型数据库
|

Flink CDC 系列 - 实时抽取 Oracle 数据,排雷和调优实践

分享对 Oracle 的实时数据捕获以及性能调优过程中的一些关键细节。

11111 0
来自: 实时计算 Flink  版块
|
1月前
|
搜索推荐 JavaScript 关系型数据库
|

基于python大数据的高考志愿推荐系统

本研究基于数据挖掘技术,结合Django、Vue.js与MySQL等技术构建高考志愿推荐系统,整合高校信息与历年录取数据,通过算法模型为学生提供个性化、科学化的志愿填报建议,提升决策准确性与教育资源配置效率。

206 12
|
3月前
|
人工智能 自然语言处理 IDE
|

模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验

通义千问 AI 编程大模型 Qwen3-Coder 正式开源,阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型,并可在交互式建模环境中使用 Qwen3-Coder 模型。

770 109
来自: 人工智能平台PAI  版块
|
5月前
|
SQL DataWorks 监控
|

免费玩转阿里云DataWorks!智能Copilot+用户画像实战,开发效率翻倍攻略

DataWorks是阿里云推出的一站式大数据开发与治理平台,具备数据集成、开发、管理、安全及智能监控等功能,支持多行业数据中台建设。其可视化界面与强大调度能力,助力企业高效完成数据处理与分析。

874 0
|
6月前
|
机器学习/深度学习 数据采集 算法
|

Python AutoML框架选型攻略:7个工具性能对比与应用指南

本文系统介绍了主流Python AutoML库的技术特点与适用场景,涵盖AutoGluon、PyCaret、TPOT、Auto-sklearn、H2O AutoML及AutoKeras等工具,帮助开发者根据项目需求高效选择自动化机器学习方案。

708 1
|
6月前
|
IDE 开发工具 开发者
|

使用DevEcoStudio 开发、编译鸿蒙 NEXT_APP 以及使用中文插件

# 使用DevEcoStudio 开发、编译鸿蒙 NEXT_APP 以及使用中文插件 #鸿蒙开发工具 #DevEco Studio

577 1
|
7月前
|
自动驾驶 5G 网络性能优化
|

5G标准化背后的江湖:技术规范如何塑造未来通信

5G标准化背后的江湖:技术规范如何塑造未来通信

462 19
|
9月前
|
机器学习/深度学习 开发框架 .NET
|

强化学习:Markov决策过程(MDP)——手把手教你入门强化学习(二)

本文是“手把手教你入门强化学习”系列的第二篇,重点讲解了强化学习的核心数学模型——Markov决策过程(MDP)。文章从马尔可夫性质出发,逐步引入马尔可夫过程、马尔可夫奖励过程,最终深入到马尔可夫决策过程,详细解析了状态转移、奖励机制、价值函数及贝尔曼方程等关键概念。同时,文中还介绍了策略函数、最优价值函数等内容,并指出求解强化学习问题的关键在于寻找最优策略。通过理论推导与实践结合的方式,帮助读者更好地理解强化学习基础原理。

404 4
来自: 人工智能平台PAI  版块
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
|

Logic-RL: 小模型也能强推理,通过基于规则的强化学习提升大语言模型结构化推理能力

这篇论文探讨了基于规则的强化学习(RL)如何提升大型语言模型(LLM)的高级推理能力。通过在程序生成的逻辑谜题上训练并强制执行结构化思考,即使是较小的模型也能开发出可转移的问题解决策略。研究引入了多层次奖励系统,包括格式、答案、推理一致性和反思奖励,以引导模型形成严谨的推理过程。实验结果表明,这种方法不仅提高了模型在逻辑任务上的性能,还在数学问题解决、代码调试等领域展现出显著的泛化能力。此外,该方法在较小模型上实现了与大模型相当甚至更优的推理表现,为资源受限环境下的高效推理提供了新途径。

981 0
|
11月前
|
供应链 Go 区块链
|

基于区块链技术实现供应链的全程可追溯性

基于区块链技术实现供应链的全程可追溯性

665 17
|
机器学习/深度学习 算法 大数据
|

【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛 选题分析

2024“华为杯”数学建模竞赛,对ABCDEF每个题进行详细的分析,涵盖风电场功率优化、WLAN网络吞吐量、磁性元件损耗建模、地理环境问题、高速公路应急车道启用和X射线脉冲星建模等多领域问题,解析了问题类型、专业和技能的需要。

5112 22
|
机器学习/深度学习 人工智能 算法
|

AI入门必读:Java实现常见AI算法及实际应用,有两下子!

本文全面介绍了人工智能(AI)的基础知识、操作教程、算法实现及其在实际项目中的应用。首先,从AI的概念出发,解释了AI如何使机器具备学习、思考、决策和交流的能力,并列举了日常生活中的常见应用场景,如手机助手、推荐系统、自动驾驶等。接着,详细介绍了AI在提高效率、增强用户体验、促进技术创新和解决复杂问题等方面的显著作用,同时展望了AI的未来发展趋势,包括自我学习能力的提升、人机协作的增强、伦理法规的完善以及行业垂直化应用的拓展等...

1814 3
|
机器学习/深度学习 Python
|

sigmoid函数

本文探讨了高等数学中的sigmoid函数,它在神经网络中的应用,特别是在二分类问题的输出层。sigmoid函数公式为 $\frac{1}{1 + e^{-x}}$,其导数为 $sigmoid(x)\cdot(1-sigmoid(x))$。文章还展示了sigmoid函数的图像,并提供了一个使用Python绘制函数及其导数的代码示例。

1247 2
|
消息中间件 关系型数据库 MySQL
|

Maxwell 概述、安装、数据同步【一篇搞定】!

Maxwell 是一个由 Zendesk 开源的用于 MySQL 数据库实时数据捕获和同步的工具,支持多种数据库系统,以 JSON 格式输出变更数据。它实时监控数据库中的更新,将变化传递给其他系统,常用于实时数据管道、数据仓库和事件驱动架构。Maxwell 具有实时性、可配置性和高性能等特点。其工作流程包括 Binlog 解析、数据解析、重构、发布到消息队列(如 Kafka)以及事件处理。安装时需注意 JDK 版本,并配置 MySQL、Zookeeper 和 Kafka。此外,Maxwell 支持定向监听特定库表,并能进行历史和增量数据同步。

2717 1
|
文字识别 测试技术 数据安全/隐私保护
|

案例:批量区域识别内容重命名,批量识别扫描PDF区域内容识别重命名,批量识别图片区域内容重命名图片修改图片名字,批量识别图片区域文字并重命名,批量图片部分识别内容重命文件,PDF区域内容提取重命名

该内容介绍了如何使用区域识别重命名软件高效整理图片,例如将图片按时间及内容重命名,适用于简历、单据等识别。文中提供了软件下载链接(百度云盘和腾讯网盘),并列出软件使用的几个关键条件,包括文字清晰、文件名长度限制等。示例展示了银行单据和公司工作单据的识别情况。文章还提及OCR技术在图片文字识别中的应用,强调了识别率、误识率和用户友好性等评估指标。如有类似需求,读者可留言或下载软件测试,并提供图片以获取定制的识别方案。

873 2
来自: 数据可视化DataV  版块
|
自然语言处理 搜索推荐 机器人
|

阿里巴巴的通义千问大模型

阿里巴巴通义千问是基于Transformer的大型语言模型,预训练于多样化数据集,支持18亿至720亿参数规模。在多模态英文任务中表现出色,且具备多语言对话及图片文本识别能力。可应用于搜索引擎、问答系统和对话交互,提供智能体验。然而,模型在逻辑题和指令理解上存在不足,需在特定领域进行优化。

4787 1
|
机器学习/深度学习
|

通过学习曲线识别过拟合和欠拟合

本文介绍了如何利用学习曲线识别机器学习模型中的过拟合和欠拟合问题。过拟合发生时,模型过于复杂,对训练数据过拟合,导致测试集表现不佳;欠拟合则是因为模型太简单,无法捕获数据模式,训练和测试集得分均低。学习曲线通过绘制训练和验证损失随训练样本增加的情况来辅助判断。对于过拟合,学习曲线显示训练损失低且随样本增加上升,验证损失降低但不趋近训练损失;欠拟合时,训练和验证损失都高,且两者随着样本增加缓慢改善。通过学习曲线,我们可以调整模型复杂度或采用正则化等方法优化模型泛化能力。

651 0
|
消息中间件 Docker 索引
|

【一文解读】阿里自研开源核心搜索引擎 Havenask简介及发展历史

本次分享内容为Havenask的简介及发展历史,由下面五个部分组成(Havenask整体介绍、名词解释、架构、代码结构、编译与部署),希望可以帮助大家更好了解和使用Havenask。

73128 0
来自: 智能搜索推荐  版块

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

0
今日
67713
内容
128
活动
439500
关注
你好!
登录掌握更多精彩内容

活跃用户

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务