|
存储 SQL 人工智能
|

Apache Flink 2.0:Streaming into the Future

本文整理自阿里云智能高级技术专家宋辛童、资深技术专家梅源和高级技术专家李麟在 Flink Forward Asia 2024 主会场的分享。三位专家详细介绍了 Flink 2.0 的四大技术方向:Streaming、Stream-Batch Unification、Streaming Lakehouse 和 AI。主要内容包括 Flink 2.0 的存算分离云原生化、流批一体的 Materialized Table、Flink 与 Paimon 的深度集成,以及 Flink 在 AI 领域的应用。

1597 13
来自: 实时计算 Flink  版块
|
人工智能 文字识别 API
|

OpenSearch & AI搜索开放平台,实现0代码图片搜索!

本文主要介绍了如何利用阿里云的 OpenSearch 和 AI 搜索开放平台来构建一个无需编写代码就能完成的图片搜索功能。

573 12
zdl
|
消息中间件 运维 大数据
|

大数据实时计算产品的对比测评:实时计算Flink版 VS 自建Flink集群

本文介绍了实时计算Flink版与自建Flink集群的对比,涵盖部署成本、性能表现、易用性和企业级能力等方面。实时计算Flink版作为全托管服务,显著降低了运维成本,提供了强大的集成能力和弹性扩展,特别适合中小型团队和业务波动大的场景。文中还提出了改进建议,并探讨了与其他产品的联动可能性。总结指出,实时计算Flink版在简化运维、降低成本和提升易用性方面表现出色,是大数据实时计算的优选方案。

646 56
来自: 实时计算 Flink  版块
|
机器学习/深度学习 自然语言处理 C++
|

TSMamba:基于Mamba架构的高效时间序列预测基础模型

TSMamba通过其创新的架构设计和训练策略,成功解决了传统时间序列预测模型面临的多个关键问题。

1069 4
|
机器学习/深度学习 人工智能 自然语言处理
|

【EMNLP2024】基于多轮课程学习的大语言模型蒸馏算法 TAPIR

阿里云人工智能平台 PAI 与复旦大学王鹏教授团队合作,在自然语言处理顶级会议 EMNLP 2024 上发表论文《Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning》。

851 8
来自: 人工智能平台PAI  版块
|
人工智能 搜索推荐
|

写歌词的技巧和方法:塑造完美歌词结构的艺术,妙笔生词AI智能写歌词软件

歌词是音乐的灵魂,其结构艺术至关重要。开头需引人入胜,主体部分无论是叙事还是抒情,都应层次分明、情感丰富,结尾则需升华或留白,给人以深刻印象。《妙笔生词智能写歌词软件》提供多种AI辅助功能,助你轻松创作完美歌词,成为音乐创作的得力助手。

597 6
|
机器学习/深度学习 弹性计算 人工智能
|

大模型进阶微调篇(三):微调GPT2大模型实战

本文详细介绍了如何在普通个人电脑上微调GPT2大模型,包括环境配置、代码实现和技术要点。通过合理设置训练参数和优化代码,即使在无独显的设备上也能完成微调,耗时约14小时。文章还涵盖了GPT-2的简介、数据集处理、自定义进度条回调等内容,适合初学者参考。

2814 6
来自: 人工智能平台PAI  版块
|
IDE Java 编译器
|

Java“找不到符号” 错误怎么查找解决

“找不到符号”是Java编程中常见的编译错误,通常表明代码试图访问未声明或不可见的符号(如类、方法或变量)。解决此问题需检查拼写、导入包是否正确及作用域是否合适。确保使用正确的类路径和库,可有效避免此类错误。若问题依旧,查阅官方文档或使用调试工具定位错误亦为良策。

7301 10
|
人工智能 自然语言处理 搜索推荐
|

【云栖实录】大模型驱动,开源融合的AI搜索产品发布

本文介绍了2024云栖大会上,阿里云发布的年度AI搜索产品详情。

970 8
来自: 智能搜索推荐  版块
|
移动开发 JavaScript 前端开发
|

HTML5 Audio(音频)详解

HTML5 通过 `<audio>` 标签简化了网页音频嵌入。本文详细介绍其基本语法与常用属性(如 `controls`、`autoplay`),并通过示例代码展示如何使用 JavaScript 控制音频播放及处理音频事件。此外,还提供了关于浏览器兼容性、自适应设计及无障碍访问的注意事项,助您优化音频体验。

1377 3
|
人工智能 固态存储 调度
|

【Paper Reading】结合 NanoFlow 研究,优化大语言模型服务效率的探索

本文将深入探讨 NanoFlow 的关键思路和核心技术,分析 NanoFlow 与 阿里云人工智能平台 PAI 在实际工作中应用的潜力。

739 7
来自: 人工智能平台PAI  版块
|
存储 SQL 大数据
|

用实时计算释放当下企业大数据潜能

本文整理自阿里云高级产品解决方案架构师王启华(敖北)老师在 Flink Forward Asia 2023 中闭门会的分享。

787 8
来自: 实时计算 Flink  版块
|
机器学习/深度学习 开发工具 git
|

Jupyter 与版本控制系统的集成

【8月更文第29天】在数据科学和机器学习项目中,Jupyter Notebook 提供了一个强大的环境来编写代码、执行实验和记录结果。然而,随着项目的复杂度增加以及团队规模的扩大,版本控制变得至关重要。Git 是最常用的版本控制系统之一,它可以帮助团队协作、追踪变更历史、管理分支等。本文将探讨如何将 Git 与 Jupyter Notebook 集成起来,从而更好地管理代码和文档。

620 0
|
存储 负载均衡 并行计算
|

Dask性能调优指南:从单机到多节点的最佳配置

【8月更文第29天】Dask 是一个灵活的并行计算库,适用于数组、数据帧和列表等数据结构,能够在单个机器上高效运行,也可以扩展到分布式集群。由于其灵活性和可扩展性,Dask 成为了数据科学家和工程师们处理大规模数据集的理想选择。本文将详细介绍如何针对不同的硬件环境优化 Dask 的性能,包括单机和多节点集群环境。

1592 8
|
机器学习/深度学习 存储 算法
|

强化学习实战:基于 PyTorch 的环境搭建与算法实现

【8月更文第29天】强化学习是机器学习的一个重要分支,它让智能体通过与环境交互来学习策略,以最大化长期奖励。本文将介绍如何使用PyTorch实现两种经典的强化学习算法——Deep Q-Network (DQN) 和 Actor-Critic Algorithm with Asynchronous Advantage (A3C)。我们将从环境搭建开始,逐步实现算法的核心部分,并给出完整的代码示例。

1745 1
|
API 开发者
|

淘宝官方商品、交易、订单、物流、插旗接口接入说明

这段信息介绍了淘宝店铺管理中三个重要接口的功能与应用场景:订单列表接口、订单详情接口和订单物流接口。订单列表接口如`taobao.trades.sold.get`及`taobao.topats.trades.sold.get`用于获取店铺订单概览,便于商家进行初步管理和统计。订单详情接口如`taobao.trade.fullinfo.get`及`taobao.topats.trades.fullinfo.get`提供单个订单详尽信息,支持发货准备和服务售后。订单物流接口则帮助追踪订单物流状态,确保配送顺利。使用这些接口需遵循淘宝开放平台规定,合理安排调用频率,并关注官方文档更新。

619 1
|
前端开发 算法 安全
|

软件开发过程详解

【8月更文第20天】在当今数字化时代,软件开发已成为企业和组织获取竞争优势的关键。一个高效的软件开发过程不仅能够确保最终产品的质量,还能有效控制成本和时间。本文将详细介绍软件开发的各个阶段,包括需求分析、设计、编码与实现、测试与质量保证以及维护与升级,并通过实例帮助读者更好地理解这些概念。

1390 0
|
SQL 分布式计算 DataWorks
|

DataWorks操作报错合集之如何解决datax同步任务时报错ODPS-0410042:Invalid signature value

DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。

653 0
|
存储 分布式计算 DataWorks
|

实时数仓 Hologres产品使用合集之如何让holoweb和dataworks能够正常访问

实时数仓Hologres是阿里云推出的一款高性能、实时分析的数据库服务,专为大数据分析和复杂查询场景设计。使用Hologres,企业能够打破传统数据仓库的延迟瓶颈,实现数据到决策的无缝衔接,加速业务创新和响应速度。以下是Hologres产品的一些典型使用场景合集。

275 0
来自: 实时数仓 Hologres  版块
|
边缘计算 人工智能 监控
|

边缘计算与AI结合的场景案例研究

【8月更文第17天】随着物联网(IoT)设备数量的爆炸性增长,对实时数据处理的需求也随之增加。传统的云计算模型在处理这些数据时可能会遇到延迟问题,尤其是在需要即时响应的应用中。边缘计算作为一种新兴的技术趋势,旨在通过将计算资源更靠近数据源来解决这个问题。本文将探讨如何将人工智能(AI)技术与边缘计算结合,以实现高效的实时数据分析和决策制定。

1457 1
|
应用服务中间件 Shell 网络安全
|

nginx安装提示 libssl.so.3: cannot open shared object file: No

【8月更文挑战第1天】### 原因 未将安装的ssl中的`libssl.so.3`链接到`/usr/lib`导致缺失。 ### 解决方案 1. 检查openssl是否已安装,若为低版本则需重装。 ```sh whereis openssl

6714 6
|
存储 人工智能 自然语言处理
|

多模态RAG:三步构建图文并茂的智能问答、电商导购助手

本文介绍了如何使用OpenSearch LLM智能问答版,三步搭建一站式多模态RAG系统。

2220 9
来自: 智能搜索推荐  版块
|
存储 机器学习/深度学习 大数据
|

参与开源大数据Workshop·杭州站,共探企业湖仓演进实践

Apache Flink 诚邀您参加 7 月 27 日在杭州举办的阿里云开源大数据 Workshop,了解流式湖仓、湖仓一体架构的最近演进方向,共探企业云上湖仓实践案例。

361 12
来自: 实时计算 Flink  版块
|
分布式计算 大数据 Shell
|

MaxCompute产品使用合集之odps shell如何将ech变量的结果集合写入文件,并且指定服务器的位置

MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。

228 10
来自: 大数据计算 MaxCompute  版块
|
C++
|

C++一分钟之-文件系统库(fs)的使用

【7月更文挑战第18天】C++17的`<filesystem>`库简化了文件系统操作,包括`path`类和`directory_iterator`。`path`用于表示路径,`directory_iterator`用于遍历目录。常用功能有路径拼接、分解,创建/删除目录,以及遍历。错误处理、跨平台兼容性和性能是使用时需考虑的关键点。示例代码展示了如何初始化`path`、创建目录、删除目录以及处理异常。

407 1
|
机器学习/深度学习 算法 数据挖掘
|

基于改进K-means的网络数据聚类算法matlab仿真

**摘要:** K-means聚类算法分析,利用MATLAB2022a进行实现。算法基于最小化误差平方和,优点在于简单快速,适合大数据集,但易受初始值影响。文中探讨了该依赖性并通过实验展示了随机初始值对结果的敏感性。针对传统算法的局限,提出改进版解决孤点影响和K值选择问题。代码中遍历不同K值,计算距离代价,寻找最优聚类数。最终应用改进后的K-means进行聚类分析。

347 10
|
机器学习/深度学习 数据采集 算法
|

Python实现GBDT(梯度提升树)分类模型(GradientBoostingClassifier算法)并应用网格搜索算法寻找最优参数项目实战

Python实现GBDT(梯度提升树)分类模型(GradientBoostingClassifier算法)并应用网格搜索算法寻找最优参数项目实战

1007 3
来自: 人工智能平台PAI  版块
|
算法 Java C++
|

《经典图论算法》迪杰斯特拉算法(Dijkstra)

这个是求最短路径的迪杰斯特拉算法,另外我还写了50多种《经典图论算法》,每种都使用C++和Java两种语言实现,熟练掌握之后无论是参加蓝桥杯,信奥赛,还是其他比赛,或者是面试,都能轻松应对。

740 0
|
前端开发 Java 关系型数据库
|

「架构」分层架构

**分层架构**是软件设计的关键模式,它将应用划分为独立层,如表示层、业务逻辑层和数据访问层,强调**单一职责**和**松耦合**。优点包括**代码组织**、**技术多样性**、**团队协作**和**可扩展性**,但可能带来**性能影响**和**设计复杂性**。通过定义清晰接口和合理划分层次来管理。常用技术栈涉及Web前端、后端框架、数据库、ORM和通信协议等。

502 0
|
自然语言处理 算法 搜索推荐
|

字符串相似度算法完全指南:编辑、令牌与序列三类算法的全面解析与深入分析

在自然语言处理领域,人们经常需要比较字符串,这些字符串可能是单词、句子、段落甚至是整个文档。如何快速判断两个单词或句子是否相似,或者相似度是好还是差。这类似于我们使用手机打错一个词,但手机会建议正确的词来修正它,那么这种如何判断字符串相似度呢?本文将详细介绍这个问题。

1036 1
|
机器学习/深度学习 编解码 数据可视化
|

图神经网络版本的Kolmogorov Arnold(KAN)代码实现和效果对比

目前我们看到有很多使用KAN替代MLP的实验,但是目前来说对于图神经网络来说还没有类似的实验,今天我们就来使用KAN创建一个图神经网络Graph Kolmogorov Arnold(GKAN),来测试下KAN是否可以在图神经网络方面有所作为。

613 1
|
分布式计算 DataWorks 调度
|

DataWorks操作报错合集之DataX访问MaxCompute(原ODPS)突然无法读取到字段数据,是什么导致的

DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。

415 0
|
存储 SQL 消息中间件
|

Hologres+Flink企业级实时数仓核心能力介绍

通过Hologres+Flink构建易用、统一的企业级实时数仓。

103478 30
来自: 实时数仓 Hologres  版块
|
Python
|

Pycharm为Python项目配置环境不生效,解决办法

在PyCharm中,项目依赖配置更改后未生效。解决步骤包括:1) 查找`C:\Users\username\AppData\Roaming\JetBrains\PyCharm2022.2\options\jdk.table.xml`,2) 删除`<jdk></jdk>`标签内的旧配置内容,然后重启PyCharm以应用新目录。

1624 0
|
分布式计算 大数据 数据库连接
|

MaxCompute操作报错合集之遇到报错信息 "SERVER_INTERNAL_ERROR" ,该怎么办

MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。

417 6
来自: 大数据计算 MaxCompute  版块
|
SQL 资源调度 数据库连接
|

Hive怎么调整优化Tez引擎的查询?在Tez上优化Hive查询的指南

在Tez上优化Hive查询,包括配置参数调整、理解并行化机制以及容器管理。关键步骤包括YARN调度器配置、安全阀设置、识别性能瓶颈(如mapper/reducer任务和连接操作),理解Tez如何动态调整mapper和reducer数量。例如,`tez.grouping.max-size` 影响mapper数量,`hive.exec.reducers.bytes.per.reducer` 控制reducer数量。调整并发和容器复用参数如`hive.server2.tez.sessions.per.default.queue` 和 `tez.am.container.reuse.enabled`

1576 0
|
人工智能 Python Shell
|

CodeFormer——AI驱动的面部图像修复与增强

CodeFormer是由南洋理工大学和商汤科技联合研发的AI人脸复原模型,结合VQGAN和Transformer技术,能从模糊或马赛克图像中生成清晰图像。它具备老照片修复、黑白照片彩色化、马赛克修复和低码率视频增强等功能。安装过程涉及miniconda3、Python环境配置、相关库的安装及模型训练数据下载。在测试视频增强时,虽然初期遇到ffmpeg导入问题,但通过安装ffmpeg-python得以解决,不过CPU占用率高。此外,还展示了对图片进行增强的命令行操作及结果示例。

1427 1
|
机器学习/深度学习 存储 编解码
|

Tiny Time Mixers (TTM)轻量级时间序列基础模型:无需注意力机制,并且在零样本预测方面表现出色

IBM研究人员提出Tiny Time Mixers (TTM),这是一个轻量级、基于mlp的TS模型,参数量小于1M,在M4数据集上表现优于大型SOTA模型,且具备优秀的零样本预测能力。TTM无注意力机制,利用TSMixer进行多级建模,自适应补丁和频率前缀调整等创新特性提升性能。预训练和微调阶段各有独特设计,预训练仅用单变量序列,微调时学习多变量依赖。TTM在某些任务中证明了小模型的优越性,且模型已开源。

991 1
|
自然语言处理 监控 并行计算
|

Qwen2大模型微调入门实战(完整代码)

该教程介绍了如何使用Qwen2,一个由阿里云通义实验室研发的开源大语言模型,进行指令微调以实现文本分类。微调是通过在(指令,输出)数据集上训练来改善LLMs理解人类指令的能力。教程中,使用Qwen2-1.5B-Instruct模型在zh_cls_fudan_news数据集上进行微调,并借助SwanLab进行监控和可视化。环境要求Python 3.8+和英伟达显卡。步骤包括安装所需库、准备数据、加载模型、配置训练可视化工具及运行完整代码。训练完成后,展示了一些示例以验证模型性能。相关资源链接也一并提供。

10770 5
|
SQL 关系型数据库 MySQL
|

Hive 表注释乱码解决

Hive元数据在MySQL默认使用`latin1`字符集导致注释乱码。可通过修改MySQL配置文件`/etc/my.cnf`,在`[mysqld]`和末尾添加`character-set-server=utf8`等设置,重启MySQL。然后在Hive数据库中调整表字段、分区字段、索引注释的字符集。注意,这仅对新表生效。测试创建带注释的Hive表,问题解决。

632 0
|
监控 Ubuntu 测试技术
|

Ubuntu 20.04 安装部署 TiDB DM v7.3.0 集群【全网独家】

在Ubuntu上搭建TiDB DM集群的详细步骤分享,作者因工作需求克服了部署难题。测试环境包括3台Ubuntu 20.04主机:1台master和2台worker。首先,确保所有主机安装TiDB单机环境,使用TiUP工具下载并部署。接着,设置主机间免密登录,安装必要组件如sudo、systemd、iproute2和DM组件。配置文件可通过在线或离线方式获取。部署时,根据需求编辑`topology.yaml`,然后使用`tiup dm deploy`命令安装。最后,启动集群并检查节点状态,确认DM集群正常运行。注意,解决内存不足和端口连通性问题以避免错误。

957 3
|
SQL 分布式计算 Java
|

IDEA 打包 Spark 项目 POM 文件依赖

这是一个 Maven POM 示例,用于构建一个使用 Spark 与 Hive 的项目,目标是将数据从 Hive 导入 ClickHouse。POM 文件设置了 Scala 和 Spark 的依赖,包括 `spark-core_2.12`, `spark-sql_2.12`, 和 `spark-hive_2.12`。`maven-assembly-plugin` 插件用于打包,生成包含依赖的和不含依赖的两种 JAR 包。`scope` 说明了依赖的使用范围,如 `compile`(默认),`provided`,`runtime`,`test` 和 `system`。

502 0
|
机器学习/深度学习 人工智能 自然语言处理
|

2024年5月大语言模型论文推荐:模型优化、缩放到推理、基准测试和增强性能

本文汇总了2024年5月发布的七篇重要大语言模型论文,涉及模型优化、缩放、推理及性能增强。

1402 2
|
机器学习/深度学习 算法
|

【MATLAB】基于VMD-SSA-LSTM的回归预测模型

【MATLAB】基于VMD-SSA-LSTM的回归预测模型

637 4
|
消息中间件 Kafka 分布式数据库
|

实时计算 Flink版产品使用合集之如何批量读取Kafka数据

实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStreamAPI、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。

1597 1
来自: 实时计算 Flink  版块
|
SQL Oracle 关系型数据库
|

实时计算 Flink版产品使用合集之从Oracle数据库同步数据时,checkpoint恢复后无法捕获到任务暂停期间的变更日志,如何处理

实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStreamAPI、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。

419 57
来自: 实时计算 Flink  版块
|
数据采集 Web App开发 JavaScript
|

爬虫技术升级:如何结合DrissionPage和Auth代理插件实现数据采集

本文介绍了在Python中使用DrissionPage库和Auth代理Chrome插件抓取163新闻网站数据的方法。针对许多爬虫框架不支持代理认证的问题,文章提出了通过代码生成包含认证信息的Chrome插件来配置代理。示例代码展示了如何创建插件并利用DrissionPage进行网页自动化,成功访问需要代理的网站并打印页面标题。该方法有效解决了代理认证难题,提高了爬虫的效率和安全性,适用于各种需要代理认证的网页数据采集。

1522 0
|
SQL Oracle 关系型数据库
|

实时计算 Flink版操作报错之往GREENPLUM 6 写数据,用postgresql-42.2.9.jar 报 ON CONFLICT (uuid) DO UPDATE SET 语法有问题。怎么解决

在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。

690 2
来自: 实时计算 Flink  版块
|
SQL 关系型数据库 分布式数据库
|

实时计算 Flink版操作报错之全量采集没有采集完成,一直出现Stopped reading binlog after 0 events, no new offset was recorded,是什么原因

在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。

319 0
来自: 实时计算 Flink  版块
|
人工智能 自然语言处理 机器人
|

Foundation Model(基石)模型

Foundation Model是人工智能中的基础模型,通过大规模预训练学习通用语义和知识,适用于多种任务,包括NLP、计算机视觉和语音识别。其重要性在于解决问题的内在逻辑(Emergence)和普适性(Homogenization)。在机器人学中,这些模型能提升系统性能并充当先验知识。GPT-3、BERT、ViT和Swin Transformer是其成功应用的例子,展示出广阔的应用潜力和研究价值,将随着数据和计算能力的增长持续推动AI发展。

709 2

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

1
今日
69094
内容
128
活动
439688
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务