|
SQL 运维 DataWorks
|

DataWorks数据服务介绍及最佳实践 | 《一站式大数据开发治理DataWorks使用宝典》

DataWorks作为一站式大数据开发治理平台,构建了从数据集成、数据开发、数据服务到应用开发的全链路解决方案。在整个大数据链路中,数据服务将数仓、数据库和数据应用进行串联,形成了一座数据与应用之间的桥梁。数据服务通过将数据封装成数据API的方式,可以为个人、团队及企业提供全面的数据开放及共享能力。借助这个平台,用户能够统一管理面向内外部的API服务。数据服务提供了向下对接数据源、向上支撑业务应用的有效连接。

3901 1
|
机器学习/深度学习 人工智能 自然语言处理
|

淘宝千人千面背后的秘密:搜索推荐广告三位一体的在线服务体系AI·OS

揭晓三位一体的在线服务体系AI·OS,及其技术架构演进,技术概况,云原生产品与实践。

8517 0
来自: 智能搜索推荐  版块
|
2天前
|
搜索推荐 API 开发者
|

支持"同款搜索"(精确匹配)和"相似搜索"(模糊匹配)两种模式

图搜接口对图片的一个要求:图片不要大于2兆,600*600像素大小,要符合系统规则,图片尽量清晰, 图片越小越好,处理API返回的错误码和异常情况。

36 0
|
2天前
|
SQL 自然语言处理 数据可视化
|

大火的 ChatBI,是如何实现灵活的自然语言数据分析?

这对业务人员而言,不仅简化了数据分析流程,更无需依赖 IT 代码开发,实现了自主灵活的智能问数,高效敏捷展开分析。

36 1
|
4月前
|
机器学习/深度学习 人工智能 算法
|

GSPO:Qwen让大模型强化学习训练告别崩溃,解决序列级强化学习中的稳定性问题

这是7月份的一篇论文,Qwen团队提出的群组序列策略优化算法及其在大规模语言模型强化学习训练中的技术突破

1261 0
|
5月前
|
人工智能 数据可视化 开发工具
|

开发效率提升5倍!聚AI的LangFlow可视化全栈指南

LangFlow 是一个强大的可视化流程开发工具,支持全平台部署与多模型集成。通过 Docker 快速启动、本地开发或云服务部署,用户可灵活配置环境。其核心功能包括四大对象管理、可视化编程、自定义组件开发及与 LangChain 的深度整合,适用于客户服务、金融、医疗等多领域自动化流程构建。结合性能优化与版本管理,助力开发者高效实现企业级 AI 应用。

691 4
|
6月前
|
存储 数据可视化 搜索推荐
|

数据可视化实战:如何采集并分析马蜂窝上的热门旅游信息?

通过自动化工具抓取马蜂窝旅游数据,分析杭州热门景点与用户关注焦点,生成排行榜和词云图。项目采用低成本方案,结合Playwright模拟浏览器行为采集信息,并用Python处理数据、绘制图表。结果显示西湖、灵隐寺等为热门景点,游客多关注门票、交通等问题。此方法简单高效,适合个性化旅行攻略分析。

527 8
|
7月前
|
人工智能 安全 Shell
|

Jupyter MCP服务器部署实战:AI模型与Python环境无缝集成教程

Jupyter MCP服务器基于模型上下文协议(MCP),实现大型语言模型与Jupyter环境的无缝集成。它通过标准化接口,让AI模型安全访问和操作Jupyter核心组件,如内核、文件系统和终端。本文深入解析其技术架构、功能特性及部署方法。MCP服务器解决了传统AI模型缺乏实时上下文感知的问题,支持代码执行、变量状态获取、文件管理等功能,提升编程效率。同时,严格的权限控制确保了安全性。作为智能化交互工具,Jupyter MCP为动态计算环境与AI模型之间搭建了高效桥梁。

541 2
|
7月前
|
JSON JavaScript API
|

MCP 实战:用配置与真实代码玩转 GitHub 集成

MCP 实战:用配置与真实代码玩转 GitHub 集成

1618 4
|
9月前
|
XML 存储 分布式计算
|

【赵渝强老师】史上最详细:Hadoop HDFS的体系架构

HDFS(Hadoop分布式文件系统)由三个核心组件构成:NameNode、DataNode和SecondaryNameNode。NameNode负责管理文件系统的命名空间和客户端请求,维护元数据文件fsimage和edits;DataNode存储实际的数据块,默认大小为128MB;SecondaryNameNode定期合并edits日志到fsimage中,但不作为NameNode的热备份。通过这些组件的协同工作,HDFS实现了高效、可靠的大规模数据存储与管理。

1017 70
来自: 大数据计算 MaxCompute  版块
|
10月前
|
机器学习/深度学习 小程序 安全
|

让小程序开口说话:DeepSeek语音交互开发指南

本文介绍如何利用DeepSeek语音交互技术构建智能语音助手,涵盖从安装声音采集设备、训练语言理解模型到设计语音控制界面的全过程。通过生活化场景,如深夜查找教程、旅行中寻找餐厅等,展示如何实现自然对话。此外,还深入探讨多轮对话记忆、情感计算及智能家居控制等进阶功能,帮助开发者创建会倾听、善思考的语音应用。最后,提供性能优化与安全防护建议,引领读者进入人机共生的新时代。

1566 1
|
10月前
|
机器学习/深度学习 算法 安全
|

用PyTorch从零构建 DeepSeek R1:模型架构和分步训练详解

本文详细介绍了DeepSeek R1模型的构建过程,涵盖从基础模型选型到多阶段训练流程,再到关键技术如强化学习、拒绝采样和知识蒸馏的应用。

1233 3
|
12月前
|
算法 数据处理 Python
|

高精度保形滤波器Savitzky-Golay的数学原理、Python实现与工程应用

Savitzky-Golay滤波器是一种基于局部多项式回归的数字滤波器,广泛应用于信号处理领域。它通过线性最小二乘法拟合低阶多项式到滑动窗口中的数据点,在降噪的同时保持信号的关键特征,如峰值和谷值。本文介绍了该滤波器的原理、实现及应用,展示了其在Python中的具体实现,并分析了不同参数对滤波效果的影响。适合需要保持信号特征的应用场景。

1428 11
|
12月前
|
机器学习/深度学习 人工智能 数据处理
|

[python 技巧] 快速掌握Streamlit: python快速原型开发工具

本文旨在快速上手python的streamlit库,包括安装,输入数据,绘制图表,基础控件,进度条,免费部署。

1426 64
来自: 人工智能平台PAI  版块
|
机器学习/深度学习 数据采集 运维
|

数据分布检验利器:通过Q-Q图进行可视化分布诊断、异常检测与预处理优化

Q-Q图(Quantile-Quantile Plot)是一种强大的可视化工具,用于验证数据是否符合特定分布(如正态分布)。通过比较数据和理论分布的分位数,Q-Q图能直观展示两者之间的差异,帮助选择合适的统计方法和机器学习模型。本文介绍了Q-Q图的工作原理、基础代码实现及其在数据预处理、模型验证和金融数据分析中的应用。

1527 11
|
数据采集 机器学习/深度学习 人工智能
|

云栖实录 | GenAI 时代 AI Infra 工程技术趋势与平台演进

本文根据2024云栖大会实录整理而成,演讲信息如下: 演讲人:林伟 | 阿里云智能集团研究员、阿里云人工智能平台 PAI 负责人;黄博远|阿里云智能集团资深产品专家、阿里云人工智能平台 PAI 产品负责人 活动:2024 云栖大会 - AI Infra 核心技术专场、人工智能平台 PAI 年度发布专场

2543 1
来自: 人工智能平台PAI  版块
|
人工智能 数据可视化 定位技术
|

DataV AI助手小技巧-如何制作PPT数据地图

“数据地图”是PPT汇报地区业务数据的最佳形式之一;以往制作数据地图需要用户有一定的编程和数据处理基础,制作门槛较高;随着DataV整合通义千问大模型能力之后,不懂编程和设计的用户也可以借助AI助手“零代码”制作数据地图,真正实现了人人可用的地图数据可视化。 进入大模型AI时代,人人可以变成职场跨界多面手!

12349 3
来自: 数据可视化DataV  版块

Fama-French模型,特别是三因子模型(Fama-French Three-Factor Model)

Fama-French模型,特别是三因子模型(Fama-French Three-Factor Model)

1636 1
|
SQL 分布式计算 Java
|

Spark 为什么比 Hive 快

Spark与Hive在数据处理上有显著区别。Spark以其内存计算和线程级并行提供更快的速度,但稳定性受内存限制。相比之下,Hive虽较慢,因使用MapReduce,其稳定性更高,对内存需求较小。在Shuffle方式上,Spark的内存 Shuffle 比Hive的磁盘 Shuffle 更高效。综上,Spark在处理速度和Shuffle上占优,Hive则在稳定性和资源管理上更胜一筹。

1112 0
|
SQL 缓存 Java
|

flink cdc 同步问题之如何同步多张库表

Flink CDC(Change Data Capture)是一个基于Apache Flink的实时数据变更捕获库,用于实现数据库的实时同步和变更流的处理;在本汇总中,我们组织了关于Flink CDC产品在实践中用户经常提出的问题及其解答,目的是辅助用户更好地理解和应用这一技术,优化实时数据处理流程。

2817 0
来自: 实时计算 Flink  版块
|
自然语言处理 算法 OLAP
|

阿里云PAI大模型RAG对话系统最佳实践

本文为大模型RAG对话系统最佳实践,旨在指引AI开发人员如何有效地结合LLM大语言模型的推理能力和外部知识库检索增强技术,从而显著提升对话系统的性能,使其能更加灵活地返回用户查询的内容。适用于问答、摘要生成和其他依赖外部知识的自然语言处理任务。通过该实践,您可以掌握构建一个大模型RAG对话系统的完整开发链路。

118278 207
来自: 人工智能平台PAI  版块
|
存储 人工智能 自然语言处理
|

大模型时代还需要知识图谱么?新一代知识图谱语义框架SPG赋能企业数智化转型

本文以商家经营和风险防控为例,介绍了在企业数字化中的图谱应用。结合当前产业应用和研究进展,本文梳理总结了LLM、KG 在企业数字化中的可能应用。

958 0
|
存储 监控 数据库
|

IoTDB控制台工具Workbench

IoTDB控制台工具Workbench

1556 0
|
人工智能 机器人 测试技术
|

使用LM Studio在本地运行LLM完整教程

GPT-4被普遍认为是最好的生成式AI聊天机器人,但开源模型一直在变得越来越好,并且通过微调在某些特定领域是可以超过GPT4的。

6581 1
|
算法
|

【MATLAB】史上最全的11种数字信号滤波去噪算法全家桶

【MATLAB】史上最全的11种数字信号滤波去噪算法全家桶

6268 0
|
存储 人工智能 Cloud Native
|

云原生大数据架构实践与思考-DataFunTalk

导读: 作者:振策-阿里云计算平台-产品解决方案, 20230805 本文将分享当前云原生大数据架构的发展历程/架构定义/核心能力/应用场景及趋势思考。主要包括以下四个部分: - 从大数据上云看架构 - 云原生数据平台的核心能力 - Data+AI with Cloud-Native - 未来趋势与思考

3315 0
|
自然语言处理 搜索推荐 算法
|

阿里云OpenSearch重磅推出LLM问答式搜索产品,助力企业高效构建对话式搜索服务

OpenSearch推出LLM智能问答版,面向行业搜索场景,提供企业专属问答搜索服务,基于内置的LLM大模型提供问答能力,一站式快速搭建问答搜索系统。

12981 7
来自: 智能搜索推荐  版块
|
存储 SQL 分布式计算
|

数据湖架构及概念简介

本文整理自阿里云开源大数据技术专家陈鑫伟在7月17日阿里云数据湖技术专场交流会的分享。

4268 0
|
存储 数据采集 机器学习/深度学习
|

深度解析数据湖存储方案Lakehouse架构【Databricks 数据洞察公开课】

从数据仓库、数据湖的优劣势,湖仓一体架构的应用和优势等多方面深度解析Lakehouse架构。

1973 0
|
SQL 关系型数据库 MySQL
|

Flink CDC 系列 - 实现 MySQL 数据实时写入 Apache Doris

Flink CDC 结合 Doris Flink Connector 实现 MySQL 数据实时入 Apache Doris。

4545 1
来自: 实时计算 Flink  版块
|
15天前
|
人工智能 智能设计 算法
|

2026 GEO生成搜索优化技术白皮书:章节详解与案例深度分析

周有贵,GEO专家,深耕AI时代流量入口变革,倡导从SEO到GEO(生成式引擎优化)的认知重构,聚焦“被发现-被理解-被推荐”三层框架,推动企业通过结构化内容、信任资产与平台适配,实现AI信源卡位。

170 2
|
3月前
|
存储 人工智能 前端开发
|

AI智能体开发实战:17种核心架构模式详解与Python代码实现

本文系统解析了17种AI智能体设计模式,涵盖反思、工具调用、多智能体协作、思维树、规划执行、集成决策等核心架构,结合LangGraph实现与代码演示,揭示如何通过模式组合构建高效、可靠的大规模AI系统。

637 2
|
3月前
|
数据采集 存储 人工智能
|

拆解AI-Agentforce企业级智能体中台:如何让企业AI落地从“噱头”到“实效”

在GDMS峰会上,迈富时集团尹思源指出41.3%中国企业尚未布局AI Agent,已应用者亦陷“Demo化、孤岛化”困局。其发布的AI-Agentforce智能体中台,以“冰山模型”重构架构,打通认知、价值、能力三重鸿沟,覆盖内容、获客、销售、陪练、分析五大场景,助力企业实现AI从“工具”到“数字员工”的全链路协同升级。

431 3
|
7月前
|
数据采集 运维 监控
|

Serverless爬虫架构揭秘:动态IP、冷启动与成本优化

随着互联网数据采集需求的增长,传统爬虫架构因固定IP易封禁、资源浪费及扩展性差等问题逐渐显现。本文提出基于Serverless与代理IP技术的新一代爬虫方案,通过动态轮换IP、弹性调度任务等特性,显著提升启动效率、降低成本并增强并发能力。架构图与代码示例详细展示了其工作原理,性能对比数据显示采集成功率从71%提升至92%。行业案例表明,该方案在电商情报与价格对比平台中效果显著,未来有望成为主流趋势。

284 0
|
10月前
|
人工智能 自然语言处理 物联网
|

阿里万相重磅开源,人工智能平台PAI一键部署教程来啦

阿里云视频生成大模型万相2.1(Wan)重磅开源!Wan2.1 在处理复杂运动、还原真实物理规律、提升影视质感以及优化指令遵循方面具有显著的优势,轻松实现高质量的视频生成。同时,万相还支持业内领先的中英文文字特效生成,满足广告、短视频等领域的创意需求。阿里云人工智能平台 PAI-Model Gallery 现已经支持一键部署阿里万相重磅开源的4个模型,可获得您的专属阿里万相服务。

1425 13
来自: 人工智能平台PAI  版块
|
11月前
|
传感器 人工智能 监控
|

AI与物联网的融合:开启智能化未来的新篇章

AI与物联网的融合:开启智能化未来的新篇章

1713 96
|
数据挖掘
|

置信区间与预测区间:数据科学中的不确定性量化技术深度解读

本文深入探讨了统计学中两个常见但容易混淆的不确定性量化工具:置信区间和预测区间。

1208 1
|
JavaScript 数据安全/隐私保护 Python
|

python爬取m3u8实战!!

本文详细介绍了如何抓取和处理m3u8视频文件,包括从网页源代码中提取m3u8文件地址、下载m3u8文件及其对应的ts片段、处理加密的ts文件以及使用ffmpeg合并视频片段。通过多线程下载和文件路径处理,确保了高效和准确的视频抓取与合并。文中还提供了具体的Python代码示例,帮助读者理解和实现整个过程。

1223 1
|
人工智能 算法 安全
|

人工智能伦理与监管:构建负责任的AI未来

【10月更文挑战第3天】随着人工智能(AI)技术的快速发展,其在社会各领域的应用日益广泛。然而,AI的广泛应用也带来了一系列伦理和监管挑战。本文旨在探讨AI的伦理问题,分析现有的监管框架,并提出构建负责任AI未来的建议。同时,本文将提供代码示例,展示如何在实践中应用这些原则。

1942 1
|
安全 网络安全 Android开发
|

深度解析:利用Universal Links与Android App Links实现无缝网页至应用跳转的安全考量

【10月更文挑战第2天】在移动互联网时代,用户经常需要从网页无缝跳转到移动应用中。这种跳转不仅需要提供流畅的用户体验,还要确保安全性。本文将深入探讨如何利用Universal Links(仅限于iOS)和Android App Links技术实现这一目标,并分析其安全性。

1881 0
|
Web App开发 缓存 安全
|

Chrome浏览器启动参数大全

这是一组用于定制浏览器行为的命令行参数,包括但不限于:不停用过期插件、放行非安全内容、允许应用中心脚本、停用GPU加速视频、禁用桌面通知、禁用拓展及各类API、调整缓存设置、启用打印预览、隐身模式启动、设定语言、使用代理服务器、无头模式运行等。通过这些参数,用户可以根据需求灵活调整浏览器功能与性能。

2024 0
|
人工智能 JSON 算法
|

不是吧?这么好用的开源标注工具,竟然还有人不知道…

LabelU是一款专为AI项目设计的强大多模态数据标注工具,支持图像、视频、音频等多样化数据类型。它提供灵活的标注工具与自定义配置选项,让用户根据需求定制高效标注流程。特色功能包括一键载入预标注结果以简化修正工作,以及支持JSON、COCO等多种格式的导出选项。LabelU既可本地部署确保数据安全,也提供在线版本方便快速上手。此外,OpenDataLab还开源了Label-LLM对话标注工具和MinerU文档处理工具,进一步丰富了数据准备的工作流。欢迎访问[LabelU](https://github.com/opendatalab/labelU)了解更多详情,并为这些优秀工具点赞支持!

1234 0
|
数据采集 Web App开发 测试技术
|

使用Selenium调试Edge浏览器的常见问题与解决方案

在互联网数据采集领域,Selenium常用于自动化网页爬取。针对使用Edge浏览器时遇到的启动远程调试失败、访问受限及代理IP设置等问题,本文提供了解决方案。通过特定命令启动Edge的远程调试模式,并利用Python脚本配合Selenium库,可实现代理IP、User-Agent的设定及Cookie管理等高级功能,有效提升爬虫稳定性和隐蔽性。遵循步骤配置后,即可顺畅执行自动化测试任务。

2904 1
|
机器学习/深度学习 数据可视化 测试技术
|

统计学入门:时间序列分析基础知识详解

本文探讨了时间序列分析的核心概念,包括自协方差、自相关和平稳性。通过Python实现和图形化展示了这些概念,以增进理解。时间序列涉及观察随时间变化的数据,如心率或温度。自协方差和自相关衡量数据点之间的关系,滞后表示时间间隔。弱平稳性意味着均值、方差和协方差不随时间变化。文章介绍了自回归(AR)、移动平均(MA)、ARMA和ARIMA模型,用于描述不同类型的序列行为。统计检验如ADF和Durbin-Watson用于检测平稳性和残差自相关。ARIMA模型特别适用于非平稳数据,通过差分实现平稳化。文章还提供了代码示例和可视化来辅助学习。

575 4
|
机器学习/深度学习 人工智能 TensorFlow
|

机器学习项目实战:使用Python实现图像识别

在AI时代,Python借助TensorFlow和Keras实现图像识别,尤其在监控、驾驶、医疗等领域有广泛应用。本文通过构建CNN模型识别MNIST手写数字,展示图像识别流程:安装库→加载预处理数据→构建模型→训练→评估。简单项目为深度学习入门提供基础,为进一步探索复杂场景打下基础。

1491 5
|
Java Spring
|

Springboot整合Netty,自定义协议实现

以上就是在Spring Boot中整合Netty并实现自定义协议的基本步骤。你需要根据你的自定义协议的具体需求,来实现你的编码器、解码器和处理器。

1030 0
|
存储 机器学习/深度学习 API
|

开源向量数据库比较:Chroma, Milvus, Faiss,Weaviate

该文探讨了向量数据库在语义搜索和RAG中的核心作用,并介绍了四个开源向量数据库:Chroma、Milvus、Faiss和Weaviate。这些数据库用于存储高维向量,支持基于相似性的快速搜索,改变了传统的精确匹配方法。文章详细比较了它们的特性,如Chroma的易用性,Milvus的存储效率,Faiss的GPU加速,和Weaviate的图数据模型。选择合适的数据库取决于具体需求,如数据类型、性能和使用场景。

3576 0
|
存储 缓存 异构计算
|

大语言模型量化方法对比:GPTQ、GGUF、AWQ

在过去的一年里,大型语言模型(llm)有了飞速的发展,在本文中,我们将探讨几种(量化)的方式,除此以外,还会介绍分片及不同的保存和压缩策略。

6093 0
|
机器学习/深度学习 算法 决策智能
|

选址问题-精确重心法和遗传算法

选址问题-精确重心法和遗传算法

2386 0
|
Web App开发 缓存 负载均衡
|

什么是HTTP代理?HTTP代理的作用?HTTP代理怎么设置?

HTTP代理是一种充当客户端和服务器之间的中间人的服务器。当客户端发起请求时,HTTP代理会拦截请求并将其转发给目标服务器。一旦目标服务器响应,HTTP代理会拦截响应并将其转发回客户端。HTTP代理可以被用于多种场景,例如加强安全、缓存内容以加速访问、访问受限资源等等。在这篇文章中,我们将会讨论HTTP代理的作用、类型以及如何设置它。

14976 1

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

0
今日
67713
内容
128
活动
439500
关注
你好!
登录掌握更多精彩内容

活跃用户

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务