|
数据采集 数据可视化 数据挖掘
|

金融波动率的多模型建模研究:GARCH族与HAR模型的Python实现与对比分析

本文探讨了金融资产波动率建模中的三种主流方法:GARCH、GJR-GARCH和HAR模型,基于SPY的实际交易数据进行实证分析。GARCH模型捕捉波动率聚类特征,GJR-GARCH引入杠杆效应,HAR整合多时间尺度波动率信息。通过Python实现模型估计与性能比较,展示了各模型在风险管理、衍生品定价等领域的应用优势。

1249 66
|
Web App开发 数据采集 JavaScript
|

CDP与Selenium相结合——玩转网页端自动化数据采集/爬取程序

本文介绍了Selenium、Chrome DevTools及Chrome DevTools Protocol (CDP) 的基本功能与应用。Selenium是一款开源自动化测试工具,适用于网页端应用程序测试和数据采集,具备跨平台特性。Chrome DevTools内置浏览器中,提供调试、分析Web应用程序的功能,包括元素、控制台、源代码和网络选项卡等。CDP是一套用于与Chromium内核浏览器通信的API,支持自动化测试和性能分析。文中还展示了Selenium与CDP结合使用的示例,如捕获网络请求数据和打印网页内容,并推荐了相关书籍和资源以供深入学习。

1905 39
|
API 数据安全/隐私保护 开发者
|

实时获取小红书详情 API 数据

小红书详情API数据获取指南:注册开发者账号,创建应用并申请接口权限,构建请求获取笔记详情,使用Python等语言处理响应数据。需遵守使用规则,注意调用频率和数据安全。

1621 6
|
缓存 监控 Java
|

如何运用JAVA开发API接口?

本文详细介绍了如何使用Java开发API接口,涵盖创建、实现、测试和部署接口的关键步骤。同时,讨论了接口的安全性设计和设计原则,帮助开发者构建高效、安全、易于维护的API接口。

1606 4
|
Python
|

【10月更文挑战第10天】「Mac上学Python 20」小学奥数篇6 - 一元一次方程求解

本篇将通过 Python 和 Cangjie 双语讲解如何求解一元一次方程。通过这道题,学生将掌握如何用编程实现方程求解,并体验基本的代数计算。

622 1
|
机器学习/深度学习 运维 分布式计算
|

大数据技术专业就业前景

大数据技术专业就业前景广阔,广泛应用于互联网、金融、医疗等众多行业,助力企业数字化转型。岗位涵盖大数据开发、分析、运维及管理,如大数据工程师、分析师和系统运维工程师等。这些岗位因专业性和稀缺性而享有优厚薪资,尤其在一线城市可达20万至50万年薪。随着技术进步和经验积累,从业者可晋升为高级职位或投身数据咨询、创业等领域,发展空间巨大。

1653 6
|
Linux 开发工具 git
|

pip的常用命令和常见问题的解决

当使用pip命令安装Python包时,有时候可以通过使用镜像地址来加速下载速度或解决访问限制的问题。以下是一些常用的pip命令和常见的镜像地址:

2426 3
|
存储 机器学习/深度学习 API
|

开源向量数据库比较:Chroma, Milvus, Faiss,Weaviate

该文探讨了向量数据库在语义搜索和RAG中的核心作用,并介绍了四个开源向量数据库:Chroma、Milvus、Faiss和Weaviate。这些数据库用于存储高维向量,支持基于相似性的快速搜索,改变了传统的精确匹配方法。文章详细比较了它们的特性,如Chroma的易用性,Milvus的存储效率,Faiss的GPU加速,和Weaviate的图数据模型。选择合适的数据库取决于具体需求,如数据类型、性能和使用场景。

4185 0
|
机器学习/深度学习 缓存 人工智能
|

大语言模型中常用的旋转位置编码RoPE详解:为什么它比绝对或相对位置编码更好?

Transformer的基石自2017年后历经变革,2022年RoPE引领NLP新方向,现已被顶级模型如Llama、Llama2等采纳。RoPE融合绝对与相对位置编码优点,解决传统方法的序列长度限制和相对位置表示问题。它通过旋转矩阵对词向量应用角度与位置成正比的旋转,保持向量稳定,保留相对位置信息,适用于长序列处理,提升了模型效率和性能。RoPE的引入开启了Transformer的新篇章,推动了NLP的进展。[[1](https://avoid.overfit.cn/post/9e0d8e7687a94d1ead9aeea65bb2a129)]

2631 0
|
存储 人工智能 算法
|

聚类的k值确定之轮廓系数

聚类的k值确定之轮廓系数

4272 0
|
算法 Java Apache
|

运筹优化工具库介绍(二)

运筹优化工具库介绍

2750 0
|
16天前
|
数据采集 消息中间件 缓存
|

别再一把梭TF-IDF了:从文本清洗到向量化,一条真正“能用”的NLP数据管道

别再一把梭TF-IDF了:从文本清洗到向量化,一条真正“能用”的NLP数据管道

208 2
|
21天前
|
机器学习/深度学习 人工智能 自然语言处理
|

手撕 Transformer:从原理到代码,一步步造一个“小型大模型”

手撕 Transformer:从原理到代码,一步步造一个“小型大模型”

306 6
|
26天前
|
SQL 人工智能 运维
|

Snowflake SVA vs Aloudata CAN:两种语义层哲学的深度对比

在 AI Agent 时代,语义层不是一个品类选择题,而是一个基础设施必答题。

168 2
|
2月前
|
数据采集 供应链 物联网
|

别再只会调用 API 了:一步步教你用 Python Fine-Tune 一个定制化大模型

别再只会调用 API 了:一步步教你用 Python Fine-Tune 一个定制化大模型

311 4
|
2月前
|
缓存 负载均衡 安全
|

Nginx 反向代理:原理、优势与配置指南

Nginx反向代理是核心服务器架构技术,可实现请求转发、负载均衡、高可用与安全防护。它隐藏后端服务器,自动剔除故障节点,并支持SSL终止、缓存等高级功能,配置简洁灵活,广泛应用于高性能Web系统。

345 13
|
2月前
|
人工智能 自然语言处理 架构师
|

AI Agent 职业路线全指南:从智能体普及浪潮到分层能力构建

2026年,“AI+”进入产业级落地期,智能体成为数字化转型核心基础设施。全球市场规模达2.3万亿,我国2027年普及率将超70%。人才缺口巨大,教育部已设“智能体技术应用”新专业。本文系统梳理四类职业路径(管理者、架构师、多智能体专家、垂直领域专家)及企业治理框架,助力职场人锚定定位、实战进阶。(239字)

461 1
|
3月前
|
存储 机器学习/深度学习 人工智能
|

别让大模型“失忆”:手把手教你用向量数据库打造它的专属知识库

本文深入浅出地讲解向量数据库原理与实践:用“语义身份证”比喻Embedding,以图书管理员类比关键词与语义搜索差异;手把手用Python+Faiss+BGE搭建中文语义检索系统,并详解RAG流程、效果评估与调优要点,助你为大模型装配真正懂业务的“外挂大脑”。

363 4
|
3月前
|
存储 人工智能 分布式计算
|

阿里云 OpenLake:AI 时代的全模态、多引擎、一体化解决方案深度解析

阿里云徐晟详解OpenLake:构建全模态、多引擎、一体化智能数据体系,融合大数据与AI,支持湖仓一体、Agentic Data及AI搜索,助力企业降本增效、加速AI落地。(239字)

552 1
|
3月前
|
数据采集 机器学习/深度学习 人工智能
|

大模型“驯化”指南:从人类偏好到专属AI,PPO与DPO谁是你的菜?

本文深入解析让AI“懂你”的关键技术——偏好对齐,对比PPO与DPO两种核心方法。PPO通过奖励模型间接优化,适合复杂场景;DPO则以对比学习直接训练,高效稳定,更适合大多数NLP任务。文章涵盖原理、实战步骤、评估方法及选型建议,并推荐从DPO入手、结合低代码平台快速验证。强调数据质量与迭代实践,助力开发者高效驯化大模型,实现个性化输出。

596 8
|
3月前
|
存储 人工智能 运维
|

向量数据库实战指南:从部署到RAG落地

本文以轻量开源向量数据库Chroma为例,手把手带你完成环境部署、数据导入、相似性检索到RAG集成的全流程实战,避开新手常见坑,适配码农与大数据爱好者快速落地AI应用,助力掌握向量数据库核心技能。

478 1
|
3月前
|
人工智能 监控 数据可视化
|

给大模型“开小灶”:零代码实战专属领域微调,手把手教你打造AI专家

本文介绍如何通过“模型微调”将通用大模型打造成特定领域的专家助手,聚焦Web安全场景,借助LLaMA Factory实现零代码、可视化微调。涵盖微调原理(如LoRA、量化)、全流程操作及效果评估,帮助用户低成本构建专属高性能AI模型。

307 0
|
3月前
|
机器学习/深度学习 传感器 算法
|

Python | K折交叉验证的参数优化的支持向量机回归(SVR)预测及可视化算法

本教程系统讲解基于Python的SVR回归预测,涵盖数据处理、模型训练、K折交叉验证及贝叶斯、随机、网格搜索等参数优化方法,适用于多领域回归任务,附完整代码与可视化实现。

334 5
|
4月前
|
存储 安全 编译器
|

C++数据类型:

C++基本数据类型包括bool、char、int、float、double等,支持signed、unsigned、short、long修饰。wchar_t用于宽字符,typedef可为类型定义别名,enum定义枚举常量。支持static_cast、dynamic_cast、const_cast和reinterpret_cast四种类型转换,实现安全或强制类型变换。

286 1
|
4月前
|
敏捷开发 Dubbo Java
|

需求开发人日评估

本文介绍敏捷开发中工时评估的关键——人日估算方法,涵盖开发、自测、联调、测试及发布各阶段周期参考,并提供常见需求如增删改查、导入导出、跨服务调用等的典型人日参考,助力团队科学规划迭代。

232 0
|
4月前
|
消息中间件 人工智能 Linux
|

基于 RocketMQ 构建 高可靠 A2A 通信通道

A2A协议由Google于2025年发起,旨在实现跨厂商AI智能体的标准化通信。基于RocketMQ构建的异步通信方案,支持任务分发、流式交互与状态同步,助力高效、可靠的多智能体协同系统落地,现已开源。

171 0
|
4月前
|
数据挖掘 BI API
|

微店店铺所有商品API接口指南

微店商品API支持通过店铺ID获取全部商品信息,提供分页、状态筛选与多维度排序功能,适用于商品管理、数据统计及跨平台同步。返回商品ID、标题、价格、库存、主图等详细信息,助力高效运营。

208 2
|
6月前
|
算法 搜索推荐 大数据
|

当“爆款书”遇上大数据:出版业的老路,正在被算法改写

当“爆款书”遇上大数据:出版业的老路,正在被算法改写

645 8
|
6月前
|
Kubernetes Cloud Native Go
|

Kubeflow-KServe-架构学习指南

KServe是基于Kubernetes的生产级AI推理平台,支持多框架模型部署与管理。本指南从架构解析、代码结构到实战部署,系统讲解其核心组件如InferenceService、控制器模式及与Knative、Istio集成原理,并提供学习路径与贡献指南,助你快速掌握云原生AI服务技术。

916 139
|
7月前
|
Linux 调度 iOS开发
|

Motrix高速下载工具软件,一款高效、稳定可替代迅雷的下载工具实用教程讲解!

Motrix是一款开源免费、无广告的全能下载工具,支持Windows、macOS、Linux三端。界面简洁,支持HTTP、FTP、BT、磁力等全协议下载,智能识别链接,最高64线程加速,支持断点续传、批量下载、剪贴板监听、任务分类及浏览器扩展联动,功能强大且易于管理,最大化提升下载效率。

1374 0
|
7月前
|
数据采集 存储 缓存
|

LLM + 抓取:让学术文献检索更聪明

结合爬虫与大模型,打造懂语义的学术检索助手:自动抓取最新NLP+爬虫论文,经清洗、向量化与RAG增强,由LLM提炼贡献,告别关键词匹配,实现精准智能问答。

796 0
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
|

Step-Audio2 声音克隆 详细介绍

Step-Audio2是StepFun于2024年推出的中文语音克隆大模型,支持“一句话克隆+情感可控+实时流式”一体化生成,参数总量300M,首包延迟低至120ms,MOS达4.4+,采用Apache-2.0协议开源,适配商业应用,是当前中文TTS领域开源落地门槛最低的方案之一。

972 1
|
8月前
|
机器学习/深度学习 搜索推荐 算法
|

医生+量子计算机=医疗“超脑”?聊聊量子计算在医疗模拟里的硬核玩法

医生+量子计算机=医疗“超脑”?聊聊量子计算在医疗模拟里的硬核玩法

448 0
|
8月前
|
机器学习/深度学习 JSON API
|

2025最新版天猫图片搜索API全解析:从图像识别到商品匹配实战

天猫图片搜索API(拍立淘)基于深度学习与CNN技术,实现以图搜商品,支持图片URL或二进制上传,适用于比价、推荐等场景。2025版新增多模态搜索优化与相似度动态调整。接口支持POST/GET请求,返回商品详情及排序结果,示例代码提供Python请求方式。

739 0
|
8月前
|
定位技术 数据处理 API
|

手把手教你怎么做人口密度热力图

本文介绍了使用Python和ArcGIS绘制人口密度地图的方法。Python部分包括地图数据获取、格式转换、数据整合及可视化;ArcGIS部分涵盖地图投影、数据连接、人口密度计算与图例设置。同时提供了C++代码用于数据分割,并介绍了如何利用高德API获取地址经纬度,实现地图标注。

1180 0
|
10月前
|
存储 自然语言处理 算法
|

基于内存高效算法的 LLM Token 优化:一个有效降低 API 成本的技术方案

本文探讨了在构建对话系统时如何通过一种内存高效算法降低大语言模型(LLM)的Token消耗和运营成本。传统方法中,随着对话深度增加,Token消耗呈指数级增长,导致成本上升。

908 7
|
12月前
|
并行计算 PyTorch 算法框架/工具
|

Triton入门教程:安装与编写和运行简单Triton内核

Triton是一款开源GPU编程语言与编译器,专为AI和深度学习领域设计,提供高性能GPU代码开发的高效途径。它支持通过Python编写自定义GPU内核,性能接近专家级CUDA代码,但无需掌握底层CUDA知识。本文全面介绍了Triton的核心功能、安装方法、基础应用、高级优化策略,以及与CUDA和PyTorch的技术对比。此外,还探讨了其在实际项目中的应用场景,如加速Transformer模型训练和实现高效的量化计算内核。Triton简化了GPU编程流程,降低了开发门槛,同时保持高性能表现,成为连接高级框架与底层硬件的重要工具。

1437 3
|
数据采集 存储 监控
|

网站价格监控:动态价格数据的实时抓取案例

本案例展示了如何利用爬虫技术实时抓取京东等电商平台的商品信息、价格及用户评价,通过代理IP、Cookie和User-Agent确保数据稳定采集。关键数据分析包括价格动态监控、评价趋势分析和竞争情报获取,助力商家制定策略。代码从简单请求逐步演进为具备异常处理、数据解析等功能的完整体系,并设计了「技术关系图谱」,直观展示系统模块间的关系,为开发者提供全局视角和技术路径参考。

1695 0
|
机器学习/深度学习 数据库 索引
|

Transformer 学习笔记 | Encoder

本文记录了学习Transformer模型过程中对Encoder部分的理解,包括多头自注意力机制(Multi-Head Self-Attention)和前馈网络(Feed-Forward Network)的工作原理。每个Encoder Layer包含残差连接(Residual Connection)和层归一化(Layer Normalization),以缓解梯度消失问题并稳定训练过程。文中详细解释了Q、K、V的含义及缩放点积注意力机制(Scaled Dot-Product Attention),并通过图解展示了各组件的工作流程。欢迎指正。

1164 3
|
数据采集 JavaScript 前端开发
|

京东商品详情 API 接口指南(Python 篇)

本简介介绍如何使用Python抓取京东商品详情数据。首先,需搭建开发环境并安装必要的库(如requests、BeautifulSoup和lxml),了解京东反爬虫机制,确定商品ID获取方式。通过发送HTTP请求并解析HTML,可提取价格、优惠券、视频链接等信息。此方法适用于电商数据分析、竞品分析、购物助手及内容创作等场景,帮助用户做出更明智的购买决策,优化营销策略。

1320 0
|
UED
|

如何申请国际网络专线?

【10月更文挑战第9天】如何申请国际网络专线?

1171 2
|
机器学习/深度学习 自然语言处理 PyTorch
|

PyTorch 中的动态图与静态图:理解它们的区别及其应用场景

【8月更文第29天】深度学习框架中的计算图是构建和训练神经网络的基础。PyTorch 支持两种类型的计算图:动态图和静态图。本文旨在阐述这两种计算图的区别、各自的优缺点以及它们在不同场景下的应用。

3853 0
|
机器学习/深度学习 并行计算 PyTorch
|

ONNX 优化技巧:加速模型推理

【8月更文第27天】ONNX (Open Neural Network Exchange) 是一个开放格式,用于表示机器学习模型,使模型能够在多种框架之间进行转换。ONNX Runtime (ORT) 是一个高效的推理引擎,旨在加速模型的部署。本文将介绍如何使用 ONNX Runtime 和相关工具来优化模型的推理速度和资源消耗。

7603 4
|
数据采集 缓存 安全
|

http proxy 协议的工作原理与常见用途

在这篇博客文章中,我们将深入探讨HTTP代理协议的工作原理,揭示它如何在客户端和服务器之间传递HTTP请求和响应,并讨论它在各种应用场景中的常见用途。

1891 0
|
监控 安全 算法
|

云上智能风控:构建金融安全的智能防线

云上智能风控系统具有良好的灵活性和可扩展性。随着金融市场的不断变化和技术的不断发展,系统能够灵活调整风控策略和算法模型以适应新的风险类型和场景。同时,系统还能够根据业务需求进行功能扩展和升级以满足不同金融机构的个性化需求。

1217 7
|
人工智能 运维 DataWorks
|

语雀+通义千问+DataWorks,让AI定期推送每周总结

DataWorks 数据开发提供强大的工作流及调度能力,且近期上线了数据推送节点,这篇文章简单利用 Shell + AI + 数据推送节点来完成每周工作内容总结。

2204 7
|
算法
|

「AIGC」readLink实现url识别pdf、网页标题和内容

AIGC算法实现服务,通过Express接收URL,识别内容类型:HTML使用Cheerio解析,PDF用`pdf-parse`。自定义函数提取标题和内容。示例代码展示了如何处理HTTP响应,提取HTML的`<title>`及PDF文本,并提供错误处理。服务器运行在端口3000。

522 0
|
存储 Ubuntu 关系型数据库
|

Ubuntu 20.04 卸载与安装 MySQL 5.7 详细教程

该文档提供了在Ubuntu上卸载和安装MySQL 5.7的步骤。首先,通过`apt`命令卸载所有MySQL相关软件包及配置。然后,下载特定版本(5.7.32)的MySQL安装包,解压并安装所需依赖。接着,按照特定顺序安装解压后的deb包,并在安装过程中设置root用户的密码。安装完成后,启动MySQL服务,连接数据库并验证。最后,提到了开启GTID和二进制日志的配置方法。

5420 5
|
存储 数据可视化 前端开发
|

数仓常用分层与维度建模

本文介绍了数据仓库的分层结构和维度建模。数仓通常分为ODS、DIM、DWD、DWS和ADS五层,各层负责不同的数据处理阶段。维度建模是数据组织方法,包括星型和雪花模型。星型模型简单直观,查询性能高,适合简单查询;雪花模型则通过规范化减少冗余,提高数据一致性和结构复杂性,但可能影响查询效率。选择模型需根据业务需求和数据复杂性来定。

3530 0
|
SQL 缓存 分布式计算
|

手把手教你解决 Hive 的数据倾斜

数据倾斜是 Hive 中影响任务执行效率的现象,表现为某些任务处理的数据量或耗时远超其他任务。根本原因是 Shuffle 后 Key 分布不均,导致部分 Reduce 负载过高。常见场景包括空值聚合、不可拆分大文件、数值膨胀、不同数据类型 Join、Count(distinct) 计算以及表 Join 操作。解决方法包括过滤空值、转换数据类型、调整聚合策略、使用 MapJoin 等。通过合理优化,如设置 `hive.groupby.skewindata` 和 `hive.map.aggr` 参数,可以有效缓解数据倾斜问题。

2698 2

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

0
今日
69319
内容
128
活动
439807
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务