|
10月前
|
大数据 Python
|

电影要火,能靠玄学吗?用大数据算一卦更靠谱!

电影要火,能靠玄学吗?用大数据算一卦更靠谱!

267 3
|
10月前
|
监控 算法 数据处理
|

Python 3.14七大新特性总结:从t-string模板到GIL并发优化

本文基于当前最新的beta 2版本,深入分析了Python 3.14中的七项核心新特性。

349 4
|
10月前
|
SQL 关系型数据库 MySQL
|

JOIN顺序优化:小表驱动大表的执行原则

在数据库查询优化中,“小表驱动大表”是一种提升SQL查询效率的常用策略。其核心思想是优先处理数据量较小的表,再与大表进行连接操作,从而减少数据扫描量、降低I/O开销并提高内存使用效率。通过显式指定JOIN顺序、使用EXISTS替代IN以及合理创建索引等方式,可以有效实现该原则。例如,在连接部门表(小表)和员工表(大表)时,先处理小表可显著提升查询性能。掌握这一原则有助于编写高效SQL语句,优化数据库整体表现。

889 0
|
11月前
|
人工智能 自然语言处理 Kubernetes
|

导演、编剧、特效师都要失业?生成式AI正在悄悄重塑影视工业

导演、编剧、特效师都要失业?生成式AI正在悄悄重塑影视工业

469 0
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
|

不是矫情,是“抑郁”——人工智能如何看懂你没说出口的情绪

不是矫情,是“抑郁”——人工智能如何看懂你没说出口的情绪

309 0
|
11月前
|
机器学习/深度学习 存储 运维
|

机器学习异常检测实战:用Isolation Forest快速构建无标签异常检测系统

本研究通过实验演示了异常标记如何逐步完善异常检测方案和主要分类模型在欺诈检测中的应用。实验结果表明,Isolation Forest作为一个强大的异常检测模型,无需显式建模正常模式即可有效工作,在处理未见风险事件方面具有显著优势。

918 46
|
11月前
|
机器学习/深度学习 存储 PyTorch
|

PyTorch + MLFlow 实战:从零构建可追踪的深度学习模型训练系统

本文通过使用 Kaggle 数据集训练情感分析模型的实例,详细演示了如何将 PyTorch 与 MLFlow 进行深度集成,实现完整的实验跟踪、模型记录和结果可复现性管理。文章将系统性地介绍训练代码的核心组件,展示指标和工件的记录方法,并提供 MLFlow UI 的详细界面截图。

509 2
|
11月前
|
存储 数据可视化 搜索推荐
|

数据可视化实战:如何采集并分析马蜂窝上的热门旅游信息?

通过自动化工具抓取马蜂窝旅游数据,分析杭州热门景点与用户关注焦点,生成排行榜和词云图。项目采用低成本方案,结合Playwright模拟浏览器行为采集信息,并用Python处理数据、绘制图表。结果显示西湖、灵隐寺等为热门景点,游客多关注门票、交通等问题。此方法简单高效,适合个性化旅行攻略分析。

832 8
|
11月前
|
机器学习/深度学习 自然语言处理 并行计算
|

提升长序列建模效率:Mamba+交叉注意力架构完整指南

本文探讨了Mamba架构中交叉注意力机制的集成方法,Mamba是一种基于选择性状态空间模型的新型序列建模架构,擅长处理长序列。通过引入交叉注意力,Mamba增强了多模态信息融合和条件生成能力。文章从理论基础、技术实现、性能分析及应用场景等方面,详细阐述了该混合架构的特点与前景,同时分析了其在计算效率、训练稳定性等方面的挑战,并展望了未来优化方向,如动态路由机制和多模态扩展,为高效序列建模提供了新思路。

873 1
|
11月前
|
JSON API 开发者
|

深入浅出:拼多多商品列表API接口Python攻略

拼多多是中国领先的社交电商平台,为开发者提供了丰富的API接口,用于集成商品数据到第三方应用。通过Python可以轻松调用这些API获取商品列表。主要步骤包括:1) 安装必要库(如`requests`);2) 使用AppKey和AppSecret获取访问令牌;3) 调用商品列表API,传入参数如商品ID、页码等;4) 解析返回的JSON数据提取所需信息。按照此流程,开发者能够快速实现与拼多多平台的数据交互。

765 3
|
11月前
|
算法
|

基于PSO粒子群优化的多无人机路径规划matlab仿真,对比WOA优化算法

本程序基于粒子群优化(PSO)算法实现多无人机路径规划,并与鲸鱼优化算法(WOA)进行对比。使用MATLAB2022A运行,通过四个无人机的仿真,评估两种算法在能耗、复杂度、路径规划效果及收敛曲线等指标上的表现。算法原理源于1995年提出的群体智能优化,模拟鸟群觅食行为,在搜索空间中寻找最优解。环境建模采用栅格或几何法,考虑避障、速度限制等因素,将约束条件融入适应度函数。程序包含初始化粒子群、更新速度与位置、计算适应度值、迭代优化等步骤,最终输出最优路径。

484 2
|
12月前
|
人工智能 安全 Shell
|

Jupyter MCP服务器部署实战:AI模型与Python环境无缝集成教程

Jupyter MCP服务器基于模型上下文协议(MCP),实现大型语言模型与Jupyter环境的无缝集成。它通过标准化接口,让AI模型安全访问和操作Jupyter核心组件,如内核、文件系统和终端。本文深入解析其技术架构、功能特性及部署方法。MCP服务器解决了传统AI模型缺乏实时上下文感知的问题,支持代码执行、变量状态获取、文件管理等功能,提升编程效率。同时,严格的权限控制确保了安全性。作为智能化交互工具,Jupyter MCP为动态计算环境与AI模型之间搭建了高效桥梁。

774 2
|
12月前
|
机器学习/深度学习 数据采集 人工智能
|

智能嗅探AJAX触发:机器学习在动态渲染中的创新应用

随着Web技术发展,动态加载数据的网站(如今日头条)对传统爬虫提出新挑战:初始HTML无完整数据、请求路径动态生成且易触发反爬策略。本文以爬取“AI”相关新闻为例,探讨了通过浏览器自动化、抓包分析和静态逆向接口等方法采集数据的局限性,并提出借助机器学习智能识别AJAX触发点的解决方案。通过特征提取与模型训练,爬虫可自动推测数据接口路径并高效采集。代码实现展示了如何模拟AJAX请求获取新闻标题、简介、作者和时间,并分类存储。未来,智能化将成为采集技术的发展趋势。

348 1
|
12月前
|
机器学习/深度学习 Python
|

拯救数据不平衡:imbalanced-learn库详解

当你的数据像翘翘板一样严重倾斜时,该如何挽救你的机器学习模型?本文详解imbalanced-learn库的四大绝招,帮你轻松应对数据不平衡问题,提升模型性能。

665 8
|
12月前
|
数据可视化 数据挖掘 数据安全/隐私保护
|

Python实现时间序列动量策略:波动率标准化让量化交易收益更平稳

时间序列动量策略(TSMOM)是一种基于资产价格趋势的量化交易方法,通过建立多头或空头头寸捕捉市场惯性。然而,传统TSMOM策略因风险敞口不稳定而面临收益波动问题。波动率调整技术通过动态调节头寸规模,维持恒定风险水平,优化了策略表现。本文系统分析了波动率调整TSMOM的原理、实施步骤及优势,强调其在现代量化投资中的重要地位,并探讨关键参数设定与实际应用考量,为投资者提供更平稳的风险管理体验。

683 4
|
1月前
|
数据采集 JSON 安全
|

解决 Python 爬虫代理 407 错误:基于 urllib3 更新与爬虫代理的实战指南

在使用Python Requests库进行爬虫开发时,urllib3 1.26+版本对代理认证header格式严格校验可能导致407错误。解决方案包括:1. 正确构造Base64认证头;2. 使用标准代理URL自动解析;3. 临时降级urllib3。上线前需严格验证结果。

128 1
|
1月前
|
存储 算法 BI
|

【图像加密】基于matlab混沌算法图像加密解密

本文提出一种基于逐段线性混沌映射(PWLCM)的图像加密算法。利用混沌系统对初值和参数的极端敏感性、遍历性及伪随机性,生成高安全性密钥流,与图像数据异或加密;通过动态切换控制参数增强抗攻击能力。仿真表明该算法加密效果好、解密准确、密钥空间大、抗初值微扰能力强。(239字)

147 2
|
1月前
|
机器学习/深度学习 搜索推荐 iOS开发
|

TorchEasyRec中INPUT_TILE 环境变量的三个模式

`NPUT_TILE` 是 tzrec 推荐系统在模型导出与在线推理阶段的优化策略,针对“1 用户 → N 商品”场景,避免用户特征重复计算。支持三种模式:`INPUT_TILE=1`(无优化)、`=2`(Embedding前tile)、`=3`(Embedding后tile,计算最优但需拆分Embedding表、依赖FG模式及torchrec,不支持macOS)。

182 6
来自: 智能搜索推荐  版块
|
2月前
|
监控 数据可视化 安全
|

从手动搬运到事件驱动:1949如何改变我对桌面自动化的认知

回顾这段探索,我发现自动化工具的价值不在于取代人,而在于把人从确定性劳动中解放出来,去解决那些不确定的、创造性的问题。无论是用协同自动化工具轻量化部署流程,还是探索多应用协同自动化配置思路,最终目的都是让机器做它擅长的事,让我们做自己擅长的事。

149 2
|
2月前
|
SQL 人工智能 自然语言处理
|

周级交付变分钟级?NoETL 指标平台营销活动分析实战

选择 Aloudata CAN 不仅是选择了一个高效的指标开发平台,更是选择了一条通往智能化数据消费的可靠路径。

198 0
|
2月前
|
安全 Python
|

本地自动化工具 零代码开箱即用 1949AI 适配个人办公单机轻量化运行

本文介绍零代码本地自动化工具的轻量化落地实践,专为个人办公单机场景设计:开箱即用、无需配置、资源占用低、离线运行、安全稳定。支持文件批量重命名、智能归类等高频任务,低配电脑亦流畅执行,零技术基础用户可快速上手。(239字)

741 7
|
2月前
|
自然语言处理 安全 JavaScript
|

Cnfans 反向海淘代购系统搭建经验

面向欧美的淘宝/1688代购集运平台,支持链接粘贴→自动抓取翻译计价→多币种支付→代采合包→国际物流清关→末端派送。集成PayPal/Stripe、4PX等API,采用Vue+FastAPI+Docker技术栈,合规覆盖IOSS、GDPR及仿牌审核,盈利含服务费、物流差价与增值服务。(239字)

274 2
|
3月前
|
人工智能 API Python
|

我用 Python 写诗,居然还挺像那么回事:生成式 AI 在内容创作中的实战玩法

我用 Python 写诗,居然还挺像那么回事:生成式 AI 在内容创作中的实战玩法

299 16
|
3月前
|
数据采集 存储 小程序
|

从踩坑到高效落地:微店商品详情API的实操心得

本文分享电商数据服务商对接微店商品详情API的实战经验:详解OAuth2.0授权、多类型商品字段兼容、滑动窗口限流三大典型坑及解决方案,助力私域电商实现商品/库存/价格实时同步,提升数据准确率至99.5%+。

287 1
|
3月前
|
数据采集 存储 前端开发
|

Scrapy框架入门指南

Scrapy是Python高性能工业级爬虫框架,基于Twisted异步架构,支持高并发、自动去重、重试与反爬。内置Spider、Item、Pipeline等模块,实现请求调度、数据提取到存储的标准化流程,大幅提升开发效率与系统稳定性。(239字)

382 1
|
3月前
|
安全
|

任务比例设置,如何影响模型的行为偏好

多任务微调中,任务比例绝非简单数据配比,而是塑造模型行为偏好的核心杠杆:它决定模型“更愿成为谁”——影响主任务吸附、风险偏好、风格迁移与隐性遗忘。平均分配最危险,后期微调即“性格旋钮”。比例即价值选择。

197 1
|
3月前
|
存储 并行计算 监控
|

batch size、sequence length 对显存的非线性影响

本文揭示大模型训练OOM的根源:batch size与sequence length并非独立线性因子,而是以乘法甚至平方(如attention的O(L²))方式非线性放大中间态显存。显存不是“用完”,而是被临界点“触发”崩溃。工程调优应优先关注单样本“重量”(length),而非盲目试探batch。

363 12

从现在到明天:智能体来了,领航员点亮智创未来

未来由无数“现在”拼接而成。智能体悄然优化日常:信息更快、分析更系统、决策更充分。但零散改变难通向明天。领航员的关键,在于整合碎片,构建清晰演进路径,让每次技术应用都成为整体转型的坚实一步——智创未来,始于连续而坚定的当下行动。(239字)

116 1
|
3月前
|
人工智能 资源调度 供应链
|

自主智能体:重塑传统行业的隐形革命

在AI从概念走向应用的时代,自主智能体正悄然重塑传统行业。它非单一模型,而是具备感知、决策、执行与优化能力的“数字员工”,已在制造、供应链、农业、医疗、建筑等领域实现深度赋能,推动人机协同新范式。

171 1
|
3月前
|
自然语言处理 安全
|

当客服系统开始稳定运行,模型往往已经退居二线

客服系统演进本质是责任回归:初期依赖“模型驱动”快速验证,但长期稳定必经“策略驱动”转型——通过规则引擎、风险拦截与人工兜底,将决策权从模型手中收回,让模型专注语言理解与表达。成熟系统的标志,不是模型多强大,而是它只做该做的事。

155 10
|
3月前
|
C++
|

从“能跑通微调”到“敢上线模型”,中间差了什么

本文揭示微调项目常卡在“能跑通却不敢上线”的困境,指出从训练成功到真实交付之间存在六道关键鸿沟:行为不确定性、极端风险、系统视角缺失、失控预案空白、用户视角缺位与模型冻结勇气不足。上线靠的不是模型多好,而是你是否已将不确定性关进笼子。

192 3
|
4月前
|
机器学习/深度学习 安全 算法
|

为什么很多团队从 PPO 转向 DPO,却又离不开 PPO

PPO与DPO并非新旧替代关系,而是分属对齐不同阶段的工具:PPO用于行为“塑形”(强干预、纠偏乱序),DPO用于偏好“定型”(稳定微调、精细排序)。选型关键看模型是否已基本可控——乱则用PPO,稳则用DPO。

247 1
|
4月前
|
搜索推荐 C++ 索引
|

RAG 的失败,大多在“切文档”那一刻就已经注定

RAG项目常败在文档切分:切得过小导致语义断裂,固定长度破坏表格/列表/步骤等关键结构。真正决定效果的,不是模型或向量库,而是chunk是否具备“语义完整性”——能否独立支撑答案。切分应以“生成可用性”为第一标准,而非检索便利性。

230 4
|
4月前
|
机器学习/深度学习 缓存 分布式计算
|

别再把 Spark / Dask 当“放大版 Pandas”了——聊聊大规模特征计算那些真能救命的技巧

别再把 Spark / Dask 当“放大版 Pandas”了——聊聊大规模特征计算那些真能救命的技巧

244 5
|
4月前
|
人工智能 供应链 定位技术
|

马上布局!智能体来了,共同智创未来商业版图

2025–2026年是“智能体(Agent)爆发元年”。AI正从工具升维为数字员工,实现自动化闭环与决策降本;商业入口转向“交互意图”,智能体即平台(AaaS)重构流量与生态。开发者应从小场景切入,沉淀私有知识,构建多智能体协作系统——智创未来,刻不容缓!

155 0
|
4月前
|
安全 算法 机器人
|

客服大模型 ≠ 问答机器人

客服大模型常因被误当作问答系统而失败。其核心并非“答对”,而是“判断”:识别风险、控制成本、把握边界。单纯依赖RAG与知识库无法解决策略问题,需通过微调与偏好对齐(如PPO/DPO)训练模型“何时不答”“如何回应”。成功关键在于理解客服是决策系统,而非技术堆砌。

205 1
|
4月前
|
存储
|

RAG 为什么总是“看起来能用,实际不好用”?

RAG效果不佳?问题往往不在模型,而在于文档切分。错误的切分会导致语义断裂、关键信息丢失,使召回内容“看似相关却无用”。本文深入剖析切分误区:固定长度切割、过度依赖overlap、忽视文档结构等,并提出核心原则——保障语义完整性。不同文档需定制切分策略,FAQ按问答切,技术文档依章节分,流程类保完整上下文。切分是RAG的地基,而非细节,唯有夯实,才能让检索与生成真正生效。

301 3
|
4月前
|
传感器 人工智能 架构师
|

别错过!智能体已到,携手智创未来勇攀高峰

从“对话”到“行动”,AI正走出聊天框,迈向解决复杂问题的新纪元。智能体(Agent)让大模型具备感知、思考与执行能力,开发者也迎来角色重塑:从写代码转向设计智能流程、打造工具、指挥多Agent协作。掌握Flow Engineering、Tool Making与Orchestration,借助LangChain等开源力量,你将成为AI 2.0时代的“架构师”。山就在那里,攀登始于第一步——构建你的第一个Agent,共赴智能未来。🏔️(238字)

128 1
|
4月前
|
搜索推荐 数据挖掘 API
|

京东商品评论API接口指南

京东商品评论API申请需通过京东开放平台,分个人与企业开发者权限。2025最新流程包括:注册账号、选择适用场景(如品牌合作需授权证明)、创建应用并申请接口权限(如item_review)。调用时需传入商品ID、页码、每页数量等参数。获取数据后可用于产品优化、运营提升与竞品分析,驱动业务决策。

272 4
|
4月前
|
SQL 人工智能 自然语言处理
|

从"提需求排队"到"开口即得",AI 数据分析加快数据民主化

让业务人员能够通过最自然的语言与数据展开高效、精准的对话,真正实现"数据随问随答,洞察触手可及"。

221 2
|
4月前
|
机器学习/深度学习 算法 计算机视觉
|

基于yolov10的吸烟检测系统

本研究基于YOLOv10深度学习算法,构建高精度、实时化吸烟行为检测系统。针对传统方法在复杂场景下检测率低、效率差的问题,利用YOLOv10的动态稀疏注意力与多尺度融合优势,提升小目标与遮挡情况下的识别能力,结合五分类体系实现对香烟、烟雾、电子烟等多目标精准定位。系统支持GPU加速,达30帧/秒以上实时检测,可广泛应用于医院、机场等公共场所,助力无烟环境建设与智能安防升级,推动禁烟政策高效落地。

364 16
|
4月前
|
机器学习/深度学习 传感器 安全
|

基于深度学习的驾驶员行为检测系统

本研究聚焦基于深度学习的驾驶员行为检测系统,针对传统传感器方法局限,提出融合YOLOv8与计算机视觉的新方案,实现对疲劳、分心驾驶等行为的精准实时识别,提升行车安全,推动智能交通与自动驾驶发展。

260 7
|
4月前
|
人工智能 C++
|

【AI大模型面试宝典十一】- 评估应用篇

【AI大模型面试宝典】聚焦高频考点,拆解核心原理!涵盖基础能力、对齐与效率评估,详解MMLU、C-Eval、HumanEval等基准,教你应对幻觉检测、指标设计等面试难题。代码实操+避坑指南,助你精准拿分,offer到手!点赞关注,持续更新中→ #大模型面试 #AI求职

247 0
|
4月前
|
区块链
|

从 NFT 到 RWA:资产上链,正在换一套“底层逻辑”

从 NFT 到 RWA:资产上链,正在换一套“底层逻辑”

330 1
|
4月前
|
存储
|

原码,反码,补码

原码是二进制的直观表示,符号位决定正负;反码用于解决负数计算问题,负数按位取反;补码在反码基础上加1,解决跨0误差。计算机中所有数据存储与运算均采用补码形式,可准确处理正负数运算,并能多表示一个特殊值-128。

562 5
|
5月前
|
数据可视化 开发者
|

业务架构图

业务架构图是将复杂业务拆解为分层、分模块、分功能的可视化工具,旨在清晰表达业务层级与关系。它淡化技术细节,聚焦业务逻辑,帮助客户理解服务全貌,助力开发者掌握系统结构,提升协作效率与迭代能力。

111 0
|
5月前
|
存储 C++
|

C++变量类型

C++变量类型包括基本类型如bool、char、int、float、double等,支持整数、浮点数、字符和布尔值的存储。还包含指针、数组、结构体、类、共用体等复合类型。变量命名由字母、数字、下划线组成,首字符须为字母或下划线。支持变量声明与定义分离,局部变量需显式初始化,静态变量自动初始化为0。

233 1
|
5月前
|
C++
|

解决Clion中写多个C++文件中存在多个main函数报错的问题

本文介绍如何在CLion中解决多个C++文件含main函数报错的问题。通过安装“C/C++ Single File Execution”插件,无需注释或新建项目,即可单独运行指定文件。配合右键操作与简单重构,实现高效刷题编码,方便文件管理与快速调试,提升开发效率。

312 1
|
5月前
|
消息中间件 Java 数据安全/隐私保护
|

异步消息组件MQ基础

本文介绍了MQ(消息队列)的基本概念,重点对比了同步调用与异步调用的区别,通过生活实例帮助理解。异步调用通过消息中间件实现解耦、异步处理和流量削峰,提升系统性能。常见的MQ如RabbitMQ、Kafka等适用于高并发场景。RabbitMQ基于AMQP协议,支持多语言,结合SpringAMQP可轻松实现消息收发。文章还演示了RabbitMQ的安装、配置、数据隔离及工作队列模型,强调“能者多劳”机制以优化消费效率。

152 0

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

0
今日
69522
内容
128
活动
439956
关注
你好!
登录掌握更多精彩内容

活跃用户

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务