|
3月前
|
数据采集 安全 数据安全/隐私保护
|

代理地址≠协议!HTTPS使用误区拆解

跨境运营、爬虫从业者必看!99%人混淆的代理误区:代理地址带https≠HTTPS代理。关键看目标网站协议!目标为HTTPS时,即使代理是http,仍为HTTPS代理。掌握核心:目标URL决定代理类型,代理前缀仅影响传输加密。三步避坑指南,提升效率与隐私安全。

239 0
|
3月前
|
存储 人工智能 Serverless
|

AI时代最大的宝藏,也藏得最深:80%的企业知识沉睡在非结构化数据中

2026年AI进入应用爆发期,但非结构化数据成为瓶颈。Hologres推出AI原生新架构HSAP 2.0,融合语义搜索、多维分析与Serverless弹性,打造统一数据平面,让企业海量数据高效赋能AI,破解“数据熵”难题,支撑智能客服、销售助手等复杂场景,实现从“为人服务”到“为AI服务”的跨越。

253 1
来自: 实时数仓 Hologres  版块
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
|

AI大模型面试宝典

【AI大模型面试宝典】聚焦Transformer核心架构,拆解自注意力、多头机制、位置编码等高频考点,配代码实现与面试真题解析,助你快速掌握大模型面试关键知识点,无痛拿下offer!

213 0
来自: 人工智能平台PAI  版块
|
3月前
|
机器学习/深度学习 数据采集 人工智能
|

零代码基础也能懂的LoRA微调全指南

LoRA(低秩适应)让普通人也能用消费级显卡高效微调大模型。它不改动原模型,仅添加小型“适配模块”,以0.1%-1%的参数量实现接近全量微调的效果,快速打造专属AI助手,推动AI民主化。

275 0
|
4月前
|
机器学习/深度学习 算法 算法框架/工具
|

基于深度学习的水稻病虫害检测系统

水稻是全球半数人口的主食,病虫害导致年减产20%-40%。传统识别依赖人工,效率低、误判率高。深度学习技术,尤其是YOLOv8模型,可实现快速精准检测,提升防治效率,降低损失。结合Python生态与高质量标注数据集,构建智能检测系统,助力农业智能化与可持续发展,保障粮食安全。

231 2
|
4月前
|
人工智能 算法 图形学
|

C++基本介绍

C++是一种静态类型、编译式通用编程语言,支持过程化、面向对象和泛型编程。作为C的超集,它兼具高效性能与硬件控制能力,广泛应用于游戏开发、嵌入式系统、金融交易、图形处理及科学计算等领域,具有封装、继承、多态和抽象等特性,提升代码复用性与可维护性。(238字)

184 0
|
4月前
|
消息中间件 弹性计算 决策智能
|

实战演练:三步构建高可靠多智能体应用

本方案基于阿里云ECS与RocketMQ,构建多智能体系统,实现天气查询与行程规划协同。通过一键部署资源、创建Topic/Group,发布天气与行程助手Agent,用户可输入需求触发自动化任务执行,并通过消息轨迹追踪交互过程,快速体验多Agent协同应用场景。

168 0
|
4月前
|
机器学习/深度学习 存储 自然语言处理
|

大模型基础概念术语解释

大语言模型(LLM)基于Transformer架构,通过海量文本训练,具备强大语言理解与生成能力。其核心组件包括注意力机制、位置编码与嵌入层,支持文本分割为Token进行处理。参数量达十亿乃至万亿级,展现涌现与泛化能力,能完成多任务推理。混合专家模型(MoE)提升效率与扩展性,推动大模型持续发展。(237字)

480 0
|
4月前
|
数据采集 API 开发工具
|

CNFANS模式淘宝1688代购系统搭建指南

CNFANS模式整合国内电商资源,对接淘宝、1688商品库,为海外用户提供代购、集运、物流清关等一站式服务。通过API打通电商平台、支付(PayPal/Stripe)、国际物流及仓储系统,实现商品采集、下单、支付、发货全流程自动化,解决海外用户“买不到、价格高”难题,提升跨境购物体验。(238字)

329 6
|
4月前
|
存储 数据采集 分布式计算
|

一、数据仓库基石:核心理论、分层艺术与 ETL/ELT 之辨

数据仓库不是数据库的升级,而是面向决策的大脑。本篇带你快速厘清数据库 vs 数仓、分层架构逻辑、ETL/ELT区别,轻松建立数据思维骨架。

347 5
|
4月前
|
数据采集 JSON Java
|

实战解析:淘宝商品评论item_review接口

本文详解2025年淘宝开放平台taobao.item.review.get接口合规调用方法,涵盖权限申请、参数配置、HMAC-SHA1签名生成及Java原生代码实现,无需第三方SDK,可快速集成至数据采集系统,稳定获取商品评论详情。

259 0
|
4月前
|
数据采集 人工智能 监控
|

GEO优化核心:高权重新闻信源筛选与AI收录实战指南

在 GEO(搜索引擎地理优化)实操中,新闻信源的质量直接影响内容的 AI 收录率、关键词排名及转化效果。多数开发者面临两大核心问题:1. 低价值信源浪费成本:部分新闻平台价格低廉(30-50 元 / 篇),但发布后未被 AI 抓取,无法为 GEO 排名提供权重支撑;2. 广告属性触发审核拒绝:含联系方式(电话、微信号)的软文易被平台判定为广告,导致审核驳回,影响发布效率。

642 7
|
4月前
|
存储 传感器 人工智能
|

AI 十大论文精讲(八):知识蒸馏如何让大模型 “瘦身不减能”

本篇解读DistilBERT,一篇解决大模型落地难题的里程碑论文。面对BERT等大模型参数多、耗能高、部署难的问题,DistilBERT提出预训练阶段知识蒸馏,结合三重损失与轻量化设计,在保留97%性能的同时,模型缩小40%,推理提速60%,推动NLP迈向高效、绿色、边缘化应用。

642 8
|
4月前
|
JSON 搜索推荐 数据挖掘
|

闲鱼商品列表API完整指南

闲鱼商品列表API(goodfish.item_search)支持通过关键词、分类、价格等条件搜索商品,返回JSON格式数据,适用于比价工具、数据分析、推荐系统等场景。

433 2
|
5月前
|
弹性计算 关系型数据库 网络安全
|

新手零代码建站指南:3步搭建适配阿里云的企业官网

本文介绍新手用 PageAdmin CMS 搭建企业官网的核心流程:先准备阿里云资源(域名注册备案、2 核 4G 入门级 ECS、LNMP/LAMP 环境)及下载该 CMS;再分 3 步搭建(部署程序到 ECS、配置数据库完成安装、选模板填内容 + 域名解析与 SSL 配置);上线后需做数据备份、安全优化与性能监控。

579 0
来自: 人工智能平台PAI  版块
|
5月前
|
人工智能 安全 数据可视化
|

教育行业如何用AI搜索优化实现低成本获客?数聚酷实战指南

一、教育行业的“流量焦虑”与AI搜索的破局机会 “用户越来越难被触达了!”这是深圳某K12机构负责人的真实感叹。传统广告投放成本飙升,社交媒体流量见顶,用户决策路径从“主动搜索”转向“向AI提问”——数据显示,2025年教育类AI搜索咨询量同比激增350%,但能被AI优先推荐的机构不足5%。 数聚酷的观察:AI搜索(G…

411 3
来自: 智能搜索推荐  版块
|
5月前
|
人工智能 监控 搜索推荐
|

数聚酷:如何让AI答案显示品牌名?

如何让品牌被AI推荐?2025年,生成式引擎优化(GEO)取代传统SEO。通过构建权威内容库、用户导向创作、数据交叉验证与结构化输出,让AI主动引用你的品牌,抢占搜索心智入口。

474 1
来自: 智能搜索推荐  版块
|
5月前
|
数据可视化 搜索推荐 大数据
|

2026版基于python大数据的旅游可视化及推荐系统

本研究聚焦基于Python大数据的旅游可视化与推荐系统,利用Python在数据处理、分析和可视化方面的优势,结合Django框架与MySQL数据库,构建高效、个性化的旅游推荐平台。通过爬取多源旅游数据,运用机器学习算法挖掘用户偏好,实现精准推荐;借助Matplotlib、Seaborn等工具进行数据可视化,直观展示景点分布、客流趋势等信息。系统不仅提升游客决策效率与体验,也助力旅游企业优化产品设计与营销策略,推动行业数字化转型与智能化发展。

538 11
|
7月前
|
机器学习/深度学习 算法 数据可视化
|

脑机接口(BCI):从信号到交互的工程实践

蒋星熠Jaxonic以“星际旅人”之姿,深耕脑机接口(BCI)工程实践。本文从系统架构、信号处理到解码算法,融合代码示例与可视化,剖析EEG/EMG非侵入式方案的落地挑战。聚焦延迟、准确率与用户体验,在噪声中构建稳定闭环,探索意念交互的可解释性与可靠性,助力极客穿越“噪声星云”,驶向人脑的奇妙行星。(238字)

560 6
|
7月前
|
机器学习/深度学习 数据采集 算法
|

量子机器学习入门:三种数据编码方法对比与应用

在量子机器学习中,数据编码方式决定了量子模型如何理解和处理信息。本文详解角度编码、振幅编码与基础编码三种方法,分析其原理、实现及适用场景,帮助读者选择最适合的编码策略,提升量子模型性能。

543 8
|
7月前
|
运维 安全 Linux
|

【清爽加速】Windows 11 Pro 24H2-Emmy精简系统

“清爽加速”Windows 11 Pro 24H2 针对老旧或低配设备,通过精简系统、优化服务与简化装机流程,降低资源占用,提升运行流畅度,兼顾安全性与稳定性,让老设备也能轻松应对日常办公与轻度娱乐需求。

429 1
|
7月前
|
存储 分布式计算 资源调度
|

【赵渝强老师】阿里云大数据MaxCompute的体系架构

阿里云MaxCompute是快速、全托管的EB级数据仓库解决方案,适用于离线计算场景。它由计算与存储层、逻辑层、接入层和客户端四部分组成,支持多种计算任务的统一调度与管理。

596 1
来自: 大数据计算 MaxCompute  版块
|
8月前
|
Windows
|

Windows无法连接到打印机,请检查打印机名并重试 - 配置Windows 共享打印机出错;

WIN7共享打印机无法被WIN11连接,出现错误代码0x0000011b或0x00000709,可能是系统版本不兼容所致。本文提供多个轻量级修复工具,无需安装,双击即用,专为解决此类小问题设计,操作简单,适合普通用户快速修复打印机连接异常。

1034 0
|
9月前
|
存储 Java 大数据
|

Java 大视界 -- Java 大数据在智能家居能源消耗模式分析与节能策略制定中的应用(198)

简介:本文探讨Java大数据技术在智能家居能源消耗分析与节能策略中的应用。通过数据采集、存储与智能分析,构建能耗模型,挖掘用电模式,制定设备调度策略,实现节能目标。结合实际案例,展示Java大数据在智能家居节能中的关键作用。

695 0
|
9月前
|
JSON 人工智能 数据挖掘
|

LLM开发者必备:掌握21种分块策略让RAG应用性能翻倍

本文将系统介绍21种文本分块策略,从基础方法到高级技术,并详细分析每种策略的适用场景,以帮助开发者构建更加可靠的RAG系统。

520 0
|
9月前
|
存储 人工智能 自然语言处理
|

AI代理内存消耗过大?9种优化策略对比分析

在AI代理系统中,多代理协作虽能提升整体准确性,但真正决定性能的关键因素之一是**内存管理**。随着对话深度和长度的增加,内存消耗呈指数级增长,主要源于历史上下文、工具调用记录、数据库查询结果等组件的持续积累。本文深入探讨了从基础到高级的九种内存优化技术,涵盖顺序存储、滑动窗口、摘要型内存、基于检索的系统、内存增强变换器、分层优化、图形化记忆网络、压缩整合策略以及类操作系统内存管理。通过统一框架下的代码实现与性能评估,分析了每种技术的适用场景与局限性,为构建高效、可扩展的AI代理系统提供了系统性的优化路径和技术参考。

567 4
|
9月前
|
机器学习/深度学习 搜索推荐 API
|

京东拍立淘API-以图搜图中的图像搜索算法

京东拍立淘API基于深度学习,利用CNN提取图像特征,结合余弦相似度实现商品精准匹配。支持图片搜索、类目限定与相似度筛选,日均处理千万级请求,广泛应用于移动购物与社交带货场景。

443 4
|
10月前
|
机器学习/深度学习 运维 监控
|

实时异常检测实战:Flink+PAI 算法模型服务化架构设计

本文深入探讨了基于 Apache Flink 与阿里云 PAI 构建的实时异常检测系统。内容涵盖技术演进、架构设计、核心模块实现及金融、工业等多领域实战案例,解析流处理、模型服务化、状态管理等关键技术,并提供性能优化与高可用方案,助力企业打造高效智能的实时异常检测平台。

904 1
|
10月前
|
数据采集 运维 BI
|

Python 文件操作进阶|使用 shutil 实现高效文件复制

在开发和运维中,处理大量文件是常见需求,如备份配置、归档日志或构建部署包。手动复制粘贴已无法满足高效需求!Python 的 `shutil` 模块提供了强大的文件操作功能,支持单文件复制、目录树迁移及自动化任务构建。本文详解 `shutil.copy()` 基础用法与进阶技巧,如批量复制、自动路径检测、时间戳命名备份等,助你实现高效自动化。结合实战案例(如自动备份系统),让你的代码更专业!学习后,欢迎交流心得,一起精进 Python 技能。关注我,获取更多编程技巧与源码分享!

563 0
|
10月前
|
数据采集 人工智能 编解码
|

2025年颠覆闭源大模型?MonkeyOCR:这款开源AI文档解析模型,精度更高,速度更快!

还在依赖昂贵且慢的闭源OCR工具?华中科技大学开源的MonkeyOCR文档解析模型,以其超越GPT4o的精度和更快的推理速度,在单机单卡(3090)上即可部署,正颠覆业界认知。本文将深入解析其设计哲学、核心突破——大规模自建数据集,并分享实测体验与避坑指南。

2354 87
|
10月前
|
资源调度 Kubernetes 流计算
|

Flink在B站的大规模云原生实践

本文基于哔哩哔哩资深开发工程师丁国涛在Flink Forward Asia 2024云原生专场的分享,围绕Flink On K8S的实践展开。内容涵盖五个部分:背景介绍、功能及稳定性优化、性能优化、运维优化和未来展望。文章详细分析了从YARN迁移到K8S的优势与挑战,包括资源池统一、环境一致性改进及隔离性提升,并针对镜像优化、Pod异常处理、启动速度优化等问题提出解决方案。此外,还探讨了多机房容灾、负载均衡及潮汐混部等未来发展方向,为Flink云原生化提供了全面的技术参考。

565 9
来自: 实时计算 Flink  版块
|
11月前
|
存储 人工智能 自然语言处理
|

构建智能AI记忆系统:多智能体系统记忆机制的设计与技术实现

本文探讨了多智能体系统中记忆机制的设计与实现,提出构建精细化记忆体系以模拟人类认知过程。文章分析了上下文窗口限制的技术挑战,并介绍了四种记忆类型:即时工作记忆、情节记忆、程序性记忆和语义知识系统。通过基于文件的工作上下文记忆、模型上下文协议的数据库集成以及RAG系统等技术方案,满足不同记忆需求。此外,高级技术如动态示例选择、记忆蒸馏和冲突解决机制进一步提升系统智能化水平。总结指出,这些技术推动智能体向更接近人类认知的复杂记忆处理机制发展,为人工智能开辟新路径。

1141 5
|
12月前
|
存储 运维 Serverless
|

千万级数据秒级响应!碧桂园基于 EMR Serverless StarRocks 升级存算分离架构实践

碧桂园服务通过引入 EMR Serverless StarRocks 存算分离架构,解决了海量数据处理中的资源利用率低、并发能力不足等问题,显著降低了硬件和运维成本。实时查询性能提升8倍,查询出错率减少30倍,集群数据 SLA 达99.99%。此次技术升级不仅优化了用户体验,还结合AI打造了“一看”和“—问”智能场景助力精准决策与风险预测。

1081 69
|
12月前
|
人工智能 安全 搜索推荐
|

SecMulti-RAG:兼顾数据安全与智能检索的多源RAG框架,为企业构建不泄密的智能搜索引擎

本文深入解析SecMulti-RAG框架,该框架通过整合企业内部知识库、预构建专家知识及受控外部大语言模型,结合保密性过滤机制,解决企业在部署AI助手时面临的信息准确性、数据安全性和成本控制问题。它采用多层策略,利用三种知识来源(动态更新的企业知识、专家预写知识和按需外部知识),并通过微调的开源LLM生成最终响应,确保安全性与性能。实验表明,SecMulti-RAG在汽车行业技术报告生成任务中显著优于传统RAG系统,展现了其在企业环境中的实用性和优势。

531 5
|
12月前
|
数据采集 自然语言处理 JavaScript
|

Playwright多语言生态:跨Python/Java/.NET的统一采集方案

随着数据采集需求的增加,传统爬虫工具如Selenium、Jsoup等因语言割裂、JS渲染困难及代理兼容性差等问题,难以满足现代网站抓取需求。微软推出的Playwright框架,凭借多语言支持(Python/Java/.NET/Node.js)、统一API接口和优异的JS兼容性,解决了跨语言协作、动态页面解析和身份伪装等痛点。其性能优于Selenium与Puppeteer,在学术数据库(如Scopus)抓取中表现出色。行业应用广泛,涵盖高校科研、大型数据公司及AI初创团队,助力构建高效稳定的爬虫系统。

685 2
|
12月前
|
人工智能 算法 数据管理
|

制作像素风《饥荒》类游戏的整体蓝图和流程

制作一个像素风《饥荒》类游戏的整体蓝图和流程

697 9
|
12月前
|
自然语言处理 运维 DataWorks
|

智能体Agent解析:用自然语言重构数据开发工作方式

大数据开发治理平台DataWorks基于MCP协议,正式发布了DataWorks Agent,内置DataWorks MCP Server V1.0。该功能支持在DataWorks Data Studio中通过自然语言交互完成数据开发任务,实现了需求即代码的开发体验。本文将详细介绍如何通过配置使用DataWorks MCP Server进行任务的开发和运维管理。

892 3
|
12月前
|
机器学习/深度学习 编解码 人工智能
|

计算机视觉五大技术——深度学习在图像处理中的应用

深度学习利用多层神经网络实现人工智能,计算机视觉是其重要应用之一。图像分类通过卷积神经网络(CNN)判断图片类别,如“猫”或“狗”。目标检测不仅识别物体,还确定其位置,R-CNN系列模型逐步优化检测速度与精度。语义分割对图像每个像素分类,FCN开创像素级分类范式,DeepLab等进一步提升细节表现。实例分割结合目标检测与语义分割,Mask R-CNN实现精准实例区分。关键点检测用于人体姿态估计、人脸特征识别等,OpenPose和HRNet等技术推动该领域发展。这些方法在效率与准确性上不断进步,广泛应用于实际场景。

1379 64
|
14天前
|
机器学习/深度学习 自然语言处理 监控
|

别再用“好评率”骗自己了:用 Python + Transformers 做一套真正能用的情感分析系统

别再用“好评率”骗自己了:用 Python + Transformers 做一套真正能用的情感分析系统

124 8
|
22天前
|
人工智能 缓存 安全
|

OpenClaw:当 AI 开始 “做事”,我们该如何选择

OpenClaw是开源、本地优先的AI任务执行引擎,可听懂指令并自动完成文件处理、API调用等实操任务。支持本地/云端/混合部署,适配多类模型与交互入口(WebUI/CLI/IM),严守隐私与安全底线,兼顾可控性、成本与效率。(239字)

214 2
|
29天前
|
监控 数据挖掘 API
|

从踩坑到高效落地:淘宝商品详情API的实操心得

淘宝商品详情API提供全维度商品数据,含基础信息、详情页HTML、SKU、价格、销量等,支持比价、代购、数据分析及内容电商等场景,涵盖item.get、item.get_pro等核心接口,接入便捷高效。

171 4
|
1月前
|
自然语言处理 安全 JavaScript
|

Cnfans 反向海淘代购系统搭建经验

面向欧美的淘宝/1688代购集运平台,支持链接粘贴→自动抓取翻译计价→多币种支付→代采合包→国际物流清关→末端派送。集成PayPal/Stripe、4PX等API,采用Vue+FastAPI+Docker技术栈,合规覆盖IOSS、GDPR及仿牌审核,盈利含服务费、物流差价与增值服务。(239字)

151 2
|
1月前
|
数据采集 网络协议 API
|

从提取式API到隧道代理:提升爬虫稳定性的5个核心秘籍

本文讨论了五个关键细节以优化爬虫代理使用:使用隧道代理、合理设置超时、利用连接池、引入重试机制、伪装请求头。通过隧道代理的实战代码示例,展示了如何实现这些优化,以提高爬虫的稳定性和效率。

264 3
|
2月前
|
开发者 UED
|

开发者必看:HTTP 2xx 响应码的正确理解与运用

HTTP 2xx状态码表示请求成功,涵盖200(成功)、201(已创建)、202(已接受)、204(无内容)和206(部分内容)五类。开发者需准确识别以优化调试与用户体验。

427 10
|
3月前
|
安全 算法 C++
|

PPO 真正的应用场景,和你想的可能不一样

PPO并非“万能增强器”,而是精准解决模型“行为偏好错位”的工具:当模型“会但总选错”(如安全拒答生硬、风格不稳、高风险下过度自信)时,PPO通过人类偏好反馈重塑其选择倾向;若问题本质是“不会”,则PPO无效甚至有害。用对场景,事半功倍。

185 1
|
3月前
|
分布式计算 Serverless 测试技术
|

有奖实践:EMR Serverless StarRocks × Serverless Spark x DLF 共探 TPC 极致性能

免费试用 EMR Serverless StarRocks 与 EMR Serverless Spark,体验“实时分析冠军”与“批处理之神”的极致性能表现!

537 2
|
3月前
|
机器学习/深度学习 分布式计算 Java
|

训练时一套,线上跑一套?离线训练与在线服务数据一致性这坑,我替你踩过了

训练时一套,线上跑一套?离线训练与在线服务数据一致性这坑,我替你踩过了

312 8
|
3月前
|
存储 缓存 数据建模
|

StarRocks + Paimon: 构建 Lakehouse Native 数据引擎

12月10日,Streaming Lakehouse Meetup Online EP.2重磅回归,聚焦StarRocks与Apache Paimon深度集成,探讨Lakehouse Native数据引擎的构建。活动涵盖架构统一、多源联邦分析、性能优化及可观测性提升,助力企业打造高效实时湖仓一体平台。

487 39
来自: 实时计算 Flink  版块
|
3月前
|
消息中间件 监控 算法
|

数据不守规矩怎么办?——聊聊乱序事件的处理策略与实战要点

数据不守规矩怎么办?——聊聊乱序事件的处理策略与实战要点

202 11

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

5
今日
69323
内容
128
活动
439807
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务