|
数据采集 Web App开发 JavaScript
|

Python爬虫如何获取JavaScript动态渲染后的网页内容?

Python爬虫如何获取JavaScript动态渲染后的网页内容?

1441 6
|
数据采集 机器学习/深度学习 算法
|

别急着上算法,咱先把数据整明白:大数据分析的5个基本步骤,你都搞对了吗?

别急着上算法,咱先把数据整明白:大数据分析的5个基本步骤,你都搞对了吗?

906 4
|
存储 人工智能 监控
|

通过Milvus和Langchain快速构建基于百炼大模型的LLM问答系统

阿里云向量检索服务Milvus版是一款全托管向量检索引擎,并确保与开源Milvus的完全兼容性,支持无缝迁移。它在开源版本的基础上增强了可扩展性,能提供大规模AI向量数据的相似性检索服务。凭借其开箱即用的特性、灵活的扩展能力和全链路监控告警,Milvus云服务成为多样化AI应用场景的理想选择,包括多模态搜索、检索增强生成(RAG)、搜索推荐、内容风险识别等。您还可以利用开源的Attu工具进行可视化操作,进一步促进应用的快速开发和部署。

1445 4
|
机器学习/深度学习 人工智能 算法
|

AI鱼类识别技术原理及示例代码

本文详细解析了AI鱼类识别的代码示例,涵盖深度学习框架选择、数据集处理、模型构建与训练优化全流程。内容包括技术选型对比(如TensorFlow、PyTorch、YOLO系列)、数据准备流程(开源数据集与标注规范)、完整代码示例(以PyTorch版ResNet50改进模型为例)以及模型优化策略(如量化压缩、知识蒸馏)。此外,还提供了典型应用场景(如渔业资源监测系统)、模型评估指标及开源项目推荐,并针对常见问题(小样本、水下模糊、类别不平衡等)提出解决方案。

1006 5
|
传感器 机器学习/深度学习 人工智能
|

从“手环”到“健康顾问”:可穿戴设备背后的数据魔法

从“手环”到“健康顾问”:可穿戴设备背后的数据魔法

1127 10
|
机器学习/深度学习 数据可视化 算法
|

Ray Flow Insight:让分布式系统调试不再"黑盒"

作为Ray社区的积极贡献者,我们希望将这些实践中沉淀的技术能力回馈给社区,推动Ray生态在实际场景中的应用深度和广度。因此,2024年底我们做了激活AntRay开源社区的决策,AntRay会始终保持与官方Ray版本强同步(即AntRay会紧随Ray官方社区版本而发布),内部Feature亦会加速推向AntRay以开源研发模式及时反哺内部业务,同时会将社区关注的Feature提交至Ray官方社区,实现内外部引擎双向价值流动。后续我们会以系列文章形式同步蚂蚁推向开源的新特性,本文将重点介绍:Ray Flow Insight —— 让分布式系统调试不再"黑盒"。

1699 5
|
传感器 人工智能 物联网
|

智能戒指:小小指环,大大未来

智能戒指:小小指环,大大未来

805 21
|
机器学习/深度学习 人工智能 算法
|

分位数回归+共形预测:Conformalized Quantile Regression实现更可靠的预测区间

预测不确定性量化在数据驱动决策中至关重要,分位数回归(QR)虽能生成自适应预测区间,但缺乏严格覆盖保证;共形预测(CP)则提供覆盖保证但缺乏强自适应性。Conformalized Quantile Regression (CQR)融合两者优势,通过校准分位数回归模型,生成既适应数据特性又具备统计保证的预测区间。本文深入探讨CQR理论、实现与应用,展示其在医疗、金融等领域提升预测可靠性的潜力,为高风险决策提供更精确和可信的支持。

727 0
|
人工智能 JSON 自然语言处理
|

如何用大模型评估大模型——PAI-Judge裁判员大语言模型的实现简介

阿里云人工智能平台 PAI 推出 PAI-Judge 裁判员大模型,为用户构建符合应用场景的多维度、细粒度的评测体系,支持单模型评测和双模型竞技两种模式,允许用户自定义参数,实现准确、灵活、高效的模型自动化评测,为模型迭代优化提供数据支撑。 相比通用大模型尤其在回答确定性/数学类问题、角色扮演、创意文体写作、翻译等场景下,PAI-Judge 系列模型表现优异,可以直接用于大模型的评估与质检。

1576 8
来自: 人工智能平台PAI  版块
|
算法
|

重磅!2025年中科院预警期刊名单正式发布!

中国科学院文献情报中心发布的《国际期刊预警名单》旨在防范学术不端与不当出版行为,保护科研生态良性发展。2025年版本聚焦两大问题:学术不端(如引用操纵、论文工厂)和不利于中国学术成果国际化传播的行为(如中国作者占比过高或APC费用不合理)。预警名单动态调整,发布时点从年底改为年初,便于科研人员及时调整投稿策略。被列入预警名单的期刊可能影响职称评审及科研经费认可,建议优先选择中科院分区表推荐期刊,警惕“快速代发”陷阱,并关注期刊官网声明。未来科研生态将更注重规范化与原创性,推动高质量学术发表。维护健康的学术环境对提升中国科研全球影响力至关重要。

2304 0
|
数据采集 机器学习/深度学习 数据可视化
|

探索大数据分析的无限可能:R语言的应用与实践

探索大数据分析的无限可能:R语言的应用与实践

710 9
|
人工智能 自然语言处理 监控
|

大语言模型的解码策略与关键优化总结

本文系统性地阐述了大型语言模型(LLMs)中的解码策略技术原理及其应用。通过深入分析贪婪解码、束搜索、采样技术等核心方法,以及温度参数、惩罚机制等优化手段,为研究者和工程师提供了全面的技术参考。文章详细探讨了不同解码算法的工作机制、性能特征和优化方法,强调了解码策略在生成高质量、连贯且多样化文本中的关键作用。实例展示了各类解码策略的应用效果,帮助读者理解其优缺点及适用场景。

1498 20
|
编解码 缓存 Prometheus
|

「ximagine」业余爱好者的非专业显示器测试流程规范,同时也是本账号输出内容的数据来源!如何测试显示器?荒岛整理总结出多种测试方法和注意事项,以及粗浅的原理解析!

本期内容为「ximagine」频道《显示器测试流程》的规范及标准,我们主要使用Calman、DisplayCAL、i1Profiler等软件及CA410、Spyder X、i1Pro 2等设备,是我们目前制作内容数据的重要来源,我们深知所做的仍是比较表面的活儿,和工程师、科研人员相比有着不小的差距,测试并不复杂,但是相当繁琐,收集整理测试无不花费大量时间精力,内容不完善或者有错误的地方,希望大佬指出我们好改进!

1230 16
|
自然语言处理 算法 JavaScript
|

面向长文本的多模型协作摘要架构:多LLM文本摘要方法

多LLM摘要框架通过生成和评估两个步骤处理长文档,支持集中式和分散式两种策略。每个LLM独立生成文本摘要,集中式方法由单一LLM评估并选择最佳摘要,而分散式方法则由多个LLM共同评估,达成共识。论文提出两阶段流程:先分块摘要,再汇总生成最终摘要。实验结果显示,多LLM框架显著优于单LLM基准,性能提升最高达3倍,且仅需少量LLM和一轮生成评估即可获得显著效果。

935 10
|
供应链 监控 数据挖掘
|

1688 商品详情接口系列(1688 API)

1688商品详情接口系列(1688 API)是阿里巴巴旗下批发电商平台提供的强大工具,支持开发者、商家获取商品的详细信息。通过商品基本信息、价格库存、图片和描述查询接口,用户可以精准高效地获取商品数据,涵盖电商运营、数据分析、市场调研等领域,极大提升工作效率。示例代码展示了如何使用Python调用这些接口,助力电商平台整合、价格监控、商品展示优化及库存管理等应用场景。

699 6
|
Ubuntu Linux Shell
|

/etc/rc.d/rc.local 的作用

/etc/rc.d/rc.local是Linux系统中的一个重要配置文件,其主要作用是在系统启动时执行特定的命令或脚本。以下是关于/etc/rc.d/rc.local的详细解释: ### 作用 * **系统启动任务配置**:该文件允许系统管理员或用户配置在系统启动时需要自动运行的任务。这些任务可以是启动服务、运行特定程序或执行脚本等。 * **开机自启动程序**:通过编辑/etc/rc.d/rc.local文件,用户可以自定义开机启动程序。只需将需要开机启动的程序命令或脚本路径添加到该文件中,并在系统启动时该文件将被自动执行。 ### 文件内容 * 通常包含一个shell脚本,该脚本在

1528 12
|
运维 算法
|

基于Lipschitz李式指数的随机信号特征识别和故障检测matlab仿真

本程序基于Lipschitz李式指数进行随机信号特征识别和故障检测。使用MATLAB2013B版本运行,核心功能包括计算Lipschitz指数、绘制指数曲线、检测故障信号并标记异常区域。Lipschitz指数能够反映信号的局部动态行为,适用于机械振动分析等领域的故障诊断。

582 4
|
网络协议 程序员 数据库
|

什么是公网IP和内网IP

【10月更文挑战第27天】公网IP与内网IP是网络通信中的两个重要概念。公网IP是互联网上的唯一标识,而内网IP仅在局域网内部有效,用于局域网内的设备通信。由于IPv4地址资源有限,通常一个公司或家庭只有一个公网IP,内部设备通过NAT(网络地址转换)技术共享该公网IP访问互联网。这样不仅节省了IP资源,还提高了网络安全性和稳定性。

1748 0
|
机器学习/深度学习 弹性计算 人工智能
|

大模型进阶微调篇(三):微调GPT2大模型实战

本文详细介绍了如何在普通个人电脑上微调GPT2大模型,包括环境配置、代码实现和技术要点。通过合理设置训练参数和优化代码,即使在无独显的设备上也能完成微调,耗时约14小时。文章还涵盖了GPT-2的简介、数据集处理、自定义进度条回调等内容,适合初学者参考。

3104 6
来自: 人工智能平台PAI  版块
|
机器学习/深度学习 存储 自然语言处理
|

基础与构建:GraphRAG架构解析及其在知识图谱中的应用

【10月更文挑战第11天】随着数据的不断增长和复杂化,传统的信息检索和生成方法面临着越来越多的挑战。特别是在处理结构化和半结构化数据时,如何高效地提取、理解和生成内容变得尤为重要。近年来,一种名为Graph Retrieval-Augmented Generation (GraphRAG) 的新架构被提出,它结合了图神经网络(GNNs)和预训练语言模型,以提高多模态数据的理解和生成能力。本文将深入探讨GraphRAG的基础原理、架构设计,并通过实际代码示例展示其在知识图谱中的应用。

2207 0
|
并行计算 PyTorch 编译器
|

pytorch 安装 + 搭配PyCharm

pytorch + pycharm

3681 1
|
数据可视化 IDE 数据挖掘
|

Python助您洞察先机:2024年A股市场数据抓取与分析实战

【10月更文挑战第1天】随着2024年中国股市的强劲表现,投资者们对于如何高效获取并分析相关金融数据的需求日益增长。本文旨在介绍如何利用Python这一强大的编程语言来抓取最新的A股交易数据,并通过数据分析技术为个人投资决策提供支持。

2157 2
|
存储 人工智能 并行计算
|

Pai-Megatron-Patch:围绕Megatron-Core打造大模型训练加速生态

Pai-Megatron-Patch(https://github.com/alibaba/Pai-Megatron-Patch)是阿里云人工智能平台PAI研发的围绕Nvidia MegatronLM的大模型开发配套工具,旨在帮助开发者快速上手大模型,完成大模型(LLM)相关的高效分布式训练,有监督指令微调,下游任务评估等大模型开发链路。最近一年来,我们持续打磨Pai-Megatron-Patch的性能和扩展功能,围绕Megatron-Core(以下简称MCore)进一步打造大模型训练加速技术生态,推出更多的的训练加速、显存优化特性。

2097 9
来自: 人工智能平台PAI  版块
|
机器学习/深度学习 算法 TensorFlow
|

交通标志识别系统Python+卷积神经网络算法+深度学习人工智能+TensorFlow模型训练+计算机课设项目+Django网页界面

交通标志识别系统。本系统使用Python作为主要编程语言,在交通标志图像识别功能实现中,基于TensorFlow搭建卷积神经网络算法模型,通过对收集到的58种常见的交通标志图像作为数据集,进行迭代训练最后得到一个识别精度较高的模型文件,然后保存为本地的h5格式文件。再使用Django开发Web网页端操作界面,实现用户上传一张交通标志图片,识别其名称。

898 7
|
存储 Ubuntu 搜索推荐
|

构建多用户的 Jupyter 服务器 —— 利用 JupyterHub

【8月更文第29天】**摘要** JupyterHub 是一个易于使用的、可伸缩的、多用户的 Jupyter Notebook 服务器。它允许您在一个集中式服务器上托管多个独立的 Jupyter Notebook 会话,非常适合团队协作和教学环境。本文将详细介绍如何安装和配置 JupyterHub,以及如何利用它来构建一个多用户 Jupyter 服务器环境。

5741 0
|
机器学习/深度学习 边缘计算 PyTorch
|

PyTorch 与边缘计算:将深度学习模型部署到嵌入式设备

【8月更文第29天】随着物联网技术的发展,越来越多的数据处理任务开始在边缘设备上执行,以减少网络延迟、降低带宽成本并提高隐私保护水平。PyTorch 是一个广泛使用的深度学习框架,它不仅支持高效的模型训练,还提供了多种工具帮助开发者将模型部署到边缘设备。本文将探讨如何将PyTorch模型高效地部署到嵌入式设备上,并通过一个具体的示例来展示整个流程。

4111 1
|
分布式计算 Serverless 数据处理
|

EMR Serverless Spark 实践教程 | 通过 Apache Airflow 使用 Livy Operator 提交任务

Apache Airflow 是一个强大的工作流程自动化和调度工具,它允许开发者编排、计划和监控数据管道的执行。EMR Serverless Spark 为处理大规模数据处理任务提供了一个无服务器计算环境。本文为您介绍如何通过 Apache Airflow 的 Livy Operator 实现自动化地向 EMR Serverless Spark 提交任务,以实现任务调度和执行的自动化,帮助您更有效地管理数据处理任务。

787 0
|
Ubuntu Python
|

ubuntu build install python3.12 and config pip

该脚本用于在 Ubuntu 上编译安装 Python 3.12,并配置 pip 使用国内镜像源。主要步骤包括安装依赖、下载并解压 Python 源码、编译安装、创建符号链接、配置 pip 源,以及验证安装和更新 pip。通过运行此脚本,可以快速完成 Python 3.12 的安装和配置。

2388 0
来自: 大数据运维SREWorks  版块
|
数据采集 监控 大数据
|

不限量住宅IP代理指南2024版

住宅IP代理是一种特别的代理形式,它通过互联网服务提供商(ISP)池获取真实住宅用户的IP地址。在此背景下,住宅IP通常与特定的物理位置绑定,从而在网络上看起来像是真实用户。该服务为企业及个人执行数据密集型活动时提供了可靠的支持

1431 1
|
机器学习/深度学习 人工智能 算法
|

深入了解AI算法及其实现过程

人工智能(AI)已经成为现代技术发展的前沿,广泛应用于多个领域,如图像识别、自然语言处理、智能推荐系统等。本文将深入探讨AI算法的基础知识,并通过一个具体的实现过程来展示如何将AI算法应用于实际问题。

2309 0
|
人工智能 自然语言处理
|

X Detector:最值得信赖的多语言 AI 内容检测器

**X Detector** 提供直观界面和高效AI文本检测。支持20种语言,无需登录即可免费使用。高准确率、快速响应,几秒内显示结果。适合多语言内容筛查。尝试[AI Detector](https://xdetector.ai/),轻松检测AI生成文本。

1680 1
|
机器学习/深度学习 数据采集 人工智能
|

「AIGC」Stable Diffusion教程详解

**Stable Diffusion教程摘要:** Stable Diffusion是AI绘画工具,利用GAN学习艺术家风格。基础教程涵盖软件介绍、配置需求(NVIDIA GPU、Windows 10/11)、安装及基础操作,如模型切换、VAE使用、采样步数调整等。AI作画原理涉及U-net、Diffusion模型、文本映射(如CLIP)和条件生成。Stable Diffusion运用Latent Diffusion Model从潜在空间生成高清图像,开源且在艺术创作中广泛应用。

942 0
|
自然语言处理 算法 API
|

「AIGC」Python实现tokens算法

使用Python的`transformers`库,通过`AutoTokenizer`初始化BERT tokenizer,对文本进行分词统计,减少API调用。示例展示从开始到结束的时间,包括文本转换为tokens的数量和过程耗时。

880 0
|
并行计算 PyTorch 算法框架/工具
|

LLM推理引擎怎么选?TensorRT vs vLLM vs LMDeploy vs MLC-LLM

有很多个框架和包可以优化LLM推理和服务,所以在本文中我将整理一些常用的推理引擎并进行比较。

2570 2
|
数据采集 人工智能 监控
|

阿里云百炼模型训练实战流程:从入门到实战应用

【7月更文第2天】阿里云百炼是AI大模型开发平台,提供一站式服务,涵盖模型训练到部署。用户从注册登录、创建应用开始,选择模型框架,配置资源。接着,进行数据准备、预处理,上传至阿里云OSS。模型训练涉及设置参数、启动训练及调优。训练后,模型导出并部署为API,集成到应用中。平台提供监控工具确保服务性能。通过百炼,开发者能高效地进行大模型实战,开启AI创新。

5529 2
|
人工智能 弹性计算 运维
|

操作系统智能助手OS Copilot 产品体验评测

**OS Copilot 体验摘要** - AI爱好者评价其部署简单,一键快捷,无使用障碍,适合作为智能助手。 - 初次使用者表示聊天功能最吸引人,但无法立即评出对工作帮助的程度。 - 愿意推荐给他人,且有参与开源开发及模型训练的兴趣。 **功能反馈** - 用户尝试了全部功能,特别喜欢聊天交互。 - 与通义千问等多款产品对比,OS Copilot的速度较快。 - 希望增加功能:集成云端Notebook,自动代码生成和错误修正,支持所有操作系统。 - 潜在应用:与阿里云服务如魔搭、ECS结合,打造智能开发和工作流程。

523 1
|
数据采集 分布式计算 大数据
|

森马基于MaxCompute+Hologres+DataWorks构建数据中台

本次案例主要分享森马集团面对多年自建的多套数仓产品体系,通过阿里云MaxCompute+Hologres+DataWorks统一数仓平台,保障数据生产稳定性与数据质量,减少ETL链路及计算时间,每年数仓整体费用从300多万降到180万。

2728 11
来自: 实时数仓 Hologres  版块
|
Python
|

python批量处理视频文件并重命名

该Python脚本执行以下任务:遍历`source_folder`中的所有MP4视频文件,将其移动到`destination_folder`,并按顺序重命名(视频1.mp4,视频2.mp4,...)。

484 0
|
SQL BI HIVE
|

【Hive SQL 每日一题】统计用户留存率

用户留存率是衡量产品成功的关键指标,表示用户在特定时间内持续使用产品的比例。计算公式为留存用户数除以初始用户数。例如,游戏发行后第一天有10000玩家,第七天剩5000人,第一周留存率为50%。提供的SQL代码展示了如何根据用户活动数据统计每天的留存率。需求包括计算系统上线后的每日留存率,以及从第一天开始的累计N日留存率。通过窗口函数`LAG`和`COUNT(DISTINCT user_id)`,可以有效地分析用户留存趋势。

2067 1
|
监控 数据处理 索引
|

整合LlamaIndex与LangChain构建高级的查询处理系统

该文阐述了如何结合LlamaIndex和LangChain构建一个扩展性和定制性强的代理RAG应用。LlamaIndex擅长智能搜索,LangChain提供跨平台兼容性。代理RAG允许大型语言模型访问多个查询引擎,增强决策能力和多样化回答。文章通过示例代码展示了如何设置LLM、嵌入模型、LlamaIndex索引及查询引擎,并将它们转换为LangChain兼容的工具,实现高效、精准的问题解答。通过多代理协作,系统能处理复杂查询,提高答案质量和相关性。

1377 0

PR曲线、ROC曲线、AUC能干个啥

评判二分类分类器性能的指标有那么多,为什么PR曲线、ROC曲线、AUC值这几个用的比较多。本文从概念、代码实现方面着手进行分享。

1226 4
|
存储 SQL 分布式计算
|

【史上最全】Hadoop精选18道面试题(附回答思路)

【史上最全】Hadoop精选18道面试题(附回答思路)

2122 1
|
Oracle 关系型数据库 流计算
|

flink cdc 同步问题之报错org.apache.flink.util.SerializedThrowable:如何解决

Flink CDC(Change Data Capture)是一个基于Apache Flink的实时数据变更捕获库,用于实现数据库的实时同步和变更流的处理;在本汇总中,我们组织了关于Flink CDC产品在实践中用户经常提出的问题及其解答,目的是辅助用户更好地理解和应用这一技术,优化实时数据处理流程。

1438 0
来自: 实时计算 Flink  版块
|
SQL 分布式计算 HIVE
|

基于 Kyuubi 实现分布式 Flink SQL 网关

本文整理自网易互娱资深开发工程师、Apache Kyuubi Committer 林小铂的《基于 Kyuubi 实现分布式 Flink SQL 网关》分享。

105510 64
来自: 实时计算 Flink  版块
|
数据采集 存储 前端开发
|

pdd 商品详情数据接口Python

pdd 商品详情数据接口Python

2044 0
|
SQL DataWorks 关系型数据库
|

Next Station of Flink CDC

本文整理自阿里云智能 Flink SQL、Flink CDC 负责人伍翀(花名:云邪),在 Flink Forward Asia 2023 主会场的分享。

1133 0
来自: 实时计算 Flink  版块
|
机器学习/深度学习 算法 Python
|

Python高级算法——支持向量机(Support Vector Machine,SVM)

Python高级算法——支持向量机(Support Vector Machine,SVM)

1511 2
|
机器学习/深度学习 传感器 自动驾驶
|

未来之路:大模型技术在自动驾驶的应用与影响

本文深入分析了大模型技术在自动驾驶领域的应用和影响,万字长文,慢慢观看~ 文中首先概述了大模型技术的发展历程,自动驾驶模型的迭代路径,以及大模型在自动驾驶行业中的作用。 接着,详细介绍了大模型的基本定义、基础功能和关键技术,特别是Transformer注意力机制和预训练-微调范式。 文章还介绍了大模型在任务适配性、模型变革和应用前景方面的潜力。 在自动驾驶技术的部分,详细回顾了从CNN到RNN、GAN,再到BEV和Transformer结合的技术迭代路径,以及占用网络模型的应用。 最后,文章重点讨论了大模型如何在自动驾驶的感知、预测和决策层面提供赋能,突出了其在该领域的重要性和影响力。

2900 56
|
算法 Java Apache
|

运筹优化工具库介绍(二)

运筹优化工具库介绍

3030 0
|
数据可视化 Go vr&ar
|

41 个下载免费 3D 模型的最佳网站

在哪里可以找到3D模型?现在许多网站都提供了大量免费和高质量的3D模型,以帮助所有3D创作者节省时间和精力。但是,并非您找到的所有3D模型都有质量保证或免费供个人使用! 在本文中,我们收集了40多个最佳3D模型网站,包括室内设计,建筑外观设计,动物,物体,车辆,游戏角色和环境等,我们还为您提供了用户指南,以便您可以专注于创建其他一些令人惊叹的作品。

3438 0

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

0
今日
69522
内容
128
活动
439956
关注
你好!
登录掌握更多精彩内容

活跃用户

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务