循环编码:时间序列中周期性特征的一种常用编码方式
循环编码是深度学习中处理周期性数据的一种技术,常用于时间序列预测。它将周期性特征(如小时、日、月)转换为网络可理解的形式,帮助模型识别周期性变化。传统的one-hot编码将时间特征转换为分类特征,而循环编码利用正弦和余弦转换,保持时间顺序信息。通过将时间戳转换为弧度并应用sin和cos,每个原始特征只映射到两个新特征,减少了特征数量。这种方法在神经网络中有效,但在树模型中可能需谨慎使用。
揭秘豆瓣网站爬虫:利用lua-resty-request库获取图片链接
本文探讨了如何使用Lua的lua-resty-request库和爬虫代理IP技术从豆瓣网站高效获取图片链接。通过定制请求头部和代理服务,可以应对反爬虫机制,提高爬虫的稳定性和匿名性。示例代码展示了一种方法,但实际应用需考虑版权和法律法规。
使用Pandas解决问题:对比两列数据取最大值的五种方法
在数据处理和分析中,经常需要比较两个或多个列的值,并取其中的最大值。Pandas库作为Python中数据处理和分析的强大工具,提供了多种灵活的方法来实现这一需求。本文将详细介绍五种使用Pandas对比两列数据并取最大值的方法,通过代码示例和案例分析,帮助新手更好地理解并掌握这些技巧。
ClickHouse(05)ClickHouse数据类型详解
ClickHouse是一款分析型数据库,支持基础、复合和特殊数据类型。基础类型包括数值(Int、Float、Decimal)、字符串(String、FixedString、UUID)和时间(DateTime、DateTime64、Date)类型。数值类型如Int8-64和Float32-64,Decimal提供高精度计算。字符串中的FixedString有固定长度,UUID作为主键。时间类型最高精度到秒。复合类型有数组、元组、枚举和嵌套,其中数组和元组允许不同数据类型,枚举节省空间,嵌套类型是多维数组结构。特殊类型如Nullable表示可为空,Domain封装IPv4和IPv6。
eBPF动手实践系列三:基于原生libbpf库的eBPF编程改进方案
为了简化 eBPF程序的开发流程,降低开发者在使用 libbpf 库时的入门难度,libbpf-bootstrap 框架应运而生。本文详细介绍基于原生libbpf库的eBPF编程改进方案。
Tokenization 指南:字节对编码,WordPiece等方法Python代码详解
在2022年11月OpenAI的ChatGPT发布之后,大型语言模型(llm)变得非常受欢迎。从那时起,这些语言模型的使用得到了爆炸式的发展,这在一定程度上得益于HuggingFace的Transformer库和PyTorch等库。
蚂蚁集团持续探索生成式AI,20篇论文入选AI顶会NeurlPS
NeurlPS官方数据显示,本届会议共有12343篇有效论文投稿,接收率为26.1%。蚂蚁集团20篇论文被收录。 据了解,蚂蚁此次入选的论文,覆盖计算机视觉、自然语言处理、图神经网络、图像处理等多个人工智能和机器学习领域的前沿主题。其中七成以上论文聚焦生成式AI在高速发展中遇到的一些挑战和难题。
四张图片道清AI大模型的发展史(1943-2023)
现在最火的莫过于GPT了,也就是大规模语言模型(LLM)。“LLM” 是 “Large Language Model”(大语言模型)的简称,通常用来指代具有巨大规模参数和复杂架构的自然语言处理模型,例如像 GPT-3(Generative Pre-trained Transformer 3)这样的模型。这些模型在处理文本和语言任务方面表现出色,但其庞大的参数量和计算需求使得它们被称为大模型。当然也有一些自动生成图片的模型,但是影响力就不如GPT这么大了。
TimesNet:时间序列预测的最新模型
2023年4月发表了一个新的模型,它在时间序列分析的多个任务中实现了最先进的结果,如预测、imputation、分类和异常检测:TimesNet。
【DSW Gallery】介绍如何使用命令行工具提交DLC任务
本文介绍如何使用DLC命令行工具提交任务到指定的工作空间内. 同时,会介绍如何提交预付费和后付费的DLC训练任务
数字孪生核心技术揭秘(五):BIM究竟是解药还是毒药?
CIM模型的走红,也带热了BIM成为数字孪生城市应用的核心技术之一;基于BIM的数据挂载能力为数字孪生城市应用带来了极大想象空间,通过结合GIS/IOT数据可以连接人口、房屋、住户水电燃气信息、安防警务数据、等众多城市公共系统的信息资源,支撑数字孪生城市的决策分析。但是BIM数据的应用成本高也是一个不能回避的事实,无论是数据质量检查、数据格式转换、模型轻量化,到最终的渲染和应用,BIM模型在数字孪生场景下的应用链路都是非常冗长、复杂。因此BIM在数字孪生领域的应用,需要有目标与成本意识,以及合理的配套工具。
【DSW Gallery】DSW基础使用介绍
PAI-DSW是一款云端机器学习开发IDE,为您提供交互式编程环境,适用于不同水平的开发者。本文为您介绍PAI-DSW的功能特点以及界面的基础使用。
【Elastic Engineering】 Kibana:如何开始使用
Kibana 是用于在 Elasticsearch 中可视化数据的强大工具。 这是开始探索你的 Elasticsearch 数据的方法。Kibana 是一种开源分析和可视化工具,可通过基于浏览器的界面轻松搜索,可视化和探索大量数据。 除了 Elasticsearch,Logstash 和 Beats 之外,Kibana 是 Elastic Stack(以前称为 ELK Stack)的核心部分。
DataWorks数据服务介绍及最佳实践 | 《一站式大数据开发治理DataWorks使用宝典》
DataWorks作为一站式大数据开发治理平台,构建了从数据集成、数据开发、数据服务到应用开发的全链路解决方案。在整个大数据链路中,数据服务将数仓、数据库和数据应用进行串联,形成了一座数据与应用之间的桥梁。数据服务通过将数据封装成数据API的方式,可以为个人、团队及企业提供全面的数据开放及共享能力。借助这个平台,用户能够统一管理面向内外部的API服务。数据服务提供了向下对接数据源、向上支撑业务应用的有效连接。
实时数仓入门训练营:Hologres性能调优实践
《实时数仓入门训练营》由阿里云研究员王峰、阿里云高级产品专家刘一鸣等实时计算Flink版和 Hologres 的多名技术/产品一线专家齐上阵,合力搭建此次训练营的课程体系,精心打磨课程内容,直击当下同学们所遇到的痛点问题。由浅入深全方位解析实时数仓的架构、场景、以及实操应用,7 门精品课程帮助你 5 天时间从小白成长为大牛!
Search template — Elastic Stack 实战手册
Elasticsearch 允许使用模板语言 mustache 来预设搜索逻辑,在实际搜索时,通过参数中的键值,对来替换模板中的占位符,最终完成搜索
MaxCompute SQL与Hive对比分析及使用注意事项
一个使用过Hadoop的Hive框架的大数据开发工程师,往往基本掌握了阿里云的大数据计算服务MaxCompute的90%。本次分享主要通过详细对比MaxCompute和Hive各个方面的异同及开发使用的注意事项,方便用户来开发使用MaxCompute,实现从Hive秒速迁移到MaxCompute。
高效使用 PyODPS 最佳实践
以更清晰的认知 PyODPS,DataWorks PyODPS 节点以及 PyODPS 何时在计算集群运行,开发者如何利用 PyODPS 更高效地进行数据开发。
阿里风控大脑关于大数据应用的探索与实践
2019年双11阿里风控保护了约388亿消费者的操作行为,同时挡住了约22亿次恶意攻击。在首席技术官大数据专享会,阿里巴巴新零售技术事业群高级数据技术专家丁明峰为大家介绍了阿里风控大脑关于大数据应用的探索与实践,即风控领域如何应用大数据来构建风控体系?并详细介绍风控架构以及链路。
浏览器自动化能干嘛?三个零门槛实操案例
本文介绍零代码浏览器自动化工具如何解放重复劳动:教培老师作业归档、个人账单统计、打印店接单等场景,仅需拖拽配置即可实现全自动操作。无需编程,识别按钮、提取数据、处理文件、自动回复一气呵成,每天轻松省下数小时。(239字)
本地自动化工具 零代码开箱即用 1949AI 适配个人办公单机轻量化运行
本文介绍零代码本地自动化工具的轻量化落地实践,专为个人办公单机场景设计:开箱即用、无需配置、资源占用低、离线运行、安全稳定。支持文件批量重命名、智能归类等高频任务,低配电脑亦流畅执行,零技术基础用户可快速上手。(239字)
java工具:《判断当前时间是否在数据库起止时间范围内,是 ,返回true;否,返回false》
java工具:《判断当前时间是否在数据库起止时间范围内,是 ,返回true;否,返回false》
从提取式API到隧道代理:提升爬虫稳定性的5个核心秘籍
本文讨论了五个关键细节以优化爬虫代理使用:使用隧道代理、合理设置超时、利用连接池、引入重试机制、伪装请求头。通过隧道代理的实战代码示例,展示了如何实现这些优化,以提高爬虫的稳定性和效率。
基于自学习小AI的大模型算力集群智能优化方案
本方案基于原创轻量自学习小AI架构,专为大模型研发设计:通过GPU池化+小AI智能调度,无需新增高端GPU,即可将集群算力利用率从30%提升至80%以上,年省千万级成本。小AI自主学习、抗遗忘、守规则,零硬件投入、高技术壁垒、强场景适配。(239字)
2026年:大规模为Agent构建基础设施(API、数据、环境) 这不是简单的技术迭代,而是整个产业重心的转移
今天目睹AI Agent“巨硬”私有化部署奇迹:它自主打开浏览器、登录12306、查询深圳→宜春高铁票并关闭页面!这背后是2026年AI新范式——以Cloudflare“Markdown for Agents”降本增效,MiniMax M2.5以1美元/小时实现普惠智能。AI正从“能说会写”迈向“真干实事”,基础设施革命已来。
GEO时代,普通人也能抓住的AI红利
本文介绍“生成式引擎优化”(GEO)——普通人弯道超车的新机会。在AI搜索时代,无需烧钱投流,只需将真实专业经验结构化输出(如装修坑点、育儿知识),就能被ChatGPT等AI高频引用,获精准流量。早入局,竞争小,见效快。
大模型应用:向量数据库智能化索引优化:基于数据特征的最优算法自适应选择.32
本文介绍向量数据库的智能化索引优化方案:通过自动分析向量数据的维度、规模、分布与稀疏性四大特征,结合专家规则与轻量模型,动态匹配最优索引算法(如HNSW、IVF-PQ等),并经基准测试验证召回率、QPS与延迟,实现“分析—匹配—验证—部署”闭环,显著降低人工调参成本。
诗悦游戏基于DLF与EMR StarRocks降本38%
诗悦网络(2014年成立)是千人规模的研运一体手游公司,代表作有《长安幻想》《永夜降临》等。为支撑PB级开放世界新游《望月》,其原半托管StarRocks数据平台面临高成本、难运维、稳定性差等痛点。阿里云以Serverless StarRocks+DLF Paimon数据湖方案实现存算分离、多租户隔离与全托管运维,总成本降38%,查询性能提升40%+,RPO=0,全面赋能实时/近实时/离线场景。
大数据与机器学习
大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。