|
机器学习/深度学习 存储 Java
|

大规模深度学习预测场景下 codegen 的思考与应用

RTP 系统是一个面向搜索和推荐的 ranking 需求,支持多种模型的在线 inference 服务。本文主要讨论了在 RTP 的存储读取和特征生成场景中 codegen 的应用。利用 IR 和 C++ 混合编程,解决系统的抽象和性能问题,并提供 schedule 的优化能力。

6502 0
来自: 智能搜索推荐  版块
|
分布式计算 测试技术 OLAP
|

MaxCompute数仓维护心得-五叶草

在维护客户基于MaxCompute搭建的数据仓库时,我们遇到过一些问题,踩过一些坑,同时积累了一些经验,也初步形成了一套操作流程规范,在这里与大家以Tip的形式与大家分享一下。 Tip1.避免同步视图 同步的源数据要避免使用视图,在客户的生产环境上曾经出现过这样的情况:由于生成视图的存储过程优化不好,同步视图在同步任务发起请求后很久没有生成出来,导致同步任务及后续的ETL挂起达数小时之久,所以后续和数据提供方接洽,将数据源从视图换为表,保证在同步之前同步表里的内容已经更新。

3429 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 Hadoop Java
|

E-MapReduce集群支持预装Phoenix

Apache Phoenix是构建在HBase上的SQL中间层,它可以让开发者使用SQL语言对HBase进行相关操作,E-MapReduce在emr-2.0.0版本开始支持集群预装Phoenix,本文对此进行了介绍。

3198 0
|
分布式计算 安全 BI
|

云上数据仓库选型指南

云数据仓库是构建在云上的新一代数据仓库解决方案,如何选择符合企业需求的云数据仓库,选择时应考虑哪些关键问题成为很多企业管理者关心的问题。本文参考TDWI以及Forrester的研究报告内容,对云数据仓库选型参考依据进行介绍,希望能对您在云数据仓库选型时有所帮助。

4202 0
来自: 大数据计算 MaxCompute  版块
|
SQL 流计算
|

Blink 漫谈系列 - HelloWorld

3268 0
来自: 实时计算 Flink  版块
|
分布式计算 Java DataX
|

MaxCompute读取分析OSS非结构化数据的实践经验总结

1. 本文背景 很多行业的信息系统中,例如金融行业的信息系统,相当多的数据交互工作是通过传统的文本文件进行交互的。此外,很多系统的业务日志和系统日志由于各种原因并没有进入ELK之类的日志分析系统,也是以文本文件的形式存在的。

3363 0
来自: 大数据计算 MaxCompute  版块

为什么要写技术文章-我对写作收获的理解

为了迎接更好的自己。 过去的止步不前 程序员最反感别人没写文档,最不喜欢自己写文档。 我一直很认同技术人员应该持续写技术文章,可以总结经验,打造个人品牌,等等。但加上公司内部分享,实际也没写多少篇,这可能也是很多技术人员的通病吧。

2977 0
|
SQL 分布式计算 DataWorks
|

MaxCompute安全管理指南-案例篇

通过《MaxCompute安全管理-基础篇》了解到MaxCompute和DataWorks的相关安全模型、两个产品安全方面的关联,以及各种安全操作后,本篇主要给出一些安全管理案例,给安全管理的成员作为参考。

2723 0
来自: 大数据计算 MaxCompute  版块
|
资源调度 分布式计算 大数据
|

面向大数据与云计算调度挑战的阿里经济体核心调度系统—Fuxi 2.0全揭秘

随阿里经济体和阿里云丰富的业务需求(尤其是双十一)和磨练,伏羲的内涵不断扩大,从单一的资源调度器(对标开源系统的YARN)扩展成大数据的核心调度服务,覆盖数据调度(Data Placement)、资源调度(Resouce Management)、计算调度(Application Manager)、和本地微(自治)调度(即正文中的单机调度)等多个领域,并在每一个细分领域致力于打造超越业界主流的差异化能力。

4563 1
来自: 大数据计算 MaxCompute  版块
|
分布式计算 大数据 TensorFlow
|

开源大数据周刊-第68期

资讯: 2020年我国大数据产业将破万亿 近日,《2017中国大数据产业发展白皮书》发布。《每日经济新闻》记者对照工信部及各地出台的大数据发展规划进行梳理后发现,到2020年,我国大数据相关产品和服务业务收入将突破1万亿元,年均复合增长率保持30%左右。

2458 0
|
SQL 消息中间件 存储
|

小米流式平台架构演进与实践

小米业务线众多,从信息流,电商,广告到金融等覆盖了众多领域,小米流式平台为小米集团各业务提供一体化的流式数据解决方案,主要包括数据采集,数据集成和流式计算三个模块。目前每天数据量达到 1.2 万亿条,实时同步任务 1.5 万,实时计算的数据 1 万亿条。

2794 0
来自: 实时计算 Flink  版块
|
Python 分布式计算 流计算
|

Apache Flink 1.9.0 为什么将支持 Python API ?

众所周知,Apache Flink(以下简称 Flink)的 Runtime 是用 Java 编写的,而即将发布的 Apache Flink 1.9.0 版本则会开启新的 ML 接口和新的 flink-python 模块,Flink 为什么要增加对 Python 的支持,想必大家一定好奇。

4173 0
来自: 实时计算 Flink  版块
|
存储 人工智能 分布式计算
|

云计算,能回答地球最终流浪到哪里吗?

云作为前沿科技的集大成者,除了可以提供便利的计算、存储基础设施之外,还可以提供丰富的数据智能能力,通过已知的数据来挖掘未知的深层信息。例如通过阿里云的大数据计算平台MaxCompute可以帮助科学家进行海量数据的处理,通过机器学习PAI可以轻松调用各种算法模型,来确定天体类型,甚至分析温度、空气成分等信息。

2670 0
来自: 大数据计算 MaxCompute  版块
|
SQL 存储 消息中间件
|

实时计算在贝壳的实践

本文由贝壳找房的资深工程师刘力云将带来Apache Flink技术在贝壳找房业务中的应用,通过企业开发的实时计算平台案例的分享帮助用户了解Apache Flink的技术特性与应用场景。

2718 0
来自: 实时计算 Flink  版块
|
分布式计算 资源调度 Hadoop
|

2013年北京hadoop in china见闻

谈下这次参加中国hadoop技术峰会的收获,两天大约听了20场次,上午的是必听的,下午就听了一些关心。大数据峰会肯定是包括技术和技术之上的应用的。各个公司结合自己的业务特点来构建集群,特别听到了电信和银行类的公司在用hadoop或者尝试去用。应用的情况简单的出出报表,复杂点可能会涉及到一些机器学习和

1775 0

Hawkeye:TopN慢query的获取与优化

之前的文章介绍了Hawkeye的底层分析系统(待补充文章),其中讲到了基于Blink的Batch任务实现方法,前段时间在优化慢query查询的过程中开发了应用TopN慢query获取的分析任务,其中用到的分析方法适用于其他类似求TopN的问题中。

2104 0
来自: 智能搜索推荐  版块
|
SQL HIVE 大数据
|

HIVE优化浅谈

HIVE是数据仓库和交互式查询的优秀框架,但随着数据的增多,join的复杂度和性能问题,需要花时间和精力解决性能优化的问题。除了基于HIVE本身优化,还可以接入计算性能更好的框架,SparkSQL relational cache对使用者透明,开发不需要关心底层优化逻辑,将更多精力放入业务设计开发。

2494 0
|
机器学习/深度学习 数据可视化 大数据
|

开源大数据周刊-第103期

Google宣布在2016年发布的数据可视化工具Data Studio,以及2017年发布的的数据预先处理服务Cloud Dataprep,现在都正式可用。

1838 0
|
大数据 Apache Python
|

Koalas:让 pandas 轻松切换 Apache Spark

4 月 24 日,Databricks 在 Spark + AI 峰会上开源了一个新产品 Koalas,它增强了 PySpark 的 DataFrame API,使其与 pandas 兼容。本文转自:https://www.infoq.cn/article/tvGrtwJxCR1kQDs_kqa4

2875 0
|
存储 大数据 BI
|

Iceberg 在基于 Flink 的流式数据入库场景中的应用

本文以流式数据入库的场景为基础,介绍引入 Iceberg 作为落地格式和嵌入 Flink sink 的收益,并分析了当前可实现的框架及要点。

4062 0
来自: 实时计算 Flink  版块
|
存储 分布式计算 对象存储
|

Alluxio技术内幕:如何百倍加速云端元数据操作

本文转载自:https://zhuanlan.zhihu.com/p/49499385 我们在这篇文章介绍最新版本(1.8.1版本)的Alluxio如何通过使用指纹特性和底层存储批量操作加快Alluxio元数据操作。

2514 0
|
分布式计算 大数据 Apache
|

Koalas:让 pandas 轻松切换 Apache Spark

4 月 24 日,Databricks 在 Spark + AI 峰会上开源了一个新产品 Koalas,它增强了 PySpark 的 DataFrame API,使其与 pandas 兼容。本文转自:https://www.infoq.cn/article/tvGrtwJxCR1kQDs_kqa4

1837 0
|
运维 开发者 搜索推荐
|

云栖全程回顾 | Elasticsearch开发者生态专场(附视频与文稿)

2019年9月25日,在云栖大会中,阿里云Elasticsearch不仅与最大的开源社区Elasticsearch背后的商业公司Elastic宣布了战略升级,同时在100%兼容开源的情况下,通过Logstash云托管、增强内核等多项功能和技术发布,形成了Elastic Stack的云上技术栈闭环。

4067 0
|
分布式计算 Spark
|

钉钉群直播【Koalas 介绍】

Koalas是Spark社区推出的新项目,旨在为Spark提供与pandas完全兼容的接口,在降低pandas用户的学习和迁移成本的同时,充分利用Spark强大的分布式处理能力。本次分享介绍Koalas的基本用法和原理。

3779 0
|
存储 分布式计算 资源调度
|

百万TPS高吞吐、秒级低延迟,阿里​搜索离线平台如何实现?

阿里主搜(淘宝天猫搜索)是搜索离线平台非常重要的一个业务,具有数据量大、一对多的表很多、源表的总数多和热点数据等特性。对于将主搜这种逻辑复杂的大数据量应用迁移到搜索离线平台总是不缺少性能的挑战,搜索离线平台经过哪些优化最终实现全量高吞吐、增量低延迟的呢?

1996 0
来自: 实时计算 Flink  版块
|
SQL 数据采集 存储
|

Flink 新场景:OLAP 引擎性能优化及应用案例

本文由阿里巴巴技术专家贺小令(晓令)分享,主要介绍 Apache Flink 新场景 OLAP 引擎,内容分为以下四部分:背景介绍、Flink OLAP 引擎、案例介绍、未来计划。

3160 0
来自: 实时计算 Flink  版块
|
8月前
|
人工智能 边缘计算 自然语言处理
|

普通电脑也能跑AI:10个8GB内存的小型本地LLM模型推荐

随着模型量化技术的发展,大语言模型(LLM)如今可在低配置设备上高效运行。本文介绍本地部署LLM的核心技术、主流工具及十大轻量级模型,探讨如何在8GB内存环境下实现高性能AI推理,涵盖数据隐私、成本控制与部署灵活性等优势。

6871 0
|
12月前
|

Multisim14.0中文下载安装步骤教程

Multisim14.0是由美国NI公司开发的EDA工具,适用于电路设计与仿真。本文提供详细中文安装步骤:下载安装包后解压,运行安装程序并设置路径,填写用户信息,选择安装位置,接受协议完成安装。随后安装NILicense激活器及中文语言包,最终实现软件汉化与正常运行。附带网盘下载链接,方便国内用户获取资源。

9774 16
|
5月前
|
Python Windows
|

Miniconda 安装与环境配置全流程图解(2025 最新版)

Miniconda 可以看作是 Anaconda 的“轻装版”,只自带 conda 包管理器与基础的 Python 运行时。它体积小、部署速度快,特别适合按需创建与管理虚拟环境的用户。与 Anaconda 相比,Miniconda 不会预先安装一大堆科学计算库,你可以根据项目需求再单独选择、安装需要的包,因此整体更轻巧、更灵活。 本文将手把手演示在 Windows 下安装 Miniconda 的全过程:从下载安装器、完成向导配置、设置环境变量,到最后的基础验证与简单示例,帮助你迅速把 Miniconda 用起来。

5520 12
来自: 人工智能平台PAI  版块
|
安全 API 开发者
|

国内Claude 3.5怎么注册使用?

Claude 3.5由Anthropic开发,可通过特定平台如Slack或API使用。注册需用稳定邮箱如Gmail,并通过国外手机号验证。Slack用户可直接添加Claude 3.5应用进行交互,支持中英文。开发者可注册Anthropic API获取密钥。此外,国内有镜像服务可供使用。请注意隐私政策及访问限制。

3394 2

del

123<br />数据源:<br />数据大小:7.22 KB<br />字段数量:16<br />使用组件:读数据表<br />

864 0
来自: 人工智能平台PAI  版块
|
数据可视化 数据库 关系型数据库
|

千呼万唤始出来——DataV私有部署功能

私有部署功能上线啦!

4485 0
来自: 数据可视化DataV  版块
|
JSON 数据格式 开发者
|

Python实现post请求京东商品评论数据接口

Python实现post请求京东商品评论数据接口

1405 0
|
4月前
|
编译器 程序员 Linux
|

实用工具:VS Code 配置 Markdown 编译器全指南

本文介绍如何在VS Code中配置高效Markdown写作环境,通过启用内置预览、安装Markdown All in One与Markdown Preview Enhanced插件,并配置Princexml实现PDF等格式导出,全面提升编辑、预览与输出效率,适合程序员、学生及内容创作者使用。

2080 2
|
6月前
|
Windows
|

Microsoft Activation Scripts v3.6 (MAS)激活工具安装教程!中文汉化版(激活工具)

Microsoft Activation Scripts v3.6(MAS)是一款开源、轻量级的批量激活工具,支持HWID、KMS38、TSforge等多种方式,可离线永久激活Win7至Win11及Office全系列。兼容旧系统如Vista,操作简单,无误报风险。

8418 1
|
12月前
|
开发工具 C++ git
|

五分钟看懂推送本地项目到 GitHub新手菜鸡

五分钟看懂推送本地项目到 GitHub新手菜鸡

4087 0
|
DataWorks 大数据
|

云上一指禅:大数据产品DataWorks每日问答

每天,阿里巴巴集团数万名数据/算法开发工程师正在使用DataWorks,承载阿里巴巴集团99%数据业务构建。

2331 0
|
3月前
|
人工智能 算法 新能源
|

从入门到选型:GEO生成式引擎优化科普与优质geo优化服务商推荐

GEO(生成式引擎优化)正取代SEO,助力企业在AI搜索中抢占流量先机。本文解析GEO核心逻辑,对比SEO差异,揭示其提升获客效率2.8倍的潜力,并结合国内外权威数据,分场景推荐适配的优质服务商,助企业从懂原理到会选型,规避布局风险。

1621 2
|
缓存 安全 生物认证
|

什么是代理ip?代理ip的工作原理?代理ip有哪些类型?

当您在互联网上浏览或访问网站时,您的IP地址是您的设备在网络上的唯一标识。通过IP地址,网站和其他在线服务可以追踪您的位置、活动和访问历史。但是,使用IP代理可以帮助您代理本地IP地址,从而增加您的在线隐私和安全。

3276 0
|
6月前
|
人工智能 UED
|

【下载安装】Adobe XD 免费下载与安装教程

Adobe XD 2025是一款专业的UI/UX设计工具,支持矢量绘图、交互原型制作与响应式布局,兼容PS、AI及Jira、Slack等协作平台。内置动画、语音交互功能,提升设计效率。安装前需关闭杀毒软件,解压后以管理员身份运行安装程序即可。

2778 0
|
NoSQL 分布式计算 Spark
|

Tablestore+Delta Lake(快速开始)

本文介绍如何在E-MapReduce中通过Tablestore Spark Streaming Source将TableStore中的数据实时导入到Delta Lake中。

3568 0
|
11天前
|
Shell API
|

最新,通过GACCode配置Codex桌面客户端使用方案!

本指南详解Codex桌面端配置流程:①安装客户端;②获取gaccode.com的API Key(无订阅可邮件申请);③创建并编辑~/.codex/config.toml文件,配置gac模型提供方与gpt-5.4模型;④导出CODEX_API_KEY环境变量;⑤重启应用即可开始智能对话。

493 6
|
10月前
|
数据挖掘 计算机视觉 Windows
|

Origin2024 汉化安装专业解析|企业级部署教程+批量激活解决方案

Origin是一款由OriginLab开发的科学绘图与数据分析软件,支持Windows系统,提供丰富的2D/3D图形模板和强大的数据分析功能,如统计、信号处理、图像处理等。本文详细介绍Origin2024的下载与安装步骤,包括解压文件、运行安装程序、输入序列号、安装路径设置及破解方法,帮助用户快速完成软件安装与激活。

3951 21

【免费资料】IEEE33节点系统参数及拓扑图visio

初学者入门配电网可参考经典的IEEE 33节点系统,此系统在文献中广泛应用。资源包括节点和支路参数的Excel表格及Visio的网络拓扑图,可免费下载。配电网以闭环设计增强灵活性和可靠性,故障恢复涉及网络拓扑约束。提供的MATLAB相关链接探讨了孤岛、重构及故障恢复策略。

5546 0
|
2月前
|
人工智能 API 数据安全/隐私保护
|

如何使用 LiteLLM 网关代理统一管理你的大模型

大模型使用混乱?费用失控、切换成本高、权限难管?LiteLLM 是轻量实用的大模型网关,统一 OpenAI 兼容接口,纳管 OpenAI、Qwen、本地 vLLM/Ollama 等多源模型。支持 Docker Compose 一键部署、虚拟 Key 权限控制、预算限额与全链路可观测性,业务代码零改造即可接入。

974 8
来自: 人工智能平台PAI  版块
|
存储 分布式计算 运维
|

钱大妈数据中台建设最佳实践

钱大妈数据中台建设最佳实践

10169 120
来自: 实时数仓 Hologres  版块
|
3天前
|
存储 消息中间件 关系型数据库
|

(二)走进阿里云实时计算Flink版-场景案例篇

阿里云实时计算Flink版产品负责人黄鹏程(马格)介绍:基于Apache Flink打造的企业级全托管实时计算平台,支持批流一体、湖仓融合、实时风控与AI推理等场景,助力满帮、车企等客户降本增效35%,SLA达99.9%。

180 3
来自: 实时计算 Flink  版块
|
移动开发 编解码 前端开发
|

摸鱼必备-80款在线HTML小游戏

本文推荐了80款精彩的HTML5在线小游戏,涵盖益智、冒险、射击、体育等多种类型,适合各年龄段玩家。无需下载安装,随时随地畅玩。地址:[https://game.share888.top/](https://game.share888.top/)

4104 7
|
数据安全/隐私保护
|

5分钟注册一个可用Gemini的谷歌邮箱账号

5分钟注册一个可用Gemini的谷歌邮箱账号

6332 24
|
数据采集 JSON 数据格式
|

Python爬虫:京东商品评论内容

京东商品评论接口为商家和消费者提供了重要工具。商家可分析评论优化产品,消费者则依赖评论做出购买决策。该接口通过HTTP请求获取评论内容、时间、点赞数等数据,支持分页和筛选好评、中评、差评。Python示例代码展示了如何调用接口并处理返回的JSON数据。应用场景包括产品优化、消费者决策辅助、市场竞争分析及舆情监测。

1527 5

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

0
今日
69316
内容
128
活动
439802
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务