暂时未有相关云产品技术能力~
『为AI硬核资料库(cool)而生!』构建AI解决方案,用知识加速每一次技术成长!网站:https://www.showmeai.tech/ 公众号:ShowMeAI研究中心
本期内容关键词:美国科技公司裁员人数与理由整理、InfoQ 中国开发者画像洞察报告 2022、GitHub 2022年趋势与见解、Kaggle 2022年参赛趋势与比赛汇总、自动驾驶下半场谁会杀出重围。
本文使用 Kaggle 数据集创建了一个Demo,演示如何使用 Python 调用 ipywidget 模块,快速创建交互式仪表板。快用起来吧~
本文介绍大名鼎鼎的 OpenAI!概述其发展历程,并介绍几款已经实际落地的 AI 应用:GPT3、CLIP、DALL·E 2、Whisper、Codex、ChatGPT。
这是ShowMeAI每周通讯的第3期。本期内容关键词:新冠、ChatGPT、2022 AI 报告、腾讯·绝悟、阿里·AliceMind、小红书·全站智投、OpenAI·Point-E、Google·CALM、Wayve·MILE、AI2·MemPrompt、Stanford x MosaicML·PubMed GPT、腾讯全员大会、特斯拉裁员、图森未来裁员、AI 应用与工具大全。
本文介绍了 Parquet 和 Feather 两种文件类型,可以提高本地存储数据时的读写速度,并压缩存储在磁盘上的数据大小。大型 CSV 文件的克星!用起来~
本文使用机器学习建模对 FIFA 2022世界杯结果进行了预测,赛后将其与真实结果进行比较,可以看出:小组赛到1/4决赛的预测准确率很高,半决赛和决赛的预测准确率为0,冠亚季军无一预测准确。
本文对百度开源的中文 AI 图像生成器 ERNIE 进行讲解,包括工具简介、通过Demo页面和API两种使用方式,以及使用中文提示词生成的图像效果。
本文整理了7个非常有效的机器学习Python库:Prophet、Deep Lake、Optuna、pycm、NannyML、ColossalAI、emcee,用简单的方式编写复杂且耗时的代码,大大提升工作效率!
本文介绍如何使用 Pandas Profiling 的比较报告功能,分析两个数据集的分布差异,完成数据探索分析 (EDA) 的完整流程,为后续分析做准备。
本文讲解Python热加载技术,以及Reloading工具库的使用。暂停运行的代码,修改补充后重新运行,意味着训练了数个小时的模型参数被舍弃。热加载技术可以解决这个问题。
本文对比筛选了『数据清理』和『特征工程』最值得推荐的5本书,帮助你有效地清理数据、获取干净核心的数据,这是后续建模分析等工作有更好结果的保证。
本文揭秘全球数据科学岗位的薪资分布情况!以及分析岗位、国家、工作经验、雇佣形式、公司规模对薪资的影响,并贴心提供了求职建议和跳槽Tips!
本文浅试Meta开源的大型AI语言模型『Galactica』,带大家体验安装与多场景使用。Galactica被称为“最懂科学的智能NLP模型”,能够预测蛋白质标注!创建讲义!解释数学公式!全都会!
本文使用Python实现『颜色提取』功能,构建『简单提取器』与『复杂提取器』,从单个或多个图像的某个位置提取颜色,类似PS或者PPT中的取色器功能。
本文结合航空出行的场景,使用机器学习建模,详细分析了航班乘客满意度的影响因素:机上Wi-Fi服务、在线登机、机上娱乐质量、餐饮、座椅舒适度、机舱清洁度和腿部空间等。
本文详细介绍 GECToR 这一优秀的文本纠错模型,使用 Transformer 编码器的序列标注器,以保证文本数据的质量,进而提升NLP模型的效果。
本文讲解二维码的生成与解码:使用Python工具库qrcode『构建二维码』,使用cv2和pyzbar两类工具库『解码二维码』。二维码是目前最常使用的快捷信息存储方式之一,读完本篇即可掌握这一必备技能!
如何快速部署机器学习模型?本文是机器学习工业部署的 best practice(最佳实践)!详细讲解了如何操作机器学习开源框架 BentoML,帮助研发团队轻松打包机器学习模型,并重现该模型以用于生产。
本文汇总介绍了21个 Pandas 进阶用法,能保持代码整洁优雅,更能提高代码效率!这篇是从数据科学家朋友那里搞到的私藏,快一起薅羊毛~
本文详细介绍了Vaex这个强大的工具库,能够每秒处理数亿甚至数十亿行数据,而无需将整个数据集加载到内存中。对于大型数据的分析任务,Vaex的效率更简单,对硬件/环境的要求更少!pandas升级版!快用起来吧~
随着Diffusion Model的普及,AI绘画只需要你输入文本描述,模型就能在几分钟内生成精准匹配的精美图像。本文从使用步骤、费用和商用等角度对3个主流平台进行比较:DALL·E2、Midjourney、Stable Diffusion。
同一个数据分析的需求,不同人的SQL代码效率上会差别很大!本文给大家梳理集中效率优化方法,这也是数据岗面试的高频问题哦!快学起来~
使用Python内置库SQLite,可以方便地完成建表、插入数据、查询数据等数据库操作,也可以配合pandas进行灵活使用!高效工具库get!
大量的数据科学职位需要精通 SQL,它也是数据分析师、数据科学家、数据建模岗最常考核的面试技能。在本篇内容中 ShowMeAI 将梳理汇总所有面试 SQL 问题,按照不同的主题构建练习专项块。
本文系统介绍了『单变量异常检测』和『多变量异常检测』识别技术,包括传统的统计方法(四分位距、标准差),以及前沿的机器学习模型(孤立森林、DBSCAN、LOF局部离群因子)。
本文介绍了7个超实用的Jupyter Notebook扩展插件,帮助你加速开发与应用:Voilà、nbdime、RISE、Bokeh、nbgrader、Jupytext、jupyterlab-git。
本文讲解如何使用whylogs工具库,构建详细的AI日志平台,并监控机器学习模型的流程与效果。核心操作包括:环境配置、新建项目并获取ID、获取组织ID和访问Key、将配置文件写入WhyLabs、监控模型性能指标。
本文讲解Pandas工具库几个核心函数,能高效处理时间序列:resample、shift、rolling。帮你得心应手处理时间序列数据!
本文使用『城市酒店和度假酒店的预订信息』,对旅游业的发展现状进行数据分析,包含了完整的数据分析流程:数据读取、数据初览、数据预处理、描述性统计、探索性数据分析、关联分析、相关性分析。
机器学习算法理论比较枯燥乏味,但有许多有趣且有用的网站,您可以像游戏一样交互式操作,并同时学习机器学习概念、模型和应用知识。以下是 ShowMeAI 为大家整理的18个交互式机器学习网站,学起来!
本文讲解9种『炫酷高级』的数据图表,可视化地表示比例或百分比:哑铃图、甜甜圈图、华夫饼图、堆积条形图...附上代码,快快用起来吧!
Pandas灵活强大,是数据分析必备工具库!但处理大型数据集时,需过渡到PySpark才可以发挥并行计算的优势。本文总结了Pandas与PySpark的核心功能代码段,掌握即可丝滑切换。
本文讲解一种比较全能的『机器学习模型可解释性』方法——SHAP。通过调用Python的SHAP工具库,对机器学习模型做可解释性分析,判断不同特征对于当前模型的重要程度。
数据集中的异常值,对于数据分布、建模等都有影响。本文讲解两大类异常值的检测方法及其Python实现:可视化方法(箱线图&直方图)、统计方法(z分数&四分位距)。
本文讲解使用Panel、hvPlot等工具库,简单快速地制作可交互的数据仪表板,对180万起野火数据进行空间可视化,更直观地对起火原因、火势大小、持续时长进行单维或多维分析。
客户分群(客户细分)对于绘制用户画像、构建个性化推广、产品和服务策略,都非常重要。本文讲解此过程中,多种机器学习聚类算法的建模流程与评估模式。
本文以保险金额预估为例,讲解机器学习从开发到云端服务部署的全流程:基于PyCaret开发机器学习全流程、基于Flask搭建简易前端Web应用程序、在Heroku云上部署机器学习应用。
借助AI进行邮件正文与附件内容的识别,可以极大提高工作效率。本文讲解如何设计一个AI系统,完成邮件内容意图检测:架构初揽、邮件正文&附件的理解与处理、搭建多数据源混合网络、训练&评估。
数据随着时间变化,会导致已有模型的准确度大打折扣,这就是数据漂移问题。本文讲解数据漂移问题的诸多实际案例、检测方法、基于evidently库的代码实现。
如何预测客户价值,计算特定时间段内能带来的价值,是互联网公司在面临海量用户时急需解决的运营命题。本文就来讲解『机器学习+RFM模型』的精细化运营解决方案。
『人工智能+新药研发』已经成为国内外医药企业的发展新模式!本文讲解 AI 在新药研发领域的诸多应用方向与 MolSearch 工具库的应用实践——药物晶型预测、靶点选择、患者招募、虚拟药物筛选、AI新药研发辅助系统。
特征工程一般是手动完成,不仅依赖于工程师的丰富经验,也非常耗时。因此『自动化特征工程』可以自动生成大量候选特征,帮助数据科学家显著提升了工作效率和模型效果。
股票价格数据是一个时间序列形态的数据。所以,我们使用『循环神经网络(RNN)』对这种时序相关的数据进行建模,并将其应用在股票数据上进行预测。
机器学习和深度学习等人工智能技术在森林火灾扑救过程中的应用。
客户分群对于精准营销的意义重大,而机器学习可以优化这一过程。本文会详细拆解实现过程:数据收集、创建RFM表、探索数据&数据变换、应用聚类做用户分群、解释结果。
本文使用 GAN(生成对抗网络)进行AI绘画。torchgan是基于PyTorch的一个GAN工具库,本文讲解搭建DCGAN神经网络,并应用于『莫奈』风格绘画的全过程。
本文讲解如何使用Python的schedule库完成自动化调度程序,通过代『发送邮件』这一代码实例展示了构建任务与任务调度的全过程。
Altair是Python统计可视化库,提供了强大而简洁的可视化语法,可以产出漂亮的数据分析可视化结果,并支持交互式操作和勾选局部数据深入分析。本文以实例讲解Altair的数据分析过程,以及交互文档报告的生成。
AI诸多工具库工具库之间的切换,是一件耗时耗力的麻烦事。ONNX 即应运而生,使不同人工智能框架(如PyTorch、TensorRT、MXNet)可以采用相同格式存储模
神经网络在学习能力与性能方面,远超传统机器学习算法,其大量层与数十亿参数的网络可以轻松学习数据的模式与规律,也容易陷入了『过拟合』问题。本篇梳理4类缓解过拟合的方法:数据增强、Dropout随机失活、L1和L2正则化、Early Stopping/早停止。