GoAlaaa_社区达人页

备案控制台

GoAlaaa

已加入开发者社区2061天

勋章更多

个人头像照片

专家博主

专家博主

个人头像照片

星级博主

星级博主

个人头像照片

技术博主

技术博主

个人头像照片

初入江湖

初入江湖

成就

已发布192篇文章

2条评论

已回答0个问题

0条评论

已发布0个视频

github地址

https://github.com/GoAlers

我关注的人更多

代码bug生产队

代码bug生产队

粉丝更多

游客z65hcr6zw24ae

游客z65hcr6zw24ae

游客gqbroit5l6rhq

游客gqbroit5l6rhq

游客ks7o4f2qytzii

游客ks7o4f2qytzii

游客2xcxhuhvvxrqg

游客2xcxhuhvvxrqg

游客zswgxx7dthxm6

游客zswgxx7dthxm6

技术能力

兴趣领域

擅长领域

技术认证

暂时未有相关云产品技术能力~

专注大数据与人工智能技术分享，个人博客：https://blog.csdn.net/qq_36816848

精选

文章
问答
视频

2年前

OCR文字识别技术总结（一）
OCR （Optical Character Recognition，光学字符识别）是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，经过检测暗、亮的模式肯定其形状，而后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并经过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。如何除错或利用辅助信息提升识别正确率，是OCR最重要的课题，ICR（Intelligent Character Recognition）的名词也随之产生。

2974

来自：开发与运维
2年前

大数据开发面试知识点总结
大数据开发面试知识点总结

305

来自：开发与运维
2年前

Pytorch学习笔记总结
它是一个基于python的科学计算包，针对两类受众：可以代替Numpy从而利用GPU的强大功能；是一个可以提供最大灵活性和速度的深度学习研究平台。

266

来自：开发与运维
2年前

大数据电影可视化系统
本项目以电影数据为主题，以数据采集、处理、分析及数据可视化为项目流程，可实现百万级电影数据离线处理与计算。功能包括python爬虫，Matplotlib绘图、Echarts数据可视化、结合mysql数据实现hive电影相关数据统计、Mapreduce词频统计、情感分析、词图云等。

620

来自：开发与运维
2年前

大数据知识点总结
数据仓库：英文Data WareHouse，数据仓库是面向主题，为分析数据而设计的，是一个各种数据(包括历史数据和当前数据)的中心存储系统，主要服务于商业智能(也就是BI)和企业决策管理。

409

来自：开发与运维
2年前

深度学习系列资料总结(二)
深度学习定义：一般是指通过训练多层网络结构对未知数据进行分类或回归深度学习分类：有监督学习方法——深度前馈网络、卷积神经网络、循环神经网络等；无监督学习方法——深度信念网、深度玻尔兹曼机，深度自编码器等。

842

来自：人工智能
2年前

深度学习系列资料总结(一)
深度学习定义：一般是指通过训练多层网络结构对未知数据进行分类或回归深度学习分类：有监督学习方法——深度前馈网络、卷积神经网络、循环神经网络等；无监督学习方法——深度信念网、深度玻尔兹曼机，深度自编码器等。

502

来自：人工智能

暂无更多

暂无更多信息

2022年10月

10.24 18:04:00

发表了文章 2022-10-24 18:04:00

深度学习系列资料总结(二)

深度学习定义：一般是指通过训练多层网络结构对未知数据进行分类或回归深度学习分类：有监督学习方法——深度前馈网络、卷积神经网络、循环神经网络等；无监督学习方法——深度信念网、深度玻尔兹曼机，深度自编码器等。
10.21 12:59:25

发表了文章 2022-10-21 12:59:25

深度学习系列资料总结(一)

深度学习定义：一般是指通过训练多层网络结构对未知数据进行分类或回归深度学习分类：有监督学习方法——深度前馈网络、卷积神经网络、循环神经网络等；无监督学习方法——深度信念网、深度玻尔兹曼机，深度自编码器等。
10.21 12:50:52

发表了文章 2022-10-21 12:50:52

深度学习知识点全面总结（二）

深度学习定义：一般是指通过训练多层网络结构对未知数据进行分类或回归
10.21 12:50:45

发表了文章 2022-10-21 12:50:45

深度学习知识点全面总结（一）

深度学习定义：一般是指通过训练多层网络结构对未知数据进行分类或回归
10.21 12:26:49

发表了文章 2022-10-21 12:26:49

Pytorch学习笔记总结

它是一个基于python的科学计算包，针对两类受众：可以代替Numpy从而利用GPU的强大功能；是一个可以提供最大灵活性和速度的深度学习研究平台。
10.21 09:20:51

发表了文章 2022-10-21 09:20:51

机器学习知识点全面总结

机器学习知识点全面总结
10.21 09:15:28

发表了文章 2022-10-21 09:15:28

大数据电商数仓分析项目

大数据电商数仓分析项目
10.21 09:07:05

发表了文章 2022-10-21 09:07:05

大数据开发面试知识点总结（三）

大数据开发面试知识点总结
10.21 09:06:54

发表了文章 2022-10-21 09:06:54

大数据开发面试知识点总结（二）

大数据开发面试知识点总结
10.21 09:06:46

发表了文章 2022-10-21 09:06:46

大数据开发面试知识点总结

大数据开发面试知识点总结
10.21 08:50:27

发表了文章 2022-10-21 08:50:27

Python数据分析与挖掘实战总结(二)

Python数据分析与挖掘实战总结
10.21 08:50:19

发表了文章 2022-10-21 08:50:19

Python数据分析与挖掘实战总结(一)

Python数据分析与挖掘实战总结
10.21 00:12:20

发表了文章 2022-10-21 00:12:20

音乐推荐系统（二）

对三个数据进行预处理，合并用户与物品相关信息，处理后的merge_base.data数据字段包含itemid、userid、用户信息(年龄、性别、收入、地区)、物品信息（名字、描述、时长、标签）、用户行为数据(收听时长)等。
10.21 00:10:57

发表了文章 2022-10-21 00:10:57

音乐推荐系统（一）

对三个数据进行预处理，合并用户与物品相关信息，处理后的merge_base.data数据字段包含itemid、userid、用户信息(年龄、性别、收入、地区)、物品信息（名字、描述、时长、标签）、用户行为数据(收听时长)等。
10.20 23:59:02

发表了文章 2022-10-20 23:59:02

大数据电影可视化系统

本项目以电影数据为主题，以数据采集、处理、分析及数据可视化为项目流程，可实现百万级电影数据离线处理与计算。功能包括python爬虫，Matplotlib绘图、Echarts数据可视化、结合mysql数据实现hive电影相关数据统计、Mapreduce词频统计、情感分析、词图云等。
10.20 23:52:30

发表了文章 2022-10-20 23:52:30

论文笔记系列：主干网络（二）-- DenseNet

前言: DenseNet(Densely connected convolutional networks) 模型，它的基本思路与ResNet一致，但是它建立的是前面所有层与后面层的密集连接（dense connection），它的名称也是由此而来。DenseNet的另一大特色是通过特征在channel上的连接来实现特征重用（feature reuse）。这些特点让DenseNet在参数和计算成本更少的情形下实现比ResNet更优的性能，DenseNet也因此斩获CVPR 2017的最佳论文奖。本篇文章首先介绍DenseNet的原理以及网路架构，然后讲解DenseNet在Pytorch上的实现
10.20 23:46:18

发表了文章 2022-10-20 23:46:18

论文笔记系列：主干网络（一）-- ResNet

摘要：深度网络训练难；残差网络可训练1000层网络；成就。 1. Introduction：提出深层网络存在模型退化问题；分析问题并提出残差学习策略、 2. Related Work：列举残差学习应用例子；单独用一段对比Highway Network。 3. Deep Residual Learning： Residual learning； identity learning；Network Architecture。 4. Experiments：对ResNet进行实验
10.20 23:42:43

发表了文章 2022-10-20 23:42:43

数学建模笔记总结

数学建模三大模型
10.20 23:40:21

发表了文章 2022-10-20 23:40:21

基于PaddleOCR的体检报告识别（二）

面对飞速发展互联网医疗时代，医疗信息化建设已经成为医疗行业发展的趋势。经调研，约80%的医学病历是处于非结构化状态的，难以直接被利用而造成了大量医学资源浪费。医疗数据中大量的半结构化与无结构化的文本，医学术语的专业性以及语言表达的多样性为结构化信息抽取带来了很大难度。因此，针对电子病历和报告的信息识别抽取和结构化管理对临床诊断、疾病预防与医学研究具有重要意义。
10.20 23:40:11

发表了文章 2022-10-20 23:40:11

基于PaddleOCR的体检报告识别（一）

面对飞速发展互联网医疗时代，医疗信息化建设已经成为医疗行业发展的趋势。经调研，约80%的医学病历是处于非结构化状态的，难以直接被利用而造成了大量医学资源浪费。医疗数据中大量的半结构化与无结构化的文本，医学术语的专业性以及语言表达的多样性为结构化信息抽取带来了很大难度。因此，针对电子病历和报告的信息识别抽取和结构化管理对临床诊断、疾病预防与医学研究具有重要意义。
10.20 23:26:56

发表了文章 2022-10-20 23:26:56

Intel带你初识视觉识别--OpenVINO(二)

了解人工智能和OpenVINO的工具套件，为AI应用选择最佳的Intel平台，并使用Intel产品构建AI应用
10.20 23:26:53

发表了文章 2022-10-20 23:26:53

Intel带你初识视觉识别--OpenVINO(一)

了解人工智能和OpenVINO的工具套件，为AI应用选择最佳的Intel平台，并使用Intel产品构建AI应用
10.20 23:15:46

发表了文章 2022-10-20 23:15:46

OCR文字识别方法综述

摘要：文字识别可以把海量非结构化数据转换为结构化数据，从而支撑各种创新的人工智能应用，是计算机视觉研究领域的分支之一，其任务是识别出图像中的文字内容，一般输入来自于文本检测得到的文本框截取出的图像文字区域。近几年来，基于深度学习的文字识别算法模型已取得不错成果，其过程无需进行特征处理且可以实现复杂场景文字识别，效果要优于传统文字识别方法，逐渐成为文字识别研究应用的主流方式。本文将主要介绍基于深度学习的文字识别技术综述，分类总结主流文字识别经典算法，讨论未来文字识别领域发展与研究趋势。
10.20 19:25:03

发表了文章 2022-10-20 19:25:03

推荐模型复现（四）：多任务模型ESMM、MMOE

样本选择偏差：构建的训练样本集的分布采样不准确稀疏数据：点击样本占曝光样本的比例很小
10.20 19:21:54

发表了文章 2022-10-20 19:21:54

推荐模型复现（三）：召回模型YoutubeDNN、DSSM

DSSM(Deep Structured Semantic Model)，由微软研究院提出，利用深度神经网络将文本表示为低维度的向量，应用于文本相似度匹配场景下的一个算法。不仅局限于文本，在其他可以计算相似性计算的场景，例如推荐系统中。根据用户搜索行为中query（文本搜索）和doc（要匹配的文本）的日志数据，使用深度学习网络将query和doc映射到相同维度的语义空间中，即query侧特征的embedding和doc侧特征的embedding，从而得到语句的低维语义向量表达sentence embedding，用于预测两句话的语义相似度。
10.20 19:19:10

发表了文章 2022-10-20 19:19:10

推荐模型复现（二）：精排模型DeepFM、DIN

DNN的参数过大：当特征One Hot特征转换为Dense Vector时，网络参数过大。 FNN和PNN的交叉特性少：使用预训练好的FM模块，连接到DNN上形成FNN模型，后又在Embedding layer和hidden layer1之间增加一个product层，使用product layer替换FM预训练层，形成PNN模型
10.20 19:15:52

发表了文章 2022-10-20 19:15:52

推荐模型复现（一）：熟悉Torch-RecHub框架与使用

Torch-RecHub是一个轻量级的pytorch推荐模型框架
10.20 19:12:56

发表了文章 2022-10-20 19:12:56

数学建模笔记总结

预测模型：神经网络预测、灰色预测、拟合插值预测（线性回归）、时间序列预测、马尔科夫链预测、微分方程预测、Logistic 模型等等。
10.20 18:59:43

发表了文章 2022-10-20 18:59:43

OCR文字识别技术总结（五）

CRNN是最早一批采用CNN与RNN结合的方式进行自然场景图片识别的基于深度学习的算法。文中提出的CRNN算法是一种能将特征提取、序列建模和转录整合到统一框架中的新型神经网络架
10.20 18:42:08

发表了文章 2022-10-20 18:42:08

OCR文字识别技术总结（四）

文本识别是OCR（Optical Character Recognition）的一个子任务，其任务为识别一个固定区域的的文本内容。在OCR的两阶段方法里，它接在文本检测后面，将图像信息转换为文字信息。
10.20 18:35:51

发表了文章 2022-10-20 18:35:51

OCR文字识别技术总结（三）

文本检测任务是找出图像或视频中的文字位置。不同于目标检测任务，目标检测不仅要解决定位问题，还要解决目标分类问题。
10.20 18:28:38

发表了文章 2022-10-20 18:28:38

OCR文字识别技术总结（二）

总结：以上第一部分介绍我国OCR发展历程，从过程中可以发现，我国的光学字符识别研究相对国外起步较晚，但是发展十分迅速。从早期简单的单体识别发展到多种字体混合排列的多体识别，从中文印刷材料的识别发展到中英文混排印刷材料的双语言识别，目前各个系统都可以支持简、繁体汉字的识别，同时支持中，英，韩等多国文字的识别系统，对于简单版面可以进行效的定量分析，同时汉字识别率已经可以达到98%以上，以下第二部分将从不同字体展开对OCR技术描述。
10.20 18:21:58

发表了文章 2022-10-20 18:21:58

OCR文字识别技术总结（一）

OCR （Optical Character Recognition，光学字符识别）是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，经过检测暗、亮的模式肯定其形状，而后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并经过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。如何除错或利用辅助信息提升识别正确率，是OCR最重要的课题，ICR（Intelligent Character Recognition）的名词也随之产生。
10.20 11:45:35

发表了文章 2022-10-20 11:45:35

PyTorch学习笔记（八）：PyTorch生态简介

计算机视觉领域常见的数据集，包括CIFAR、EMNIST、Fashion-MNIST等
10.20 11:42:54

发表了文章 2022-10-20 11:42:54

PyTorch学习笔记（七）：PyTorch可视化

打印模型基础信息：使用print()函数，只能打印出基础构件的信息，不能显示每一层的shape和对应参数量的大小
10.20 11:41:47

发表了文章 2022-10-20 11:41:47

PyTorch学习笔记（六）：PyTorch进阶训练技巧

在源数据集上预训练一个神经网络模型，即源模型创建一个新的神经网络模型，即目标模型，该模型复制了源模型上除输出层外的所有模型设计和参数给目标模型添加一个输出大小为目标数据集类别个数的输出层，并随机初始化改成的模型参数
10.20 11:40:23

发表了文章 2022-10-20 11:40:23

PyTorch学习笔记（五）：模型定义、修改、保存

Module 类是 torch.nn 模块里提供的一个模型构造类 (nn.Module)，是所有神经⽹网络模块的基类，我们可以继承它来定义我们想要的模型； PyTorch模型定义应包括两个主要部分：各个部分的初始化（_init_）；数据流向定义（forward）基于nn.Module，可以通过Sequential，ModuleList和ModuleDict三种方式定义PyTorch模型。
10.20 11:39:23

发表了文章 2022-10-20 11:39:23

PyTorch学习笔记（四）：PyTorch基础实战

通过一个基础实战案例，结合前面所涉及的PyTorch入门知识。本次任务是对10个类别的“时装”图像进行分类，使用FashionMNIST数据集（fashion-mnist/data/fashion at master · zalandoresearch/fashion-mnist · GitHub
10.20 11:37:56

发表了文章 2022-10-20 11:37:56

PyTorch学习笔记（三）：PyTorch主要组成模块

(1）数据预处理：通过专门的数据加载，通过批训练提高模型表现，每次训练读取固定数量的样本输入到模型中进行训练（2）深度神经网络搭建：逐层搭建，实现特定功能的层（如积层、池化层、批正则化层、LSTM层等）（3）损失函数和优化器的设定：保证反向传播能够在用户定义的模型结构上实现（4）模型训练：使用并行计算加速训练，将数据按批加载，放入GPU中训练，对损失函数反向传播回网络最前面的层，同时使用优化器调整网络参数
10.20 11:36:26

发表了文章 2022-10-20 11:36:26

PyTorch学习笔记（二）：PyTorch简介与基础知识

概念：由Facebook人工智能研究小组开发的一种基于Lua编写的Torch库的Python实现的深度学习库优势：简洁、上手快、具有良好的文档和社区支持、项目开源、支持代码调试、丰富的扩展库
10.20 11:35:13

发表了文章 2022-10-20 11:35:13

PyTorch学习笔记（一）：PyTorch环境安装

PyTorch环境安装
10.20 11:32:14

发表了文章 2022-10-20 11:32:14

Pytorch深度学习实战笔记

Pytorch深度学习实战笔记
10.20 11:08:20

发表了文章 2022-10-20 11:08:20

Pytorch入门教程

概念：由Facebook人工智能研究小组开发的一种基于Lua编写的Torch库的Python实现的深度学习库。优势：简洁、上手快、具有良好的文档和社区支持、项目开源、支持代码调试、丰富的扩展库
10.19 23:35:46

发表了文章 2022-10-19 23:35:46

Pyotorch自定义损失函数

深度学习笔记总结_GoAI的博客-CSDN博客 PyTorch 笔记.常见的PyTorch损失函数 - 知乎 Pytorch神经网络实战学习笔记_10 神经网络模块中的损失函数_LiBiGor的博客-CSDN博客
10.19 23:33:25

发表了文章 2022-10-19 23:33:25

Transformer模型详解

考虑到RNN（或者LSTM、GRU等）的计算限制为是顺序的，也就是说RNN相关算法只能从左向右依次计算或者从右向左依次计算，这种机制带来了两个问题：时间片t的计算依赖t-1时刻的计算结果，这样限制了模型的并行能力；顺序计算的过程中信息会丢失，尽管LSTM等门机制的结构一定程度上缓解了长期依赖的问题，但是对于特别长期的依赖现象，LSTM依旧无能为力。
10.19 23:28:26

发表了文章 2022-10-19 23:28:26

基于CRNN的文本字符交易验证码识别--Paddle实战

验证码作为性价较高的安全验证方法，在多场合得到了广泛的应用，有效地防止了机器人进行身份欺骗，其中，以基于文本字符的静态验证码最为常见。随着使用的深入，噪声点、噪声线、重叠、形变等干扰手段层出不穷，不断提升安全防范级别。RPA技术作为企业数字化转型的关键，因为其部署的非侵入式备受企业青睐，验证码识别率不高往往限制了RPA技术的应用。一个能同时过滤多种干扰的验证码模型，对于相关自动化技术的拓展使用有着一定的商业价值。
10.19 23:19:32

发表了文章 2022-10-19 23:19:32

ASTER文字识别论文详解

sklearn是机器学习中一个常用的python第三方模块，里面对一些常用的机器学习方法进行了封装，在进行机器学习任务时，并不需要每个人都实现所有的算法，只需要简单的调用sklearn里的模块就可以实现大多数机器学习任务。
10.19 23:05:36

发表了文章 2022-10-19 23:05:36

机器学习与深度学习基础概念

主要包括标签、特征、样本、训练、模型、回归模型、分类模型、泛化、过拟合、预测、平稳性、训练集、验证集、测试集。
10.19 23:00:32

发表了文章 2022-10-19 23:00:32

推荐系统-Task05推荐系统流程构建

Offilne部分：主要是基于离线物料系统生成的物料画像和用户画像进行处理，为每个用户生成热门页列表和推荐页列表，并将其存储到Redis中 Online部分：主要是针对不同的用户，使用不同的策略，提供热门页列表和推荐页列表的新闻数据，进行过滤排序之后，展示到前端页面上

1

2

3

4

发表了文章 2022-10-24

深度学习系列资料总结(二)
发表了文章 2022-10-21

深度学习系列资料总结(一)
发表了文章 2022-10-21

深度学习知识点全面总结（二）
发表了文章 2022-10-21

深度学习知识点全面总结（一）
发表了文章 2022-10-21

Pytorch学习笔记总结
发表了文章 2022-10-21

机器学习知识点全面总结
发表了文章 2022-10-21

大数据电商数仓分析项目
发表了文章 2022-10-21

大数据开发面试知识点总结（三）
发表了文章 2022-10-21

大数据开发面试知识点总结（二）
发表了文章 2022-10-21

大数据开发面试知识点总结
发表了文章 2022-10-21

Python数据分析与挖掘实战总结(二)
发表了文章 2022-10-21

Python数据分析与挖掘实战总结(一)
发表了文章 2022-10-21

音乐推荐系统（二）
发表了文章 2022-10-21

音乐推荐系统（一）
发表了文章 2022-10-20

大数据电影可视化系统
发表了文章 2022-10-20

论文笔记系列：主干网络（二）-- DenseNet
发表了文章 2022-10-20

论文笔记系列：主干网络（一）-- ResNet
发表了文章 2022-10-20

数学建模笔记总结
发表了文章 2022-10-20

基于PaddleOCR的体检报告识别（二）
发表了文章 2022-10-20

基于PaddleOCR的体检报告识别（一）

正在加载, 请稍后...

滑动查看更多

正在加载, 请稍后...

暂无更多信息

正在加载, 请稍后...

暂无更多信息

勋章

关注

粉丝