文本分析和处理 awk|学习笔记

简介: 快速学习文本分析和处理 awk

开发者学堂课程【Linux 文本管理入门:文本分析和处理 awk】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/790



文本分析和处理awk

内容简介:

一:工具简介

二:工具使用

三:常用场景

一:工具简介

●简介

AMK是一种解析式编程语言,非常强大,是专门设计来进行文本处理的,名称是其三位创建者( Alfred Aho, Peter Weinberger. and Brian Kernighan)姓的首字母。

GNU/Linux分发的版本是由自由软件基金会(FSF)维护的,常常被叫做Gawk,Awk和Sed-样都是行编辑器,两者的工作流程很像,但Awk有很多更加强大的地方。

l 与sed相比的优点:

◆方便的数值处理与计算

◆变量和流程控制

◆访问行之中域

◆灵活的打印

◆内置数值和市非数

◆类C语法

l 脚本结构

下图指出了一个awk程序脚本的结构:

以BEGIN开始,以END结束,这两个话句都是可选的。

每一个语句都是一个pattern-action对,和sed相似。当输入符合模式时,对相应的action 才会执行。

如果省略Pattern,则动作的每一行都执行默认的动作是打印当前行。

BEGIN--读第一行之前执行

END--处理完最后一行后执行

image.png

二:工具使用

l 运行方式

第一种:awk'script' input files

此时的脚本内容通过命令行参数传进去:

Awk’{print}’text1

第二种:awk -f script_ file input_ files

将脚本文件传进去awk1即为脚本)

Awk-f awk1 text1

l 模式

1.正则表达式/ pattert/:

将匹配text1,text2,text3

Is awk "/test[123]/{}print}’

2.!排除表达式:

不匹配text1,text2,text3

Is I awk ‘!/test[ 123]/{print}’

3.关系表达式:

超出一百字节的文件名

Is- HIlawk

$5>100{print $9}’

4. 匹配表达式:

$9==”text1”比较是否相等

$9-/”text”/是否和正对表达式匹配

下例匹配所有以向text开头的文件:/^text

Is -I |awk ‘$9~/^text*/{print}’

5.多个表达式:

多个表达式之间,可使用”||””&&"逻辑运算符

如找出大于100字节小于200字节,且以text为开头的文件,可以这样做:

Is -l|awk’

$5>100 && $5 <200 && $9~text*/{print $9}’

6.变量

◆可以定义和使用变量

例如:

BEGIN {count=0}

{count++}

END {print count}

字符串变量初始化为null(即:\0)

数值变量初始化为0

变量不用声明

awk中定义变量并不需要声明,awk会根据上下文环境,自动判断类型。

7. 预定义变量

◆预定义变量

前面提到过两个概念:行和域。这是粗略的类比。实际上在AWk中有更精确的定义

1.Record记录,默认为一行

2.RS( Record Separat)记录分割符,默认为”\n”

3.NR( Number of Record)指第几个记录

4.Fleid:域

5 .FS(Field Separator)域分割符,默认是空白字符(个或多个空格或ab)

6.NF( Number of Fields)当前说操的城总数

7.可通过一F或者在BEGIN action牛指定M例如Fs

8.$0整个记录,$1表示第一个记录,$2表示第二个,类推

8.变量操作一字符串类型

◆字符串串接

添加xt后缀

(last $".txt"}

字符串赋值

使用=直接赋值即可,如上例所示

(print $1,$2}

◆内置字符串函数

内置了一系列字符串处理函数,如substr(str.sn)从str的第s位开始至多截取。

9.简单输出

打印整个记录:

(printy/(print $O}

使用变量:

打印第一个域,第二个域

(print $1,$2)

使用字符串:

print "There are ",NF,fields")打印域总数,第一个域,和最后一个域

(print NF, $1,SNF)

添加行号(RS为n'时)

print NR,SO)

10.输出printf

◆printf更为精细的输出控制像C一样,Awk允许使用,printfi进行格式化输出

printf(format,val1,val2,...)

示例:

Is-I lawk'{

string ="hello world"

printf("%10d %sIn",NR,string)

}’

三:使用场景

1. 统计各国人口密度

image.png

相关文章
|
算法 Python
请解释Python中的关联规则挖掘以及如何使用Sklearn库实现它。
使用Python的mlxtend库,可以通过Apriori算法进行关联规则挖掘。首先导入TransactionEncoder和apriori等模块,然后准备数据集(如购买行为列表)。对数据集编码并转换后,应用Apriori算法找到频繁项集(设置最小支持度)。最后,生成关联规则并计算置信度(设定最小置信度阈值)。通过调整这些参数可以优化结果。
478 9
|
C++
VS、ReSharper 设置修改代码颜色、提高代码辨识度!附VS超实用快捷!
ReSharper 配置代码颜色 本文提供全流程,中文翻译。 Chinar 坚持将简单的生活方式,带给世人!(拥有更好的阅读体验 —— 高分辨率用户请根据需求调整网页缩放比例) ...
5169 0
|
算法 程序员 C++
LeetCode精讲(1)—— 单调栈有关习题及其变式
我们首先是要去熟悉单调栈这种结构,熟悉后,我们遇到问题的时候就只需要将原来包装的问题拆分,层层拆分后发现有用单调栈的这种需求,便可以瞬间联想到并去使用。
463 1
LeetCode精讲(1)—— 单调栈有关习题及其变式
|
XML SQL JavaScript
SpringBoot+MyBatis和MyBatisPlus+vue+ElementUl实现批量删除
批量删除也就是同时删除多条数据,首先要把所需要的数据选中, 批量删除它与删除的功能是一样的,只是它们删除的条数不同而已。当然批量删除的逻辑和知识点多,会比删除复杂一点。批量删除需要一个变量来接收返回值,然后获取选中行数据,再把选中行数据中的id获取到并把所有获取到的id进行拼接。确定用户选中了要删除的数据。判断返回来的值的长度,长度大于0说明用户已经选中要删除的数据,否则就提醒用户选择需要删除的数据, 删除成功后刷新表格,提醒用户已删除成功
SpringBoot+MyBatis和MyBatisPlus+vue+ElementUl实现批量删除
|
存储 弹性计算 固态存储
阿里云服务器多少钱一年?价格表新鲜出炉
阿里云服务器租用费用包括CPU内存、公网带宽和系统盘三部分价格,云服务器购买可以选择活动机型也可以选择自定义购买,活动机型配置固定但是价格便宜,自定义购买配置自由选择但是价格贵一些,阿里云百科来详细说下云服务器1核2G、2核4G、4核8G、8核16G、2核8G等配置租用费用:
12577 0
阿里云服务器多少钱一年?价格表新鲜出炉
|
开发工具 数据安全/隐私保护 虚拟化
使用无影云当做自己的第二台电脑
无影云桌面是阿里云推出的一台放在云上的超级电脑,这篇文章就介绍如何快速使用无影云桌面,利用无影云提高开发的效率。
2190 0
|
小程序
微信小程序 给数字或文字加横线,比如原价、已完成任务
微信小程序 给数字或文字加横线,比如原价、已完成任务
763 0
微信小程序 给数字或文字加横线,比如原价、已完成任务
|
存储 NoSQL 安全
Redisson 分布式锁源码 09:RedLock 红锁的故事
RedLock 红锁,是分布式锁中必须要了解的一个概念。 所以本文会先介绍什么是 RedLock,当大家对 RedLock 有一个基本的了解。然后再看 Redisson 中是如何实现 RedLock 的。
1015 0
Kettle配置数据源时加载外部properties配置文件
Kettle配置数据源时加载外部properties配置文件
官宣!支付宝小程序的 23 个入口大盘点
近日,支付宝小程序场景值文档发布。场景值用于描述用户进入小程序的路径,也就是说,场景值即代表了的小程序入口 。
4151 12
官宣!支付宝小程序的 23 个入口大盘点