文本分析和处理 awk|学习笔记

2022-07-19 131

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 快速学习文本分析和处理 awk

开发者学堂课程【Linux 文本管理入门：文本分析和处理 awk】学习笔记，与课程紧密联系，让用户快速学习知识。

课程地址：https://developer.aliyun.com/learning/course/790

文本分析和处理awk

内容简介：

一：工具简介

二：工具使用

三：常用场景

一：工具简介

●简介

AMK是一种解析式编程语言,非常强大,是专门设计来进行文本处理的,名称是其三位创建者( Alfred Aho, Peter Weinberger. and Brian Kernighan)姓的首字母。

GNU/Linux分发的版本是由自由软件基金会(FSF)维护的,常常被叫做Gawk,Awk和Sed-样都是行编辑器,两者的工作流程很像,但Awk有很多更加强大的地方。

l 与sed相比的优点：

◆方便的数值处理与计算

◆变量和流程控制

◆访问行之中域

◆灵活的打印

◆内置数值和市非数

◆类C语法

l 脚本结构

下图指出了一个awk程序脚本的结构：

以BEGIN开始，以END结束，这两个话句都是可选的。

每一个语句都是一个pattern-action对，和sed相似。当输入符合模式时,对相应的action 才会执行。

如果省略Pattern，则动作的每一行都执行默认的动作是打印当前行。

BEGIN--读第一行之前执行

END--处理完最后一行后执行

二：工具使用

l 运行方式

第一种：awk'script' input files

此时的脚本内容通过命令行参数传进去：

Awk’{print}’text1

第二种:awk -f script_ file input_ files

将脚本文件传进去awk1即为脚本)

Awk-f awk1 text1

l 模式

1.正则表达式/ pattert/：

将匹配text1,text2,text3

Is awk "/test[123]/{}print}’

2.!排除表达式:

不匹配text1,text2,text3

Is I awk ‘!/test[ 123]/{print}’

3.关系表达式：

超出一百字节的文件名

Is- HIlawk

$5>100{print $9}’

4. 匹配表达式：

$9==”text1”比较是否相等

$9-/”text”/是否和正对表达式匹配

下例匹配所有以向text开头的文件：/^text

Is -I |awk ‘$9~/^text*/{print}’

5.多个表达式:

多个表达式之间,可使用”||””&&"逻辑运算符

如找出大于100字节小于200字节,且以text为开头的文件,可以这样做:

Is -l|awk’

$5>100 && $5 <200 && $9~text*/{print $9}’

6.变量

◆可以定义和使用变量

例如：

BEGIN {count=0}

{count++}

END {print count}

字符串变量初始化为null(即:\0)

数值变量初始化为0

变量不用声明

awk中定义变量并不需要声明,awk会根据上下文环境，自动判断类型。

7. 预定义变量

◆预定义变量

前面提到过两个概念:行和域。这是粗略的类比。实际上在AWk中有更精确的定义

1.Record记录,默认为一行

2.RS( Record Separat)记录分割符,默认为”\n”

3.NR( Number of Record)指第几个记录

4.Fleid:域

5 .FS(Field Separator)域分割符,默认是空白字符(个或多个空格或ab)

6.NF( Number of Fields)当前说操的城总数

7.可通过一F或者在BEGIN action牛指定M例如Fs

8.$0整个记录,$1表示第一个记录,$2表示第二个,类推

8.变量操作一字符串类型

◆字符串串接

添加xt后缀

（last ＄＂.txt＂｝

字符串赋值

使用＝直接赋值即可，如上例所示

（print ＄1，＄2｝

◆内置字符串函数

内置了一系列字符串处理函数，如substr（str.sn）从str的第s位开始至多截取。

9.简单输出

打印整个记录：

（printy/（print ＄O｝

使用变量：

打印第一个域，第二个域

（print ＄1，＄2）

使用字符串：

print ＂There are ＂，NF，fields＂）打印域总数，第一个域，和最后一个域

（print NF，＄1，SNF）

添加行号（RS为n＇时）

print NR，SO）

10.输出printf

◆printf更为精细的输出控制像C一样，Awk允许使用，printfi进行格式化输出

printf（format，val1，val2，...）

示例:

Is-I lawk＇｛

string ＝＂hello world＂

printf（＂％10d ％sIn＂，NR，string）

}’

三：使用场景

1. 统计各国人口密度

文本分析和处理 awk|学习笔记

文本分析和处理awk

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

文本分析和处理 awk|学习笔记

文本分析和处理awk

热门文章

最新文章

相关电子书