linux指定列统计命令,linux统计文件行数命令

Linux常用命令

就是list的缩写，通过ls 命令不仅可以查看linux文件夹包含的文件，而且可以查看文件权限(包括目录、文件夹、文件权限)看目录信息等等

创新互联公司专注于企业网络营销推广、网站重做改版、顺河网站定制设计、自适应品牌网站建设、HTML5建站、电子商务商城网站建设、集团公司官网建设、成都外贸网站建设、高端网站制作、响应式网页设计等建站业务，价格优惠性价比高，为顺河等各大城市提供网站开发制作服务。

常用参数搭配：

实例：

(changeDirectory),命令语法：cd [目录名]。说明：切换当前目录至dirName

实例：

查看当前工作目录路径

实例：

创建文件夹

实例：

删除一个目录中的一个或多个文件或目录，如果没有使用- r选项，则rm不会删除目录。如果使用rm 来删除文件，通常仍可以将该文件恢复原状

rm [选项] 文件…

常用参数搭配：

实例：

删除空目录，一个目录被删除之前必须是空的。（注意，rm -r dir 命令可以代替rmdir,但是很危险，万一它突然就不是空的咧？），另外删除某目录时必须具有对父目录的写权限。

实例：

rmdir -p watch/avi删掉avi目录，watch目录就空掉了，那还看什么？所以干脆把watch目录一起删掉，眼不见为不净嘛。

mv命令是move的缩写，可以用来移动文件或者将文件改名，是Linux系统下常用的命令，经常用来备份文件或者目录。

命令功能：

视mv命令中第二个参数类型的不同（是目标文件还是目标目录），mv命令将文件重命名或将其移至一个新的目录中。当第二个参数类型是文件时，mv命令完成文件重命名，此时，源文件只能有一个（也可以是源目录名），它将所给的源文件或目录重命名为给定的目标文件名。当第二个参数是已存在的目录名称时，源文件或目录参数可以有多个，mv命令将各参数指定的源文件均移至目标目录中。在跨文件系统移动文件时，mv先拷贝，再将原有文件删除，而链至该文件的链接也将丢失。

命令参数：

实例：

将源文件复制至目标文件，或将多个源文件复制至目标目录。

注意：命令行复制，如果目标文件已经存在会提示是否覆盖，而在shell脚本中，如果不加-i参数，则不会提示，而是直接覆盖！

命令参数：

实例：

cat主要有三大功能：

命令参数：

实例：

功能类似于cat, more会以一页一页的显示方便使用者逐页阅读，而最基本的指令就是按空白键（space）就往下一页显示，按 b 键就会往回（back）一页显示

命令参数：

常用操作命令：

实例：

less 与 more 类似，但使用 less 可以随意浏览文件，而 more 仅能向前移动，却不能向后移动，而且 less 在查看之前不会加载整个文件。

命令参数:

实例：

head 用来显示档案的开头至标准输出中，默认head命令打印其相应文件的开头10行。

常用参数：

实例：

从指定点开始将文件写到标准输出。使用tail命令的-f选项可以方便的查阅正在改变的日志文件，tail -f filename会把filename里最尾部的内容显示在屏幕上，并且不断刷新，使你看到最新的文件内容。

常用参数：

实例：

用于改变linux系统文件或目录的访问权限。该命令有两种用法。一种是包含字母和操作符表达式的文字设定法；另一种是包含数字的数字设定法。

每一文件或目录的访问权限都有三组，每组用三位表示，分别为文件属主的读、写和执行权限；与属主同组的用户的读、写和执行权限；系统中其他用户的读、写和执行权限。可使用ls -l test.txt查找。

以文件log2012.log为例：

-rw-r--r-- 1 root root 296K 11-13 06:03 log2012.log

第一列共有10个位置，第一个字符指定了文件类型。在通常意义上，一个目录也是一个文件。如果第一个字符是横线，表示是一个非目录的文件。如果是d，表示是一个目录。从第二个字符开始到第十个共9个字符，3个字符一组，分别表示了3组用户对文件或者目录的权限。权限字符用横线代表空许可，r代表只读，w代表写，x代表可执行。

常用参数：

权限范围：

权限代号：

实例：

tar命令是类Linux中比价常用的解压与压缩命令。

常用参数：

-c: 建立压缩档案

-x：解压

-t：查看内容

-r：向压缩归档文件末尾追加文件

-u：更新原压缩包中的文件

这五个是独立的命令，压缩解压都要用到其中一个，可以和别的命令连用但只能用其中一个。下面的参数是根据需要在压缩或解压档案时可选的。

下面的参数-f是必须的

常见解压/压缩命令

chown将指定文件的拥有者改为指定的用户或组，用户可以是用户名或者用户ID；组可以是组名或者组ID；文件是以空格分开的要改变权限的文件列表，支持通配符。

常用参数：

实例：

显示磁盘空间使用情况。获取硬盘被占用了多少空间，目前还剩下多少空间等信息，如果没有文件名被指定，则所有当前被挂载的文件系统的可用空间将被显示。默认情况下，磁盘空间将以 1KB 为单位进行显示，除非环境变量 POSIXLY_CORRECT 被指定，那样将以512字节为单位进行显示。

常用参数：

实例：

du命令也是查看使用空间的，但是与df命令不同的是，du能看到的文件只是一些当前存在的，没有被删除的，他计算的大小就是当前他认为存在的所有文件大小的累加和。du命令是对文件和目录磁盘使用的空间的查看。

常用参数：

实例：

ln命令用于将一个文件创建链接,链接分为软链接和硬链接，命令默认使用硬链接。当在不同目录需要该文件时，就不需要为每一个目录创建同样的文件，通过ln创建的链接（link）减少磁盘占用量。

软链接：

硬链接:

需要注意：

常用参数：

实例：

显示或设定系统的日期与时间

命令参数：

实例：

可以用户显示公历（阳历）日历，如只有一个参数，则表示年份(1-9999)，如有两个参数，则表示月份和年份。

常用参数：

实例：

强大的文本搜索命令，grep(Global Regular Expression Print)全局正则表达式搜索。

grep的工作方式是这样的，它在一个或多个文件中搜索字符串模板。如果模板包括空格，则必须被引用，模板后的所有字符串被看作文件名。搜索的结果被送到标准输出，不影响原文件内容。

命令格式：

grep [option] pattern file|dir

常用参数：

实例：

wc(word count)功能为统计指定的文件中字节数、字数、行数，并将统计结果输出。

命令格式：

wc [option] file..

命令参数：

实例：

ps(process status)，用来查看当前运行的进程状态，一次性查看，如果需要动态连续结果使用top。

linux上进程有5种状态:

ps工具标识进程的5种状态码：

命令参数：

实例：

显示当前系统正在执行的进程的相关信息，包括进程ID、内存占用率、CPU占用率等。

常用参数：

发送指定的信号到相应进程。不指定型号将发送SIGTERM（15）终止指定进程。如果无法终止该程序可用“-KILL” 参数，其发送的信号为SIGKILL(9) ，将强制结束进程，使用ps命令或者jobs 命令可以查看进程号。root用户将影响用户的进程，非root用户只能影响自己的进程。

常用参数：

实例：

显示系统内存使用情况，包括物理内存、交互区内存(swap)和内核缓冲区内存。

命令参数：

实例：

Netstat 是一款命令行工具，可用于列出系统上所有的网络套接字连接情况，包括 tcp, udp 以及 unix 套接字，另外它还能列出处于监听状态（即等待接入请求）的套接字。如果你想确认系统上的 Web 服务有没有起来，你可以查看80端口有没有打开。以上功能使 netstat 成为网管和系统管理员的必备利器。

命令参数：

实例

Linux常见日志统计分析命令

在上文中，我们已经详细介绍 linux 三剑客的基本使用，接下来我们看看具体在性能测试领域的运用，本文主要介绍的是在 Tomcat 和 Nginx access日志的统计分析。

server.xml 使用配置方式，%D-请求时间，%F-响应时间

字段说明如下：

日志样例：

使用默认 combined 的经典格式上扩展 response_timeupstream_response_time

nginx.conf 使用配置方式：

字段说明如下：

日志示例：

为了能理解 AWK 程序，我们下面概述其基本知识。

模式( pattern ) 用于匹配输入中的每行文本。对于匹配上的每行文本，awk 都执行对应的动作( action )。模式和动作之间使用花括号隔开。awk 顺序扫描每一行文本，并使用记录分隔符（一般是换行符）将读到的每一行作为记录，使用域分隔符( 一般是空格符或制表符 ) 将一行文本分割为多个域，每个域分别可以使用 2, … 表示。1 表示第一个域，表示第二个域，n 表示第 n 个域。 $0 表示整个记录。模式或动作都可以不指定，缺省模式的情况下，将匹配所有行。缺省动作的情况下，将执行动作 {print}，即打印整个记录。

此处使用Nginx access.log 举例，Tomcat 日志自己举一反三。使用 awk 分解出Nginx access日志中的信息

以此类推…… 当我们使用默认的域分割符时，我们可以从日志中解析出下面不同类型的信息：

我们不难发现，仅使用默认的域分隔符，不方便解析出请求行、引用页和浏览器类型等其他信息，因为这些信息之中包含不确定个数的空格。因此，我们需要把域分隔符修改为 “ ，就能够轻松读出这些信息。

注意：这里为了避免 Linux Shell 误解 “ 为字符串开始，我们使用了反斜杠，转义了 “ 。现在，我们已经掌握了 awk 的基本知识，以及它是怎样解析日志的。

此处使用Nginx access.log 举例，Tomcat 日志自己举一反三。

如果我们想知道那些类型的浏览器访问过网站，并按出现的次数倒序排列，我可以使用下面的命令：

此命令行首先解析出浏览器域，然后使用管道将输出作为第一个 sort 命令的输入。第一个 sort 命令主要是为了方便 uniq 命令统计出不同浏览器出现的次数。最后一个 sort 命令将把之前的统计结果倒序排列并输出。

我们可以使用下面的命令行，统计服务器返回的状态码，发现系统可能存在的问题。

正常情况下，状态码 200 或 30x 应该是出现次数最多的。40x 一般表示客户端访问问题。50x 一般表示服务器端问题。下面是一些常见的状态码：

HTTP 协议状态码定义可以参阅：

查找并显示所有状态码为 404 的请求

统计所有状态码为 404 的请求

现在我们假设某个请求 ( 例如 : URI: /path/to/notfound ) 产生了大量的 404 错误，我们可以通过下面的命令找到这个请求是来自于哪一个引用页，和来自于什么浏览器。

有时候会发现其他网站出于某种原因，在他们的网站上使用保存在自己网站上的图片。如果您想知道究竟是谁未经授权使用自己网站上的图片，我们可以使用下面的命令：

注意：使用前，将修改为自己网站的域名。

统计共有多少个不同的 IP 访问：

统计每一个 IP 访问了多少个页面：

将每个 IP 访问的页面数进行从小到大排序：

统计 2018 年 8 月 31 日 14 时内有多少 IP 访问 :

统计访问最多的前十个 IP 地址

查看某一个 IP访问了哪些页面：

统计某个 IP 的详细访问情况,按访问频率排序

列出传输大小最大的几个文件

列出输出大于 204800 byte ( 200kb) 的页面以及对应页面发生次数

列出访问最频的页面(TOP100)

列出访问最频的页面([排除php页面】(TOP100)

列出页面访问次数超过100次的页面

列出最近1000条记录，访问量最高的页面

统计每分钟的请求数,top100的时间点(精确到分钟)

统计每小时的请求数,top100的时间点(精确到小时)

统计每秒的请求数,top100的时间点(精确到秒)

统计当天的 pv

说明：

可以使用下面的命令统计出所有响应时间超过 3 秒的日志记录。

注意：NF 是当前记录中域的个数。$NF 即最后一个域。

列出php页面请求时间超过3秒的页面，并统计其出现的次数，显示前100条

列出相应时间超过 5 秒的请求，显示前20条

统计蜘蛛抓取次数

统计蜘蛛抓取404的次数

通过本文的介绍，我相信同学们一定会发现 linux三剑客强大之处。在命令行中，它还能够接受，和执行外部的 AWK 程序文件，可以对文本信息进行非常复杂的处理，可以说“只有想不到的，没有它做不到的”。

linux命令对某一列去重/统计

cat file.csv | awk -F '\t' '{print $2}'

'\t'指的是file.csv不同列以'\t'分割，如果的是以其他符号分割，换成其她符号；

'{print $2}'是指取第2列，此处从1开始计数，第1列，第2列；

一般去重之前要进行排序

cat file.csv | awk -F '\t' '{print $2}' | sort | uniq

前半部分与命令1一样，后面加上| sort | uniq

比如通过命令2发现，第2列取值有两种，分别是'neg'和‘pos’，那么我想知道有多少行的第2列取值为'pos'，多少行的第2列取值为'neg'。

cat file.csv | awk -F '\t' '{print $2}' | grep -o 'neg'| wc -l

前半部分与命令1一样，后面加上 | grep -o 'neg'| wc -l

grep -o 'neg'就是取出取值为'neg'的行

wc -l 是计数有多少行

当前名称：linux指定列统计命令,linux统计文件行数命令
文章起源：http://6mz.cn/article/hsepjp.html

网站建设知识

linux指定列统计命令,linux统计文件行数命令

Linux常用命令

Linux常见日志统计分析命令

linux命令对某一列去重/统计

其他资讯