Perl字符串处理-FreeOA

Perl字符串处理

2010-07-25 09:59:36

阿炯

众所周知Perl处理字符串的功能非常强大，Perl(Practical Extraction and Reporting language)处理格式的功能也非常强大，这里就介绍一些Perl的格式和字符串处理常见方法与函数。

字符串的内置函数有：
chomp, chop, chr, crypt, fc, hex, index, lc, lcfirst, length, oct, ord,
pack, q//, qq//, reverse, rindex, sprintf, substr, tr///, uc, ucfirst, y///

分为几类：
字符大小写转换类：
   lc：(lower case)将后面的字母转换为小写，是\L的实现
   lcfirst：将后面第一个字母转换为小写，是\l的实现
   uc：(uppercase)将后面的字母转换为大写，是\U的实现
   ucfirst：将后面第一个字母转换为大写，是\u的实现
   fc：(foldcase)和lc基本等价，只不过fc可以处理UTF-8类的字母
字符处理类函数：
   chomp：去除行尾换行符
   chop：去除行尾字符，后文详细示例chop
   reverse：反转列表、标量字符串、hash，后文详细示例[reverse(#blogreverse)]
   substr：获取字串，后文详细示例substr
   tr///：字符映射，见tr///
   y///：等价于tr///
字符位置索引：
   index：获取字符所在索引位置，后文详细示例index和rindex
   rindex：也是获取字符所在索引位置，后文详细示例index和rindex
进制转换类：
   hex：将16进制转换为十进制。当字符以0x或x开头时会自动被认为是十六进制数
   oct：将8进制转换为十进制。当字符以0开头时会自动被当作8进制数
   ord：将字符串的第一个字符转换为ascii码
   chr：将ascii转换为对应的字符
其他类：
   crypt：(暂时略)
   length：返回字符串字符数量，后文详细示例length
   pack：(暂时略)
   q//：相当于给字符串加单引号(quote)
   qq//：相当于给字符串加双引号(double quote)
   sprintf：(略)printf的不输出版，不用于输出，而用于返回本该输出的内容

单双引号和反引号

perl对待单双引号的方式和shell有点类似：
单引号内，只有反斜线的转义效果存在(如\n不再是换行)，其它全都当作字面符号(单引号自身除外)
双引号内，反斜线、反斜线序列(\n,\t...)、变量替换都允许
反引号内，内容会交给shell执行

'freeoa'
'freeoa\'s girl friend'
'freeoa\n'   # 这里没有换行
"freeoa\n"   # 换行了
'freeoa
girl friend'   # 换行了，因为这里的换行是字面符号，不是\n
'freeoa\\n'   # 换行了
"freeoa $var"   # 变量替换

有以下反斜线序列(转义序列)：
\n
\r
\t
\l    # 将下个字母转换为小写
\L    # 将后面的多个字母都转换为小写，直到遇到\E
\u    # 将下个字母转换为大写
\U    # 将后面的多个字母都转换为大写，直到遇到\E
\Q    # 和\E之间的所有字符都强制当作字面符号
\E    # \L、\U和\Q的结束符号

但即使没有"\E"，到了字符串结束的地方，转义序列就会结束。例如：
print "\Uabc"."xyz\n"   # 输出ABCxyz
print "abc"."x\Eyz\n"   # 输出abcxyz

反引号内的字符串会交给shell执行。这是和操作系统交互的一种方式，支持操作系统的管道、重定向等特性。另一种方式是使用system函数。
$mydatetime = `date +"%F %T"`;
print $mydatetime,"\n";

默认情况下，反引号内的内容会被perl先按照双引号的方式进行解析，然后传递给操作系统的shell执行。所以当有变量替换时会进行变量替换：
$name="freeoashuai";
$msg=`echo $name`;   # 替换为echo freeoashuai，然后交给shell
print $msg;

如果不想先被perl解析，可以使用qx和单引号结合的方式，关于qx，见下文。
$name="freeoashuai";
$msg=qx'echo ha $name hei';   # 不会替换为freeoashuai，而是将$name替换为空交给shell
print $msg;

引号的文本形式：q、qq和qx

q等价于单引号，qq等价于双引号，qx等价于反引号。更多q系列的用法可参考《q_qq_qr_qw_qx》。

q(hello world)   # 等价于'hello world'
qq(hello world)   # 等价于"hello world"
qx(echo hello world)   # 等价于`echo hello world`

上面的括号可以替换为其它符号，只要前后能配对(特指括号类)或者一致即可：
qq{ hello }
qq! hello !
qq# hello #
qq% hello %

字符串连接和重复

字符串连接使用点(.)，下面是等价的：
abc.cde
abccde

字符串重复使用小写字母"x"，后跟一个重复倍数。如果倍数是一个小数，如3.2，则会取整。如果倍数小于1，则取整为0，倍数为0返回空。
"abc" x 3
"abc" x 3.2

都将输出"abcabcabc"。

"abc" x 0.4 # 返回空

"x"符号左边会强制转换为字符串。

03 x 3   # 返回333
"03" x 3   # 返回030303
3 x 3   # 返回333
3.2 x 3   # 返回3.23.23.2

数值和字符串的类型自动转换

什么时候转换，以及向哪个方向转换，取决于操作符。

例如算数运算符(+-*/等)需要的是数值，会强制转换为数值。"."操作符需要的是字符串，会强制转换为字符串。
"0333" + 22   # 返回355
"033".22   # 返回03322
033.22   # 返回2722，033表示8进制，转换为十进制为27(3*8+3)

要注意的一个地方，数值开头的字符串也可以强制转换为数值。但只能转换数值开头(允许前导空白)的字符串：
"12abc" * 3   # 36
"abc12" * 4   # 0
" 12abc" * 3   # 36

两种类型的操作符一起用的时候，会按照优先级进行运算：
"abc".5*3   # 返回abc15，乘法先运算
"abc".5 + 3   # 返回3，"."先运算
"abc".(5+3)   # 返回abc8

Heredoc

perl中也支持heredoc，所谓heredoc，即表示将后面的内容当作文档。既然是文档，就需要有文档起始符和文档结束符，分别标识文档从哪里起始，到哪里结束。一般来说，所有支持heredoc的语言，文档起始符和文档结束符都必须相同(一般使用EOF或eof作为起始符和结束符)，且结束符必须单独占行且顶格书写。

perl中支持的heredoc格式如下，以print为例：
print <<EOF;
    line1
    line2
    line3
EOF

这里以EOF作为文档起始符和结束符
起始符EOF后面必须加上分号结尾，分号后的所有内容都忽略(即使它后面的不是注释内容)
结束符EOF单独占用一行，且顶格书写
起始符和结束符中间是怎样的数据，输出时就是怎样的数据

perl的heredoc还有自己的特性，可以为起始符加上单引号和双引号以及其它符号。加单双引号后的效果和一般单引号、双引号的能力是一样的：
单引号是强引用
双引号是弱引用
不加引号等价于加双引号
加反引号`，则将字符串放进shell环境执行

加单双引号：
$name="freeoashuai";

print <<'EOF';
   haha
   \$name # 反斜线转义功能失效

   $name   # 变量无法替换
EOF

print <<"EOF";
   haha
   \$name   # 反斜线成功转义

   $name    # 变量成功替换
EOF

加反引号：
print <<`EOF`;
   date +"%F %T"
EOF

可以将heredoc直接赋值给变量：

$msg = <<EOF;
    HELLO
    WORLD
EOF

print $msg; # $msg不要加换行符，因为$msg是一个heredoc，自带换行符。

熟悉其最强大的三个函数：substr、pack、unpack。

1、大小写处理函数 lc(转为小写) uc(转为大写) 。
$text="zhengwen feng";
$text2=lc $text;
$text3=uc $text;
print "$text2\n";
print "$text3\n";

2、将第一字母变为小写(lcfirst)，将第一个字母大写(ucfirst)。
$string="zheng";
$string2=lcfirst $string;
$string3=ucfirst $string;
print "$string2\n";
print "$string3\n";

3、顺序查找string位置(index)，逆序查找string位置(rindex)。index在字串中找尋某一子字串的起始位置。
$string="zheng wen feng zheng wen feng";
$position1=index($string,"wen");
$position2=index($string,"wen",10);
$position3=rindex($string,"zheng");
$position4=rindex($string,"zheng",10);
print "$position1,$position2,$position3,$position4\n";

#!/usr/bin/Perl
$str="ABCDEFG1234567";
$a="12";
$pos=index($str,$a);
print$pos,"\n";

[hto@localhost]$./tipind.pl
7

4、获取子串函数substr，功能非常强大，可以直接支持以一个字符串代替字符串的一个子串。
$text="zheng wenfeng 爱 KittyKitty";
$replace_to="爱";
$replace_with="喜欢";
substr($text,index($text,$replace_to),length($replace_to),$replace_with);
print "$text\n";

5、字符串中取串长(字符数量)-length
#!/usr/bin/Perl
$str="abCD99e";
$strlen=length($str);
print$strlen,"\n";
[htog@localhost]$./tiplen.pl
7

8、pack和unpack函数用于字符串的打包和解包，功能非常强大，支持多种打包格式字符串处理的。
$decimal=17;
$newdecimal=unpack("B32",pack("N",$decimal));
print "$newdecimal\n";
$string="张大华爱中国";
@array1=unpack("c*",$string);
@array2=unpack("C*",$string);
print (join(",",@array1),"\n");
print (join(",",@array2),"\n");
$string1=pack("c*",@array1);
$string2=pack("C*",@array2);
print "$string1\n";
print "$string2\n";

9、打印格式-sprintf
$value=1234.56789;
print sprintf "%.4f\n",$value;

10、字符串比较函数 eq、ne、cmp、lt、gt、le、ge，使用cmp就好。绝不能用'==',要用eq，正确的做法是：不论整形Perl字符串，都用eq。
$string1="大华";
$string2="大华";
if($string1 eq $string2){
print "$sting1==$string2\n";
}
if($string1 ne $string2){
print "$string1!=$string2\n";
}

if( ($string1 cmp $string2)==0){
print "$string1==$string2\n";
}

$string1="zheng";
$string2="Kitty";
if($string1 lt $string2){
print "left < right \n";
}

if($string1 gt $string2){
print "left > right \n";
}

if($string1 le $string2){
print "left < right \n";
}

if($string1 ge $string2){
print "left > right \n";
}

11、字符分割操作-split
@数组=split(pattern,串)，将Perl字符串用某模式分成多个单词。
#!/usr/bin/Perl
$str="ABCDEiFG12i34567";
@array=split(//,$str);按空格分
foreach(@array){
print$_,"\n";
}

[hto@localhost]$./tip.pl
ABCDEi
FG12i
345
6
7

@array=split(/+/,$line);当一行中各单词间的空格多于一个时。

空格和TAB混杂情况下的split
[hto@localhost]$vitip.pl

#!/usr/bin/Perl
$str="ABCDEiFG12i34567";
@array=split(/\t/,$str);
foreach(@array){
print$_,"\n";
}

[hto@localhost]$./tip.pl
ABCDEiFG12i
34567

只分了两份，为什么？因为同时满足TAB和空格的只有一处，所以必须加[]。
@array=split(/[\t]/,$str);现在才是真正的按空格和TAB分

[hto@localhost]$./tip.pl
ABCDEi
FG12i

345
6
7

但还是有缺陷，TAB和空格相连时，TAB被认为是空格划分的子串，或者空格被认为是TAB划分的子串。

$string="张大华爱中国";
@array=split(//,$string);#这种方法无法将其进行分成"张","大","华","爱","中","国"等单字
print (join(",",@array),"\n");

12、演示中文字符夹带英文字符的反序(使用了多个函数)
print "------begin-----\n";
$string1="中国love!张大华";
@array=unpack("C*",$string1);
$length=$#array;#此数组的最后一个下标
for(;$length>=0;){
if($array[$length]<=128){
#英文或者标点
push(@array2,$array[$length]);
$length=$length-1;
}
else{
#中文字符
push(@array2,$array[$length-1]);
push(@array2,$array[$length]);
$length=$length-2;
}
}

$string2=pack("C*",@array2);
print "$string2\n";
$dir=dir;
print qx/$dir/;
@name=qw/zheng wen feng Kitty Kitty/;
print join(",",@name);

13、字符合并操作-join
用join定义Perl字符串数组格式符号(缺省)必须与qw()合用。
语法：join($string,@array)
@array=qw(onetwothree);
$total="one，two，three";
@array=qw(onetwothree);
$total=join("：",@array);
$total="one：two：three";

14、匹配数组内元素字串-grep
@array=("one","on","in");
$count=grep(/on/,@array);
查询结果赋值给单变量
@array=("one","on","in");
@result=grep(/on/,@array);
查询结果赋值给数组
2
one
on

15、字符串连接-'.='
关于perl字符串连接的方法讨论。
$line = $line."456";
这个语句中，line要被计算两次。
$line .= "456" ;
运算符','，常用于输出：
print "金",$v1;
print $str,"\n\n";

'.'运算符和','类似，也是Perl字符串相加但通常只用于print而'.'可以用在任何Perl字符串相加的地方。
print '12345大家來'."helloworld";
結果变成：12345大家來helloworld

16、重复连接运算符号-x
print"OK"x4;
結果变成：
OKOKOKOK
这个计算一次就可以了。Perl字符串的连接可以连接整形和字符形，整形也被当作字符型处理，没有printf里的%d问题。

17、双引号字符串中的转义符
符号    含义
\n    换行
\r    回车
\t    制表符
\f    formfeed
\b    退格
\a    响铃
\e    escape(ASCII中的escape字符)
\007    任何八进制值(这里是，007=bell(响铃))
\x7f    任何十六进制值
\cC    一个控制符(这里是，ctrl+c)
\\    反斜线
\"    双引号
\l    下个字符小写
\L    接着的字符均为小写直到\E
\u    下个字符大写
\U    接着的字符均为大写直到\E
\Q    在non-word字符前加上\，直到\E
\E    结束\L,\E和\Q

17、chop和chomp

1.chop去除行尾字符，返回行尾去除的字符
2.修改hash的时候，去除每个value的最后一个字符，而不是最后一个key，并返回最后一个value被删除的字符
3.修改列表时，去除每个元素的最后一个字符

1.修改字符串
$str="abnc";
print chop $str;   # 输出c
print $str;   # 输出abn

2.修改hash(目的与结果均不确定)
%myhash=(name => "freeoa",prov => "jiangxi",sch => "linchuan");
$choped = chop %myhash;
while(($key,$value) = each %myhash){
    print $key,":","$value\n";
}
print "=" x 9,"\n";
print "$choped";

3.修改列表
@list=qw(aaa bbb ccc ddd);
chop @list;   # 返回aa bb cc dd
print "@list";

《移除字符串中的字符》

18、reverse

用于反转列表、标量字符串、hash。

1.反转列表时，将返回反序的列表
2.当放在标量上下文时，将做字符串反转
3.当反转hash时，将把value反转成key，所以当value有重复值时，反转时会丢弃一部分键值
4.reverse不是作用在原始内容上的，而是通过返回值返回反转结果

反转列表：将元素反转

@arr=qw(abc def ghi);
@arr=reverse @arr;
print "@arr\n";   # 输出(ghi def abc)
say join(",",reverse "hello","world");   # 输出：world,hello

标量上下文下：串联各元素得到一个标量，然后反转这个标量，即使反转目标是列表
@arr=qw(aA bB cC dD);
print scalar reverse @arr;   # 输出：DdCcBbAa
print "\n";
print @arr;   # 输出：aAbBcCdD

反转字符串：
print scalar reverse "hello"; # 输出olleh

反转hash：会把value反转成key，所以value重复时，将丢弃一部分键值
%arr=qw(aA bB cC dD);
%arr1=reverse %arr;
while(($key,$value)=each %arr1){
    print "$key -> ","$value","\n";
}

执行结果：
dD -> cC
bB -> aA

19、substr

用于从给定字符串中提取出一段子字符串。

用法：
substr STRING,OFFSET,LENGTH,REPLACEMENT
substr STRING,OFFSET,LENGTH
substr STRING,OFFSET

其中：
1.offset从0开始计算
2.offset为负数时，表示从尾部位移(从-1开始计算)往前位移
3.length如果忽略，则从offset处开始取到最尾部
4.length为负数时，length则表示从后往前的位移位置，所以将提取从offset到length处的子串
5.replacement替换string中提取出来的字串。需要注意两点：
5.1.加了replacement，将返回提取的子串
5.2.但源字符串STRING已被替换

use 5.010;
$str="love your everything";

say substr $str,5;   # 输出：your everything
say substr $str,-10;   # 从后往前取：everything
say substr $str,5,4;   # 从前往后取4个字符：your
say substr $str,5,-3;   # 从位移5取到位移-3(从后往前算)：your everyth
say substr $str,5,4,"fairy's";   # 替换源字符串，但返回提取子串：your
say $str;   # 源字符串已被替换：love fairy's everything

可以将substr函数作为左值(lvalue)，这样可以修改源变量，就像给了replacement参数一样：
use 5.010;
$str="love your everything";

substr($str,5,4) = "freeoa's";
say $str;   # 源字符串已被替换：love freeoa's everything

还可以用绑定操作符(=~)只对字串的某部分进行操作。
my $rstr='It is some perl articles on freeoa.net, on sites freeoa has more freeoa.net';
substr($rstr,-30)=~s/freeoa/OaFree/g;

substr与index能做到的事用正则也能办到，通常前者要快一点，因为其没有正则表达式的额外的负担：后者总是区分大小写，不必担心元字符，也不会动用任何内存变量。

返回被替换的字串
my $str='freeoa.net';
my $reped_str=substr($str,0,6,"Site of FreeOA");
say "$str\n$reped_str";

>
Site of FreeOA.net
freeoa

20、index和rindex

它们用来找出给定字符串中某个子串或某个字符的索引位置。

用法：
(r)index STRING,SUBSTR,POSITION
(r)index STRDING,SUBSTR

1.index用于搜索STRING中第一次出现SUBSTR的位置，rindex则搜索最后一次出现的SUBSTR位置
2.如果省略position，则从起始位置(从0开始计算)开始搜索第一次出现的子串
3.给定position，则从position处开始搜索，如果是rindex，则是找position左边的
4.如果STRING中找不到SUBSTR，则返回-1

use 5.010;
$str="love you and your everything";

say index $str,"you";   # 输出：5
say index $str,"yours";   # 输出：-1
say index $str,"you",136;   # 输出：-1
say index $str,"you",6;   # 从offset=6之后搜索，输出：13
say rindex $str,"you";   # 输出：13
say rindex $str,"you",10;   # 找出offset=10左边的最后一个you，输出：5

21、length

用于返回字符串的字符数量，不是字节数。如果是字节数，则采用unicode模块。

下面的例子中，将输出11：
$str="hello world";
print length $str;

length不能直接作用于数组和hash来统计元素个数。想要统计个数：
1.对于数组，直接将其放在标量上下文即可
2.对于hash，可使用keys函数返回hash键，然后放进标量上下文

# 数组元素个数
@arr=qw(aaa bb ccc ddd eee ff);
print scalar @arr;   # 输出6

# hash元素个数
%myhash=qw(aaa bb ccc ddd eee ff);
print scalar keys %myhash;

如果length的对象未定义，则返回undef。如果length的对象没有字符但已定义，则返回0。

综合用例：

1、(用递归)反转字串

print '输入一个字串：';
reverstr();

sub reverstr {
    my $c = getc(STDIN);
    # 必须用双引号 "\n",万不能使用单引号的'\n'
    if ($c ne "\n") {
        reverstr();
        print $c;
    }
}

print "\n";

使用单引号 '\n' 来做匹配运算是错误的：
'\n' → 字符 \ + 字符 n
"\n" → 真正的换行符

判断是否回车必须用双引号！因为单引号里 \n 不能被转义。

注意：getc(STDIN)是逐字符读取，但默认行缓冲，必须回车后才会读入。

在此附上非递归、数组反转、命令行参数版本。

1)、非递归：
print '输入一个字串：';
my $str = <STDIN>;    # 一次读入整行
chomp $str;           # 去掉换行符
my $rev = reverse $str; # 直接反转
print "反转结果：$rev\n";

完全手写非递归逻辑：
print '输入一个字串：';
my $str = <STDIN>;
chomp $str;
my $rev = '';
# 从最后一个字符往前遍历
for (my $i = length($str)-1; $i >= 0; $i--) {
    $rev .= substr($str, $i, 1);
}
print "反转：$rev\n";

建议实际开发永远用非递归版本，简单、安全。

2)、数组反转

print '输入一个字串：';
my $str = <STDIN>;
chomp $str;

#1.把字符串拆成数组
my @chars = split //, $str;
#2.数组反转（核心）
my @rev_chars = reverse @chars;
#3.数组合并成字符串
my $result = join '', @rev_chars;
# 输出
print "反转结果：$result\n";

或简写合并(这里加上了Utf8后就可以处理宽字符如中文了)：
use utf8;
binmode(STDIN, ':encoding(UTF-8)');
binmode(STDOUT, ':encoding(UTF-8)');
binmode(STDERR, ':encoding(UTF-8)');

print '输入一个字串：';
chomp(my $str = <STDIN>);
my $rev = join '', reverse split //, $str;
print "反转：$rev\n";

3)、命令行参数

die "usage: $0 str\n" unless @ARGV;
print reverse $ARGV[0], "\n";

>perl reverstr.pl freeoa.net
>ten.aoeerf

该文章最后由阿炯于 2026-03-30 17:07:11 更新，目前是第 2 版。