我们在工作中,经常需要使用sed替换、增加文本中的URL。但是,我们经常会遇到URL中的特殊字符在sed中产生歧义,以至于在编写bash脚本的时候,花去大量时间测试。那么什么特殊字符会产生歧义呢?
#这些都需要转义
&, |, \, /, ^, *, (, ), [, ], {, }, `,?
其中,以“&,/,?“为最主要需要转移的。例如:
[nhuang@localhost test]$ url="http://www.baidu.com/cgi-bin?a=dasdfd&b=asdfasdf" ; echo $url | sed "s/\(\(\/\)\|\(\?\)\|\(\&\)\)/\\\\\1/g"http:\/\/www.baidu.com\/cgi-bin\?a=dasdfd\&b=asdfasdf[nhuang@localhost test]$ url="http://www.baidu.com/cgi-bin?a=dasdfd&b=asdfasdf" ; echo $url | sed "s/\(\(\/\)\|\(\?\)\|\(\&\)\)/\\\\\1/g"http:\/\/www.baidu.com\/cgi-bin\?a=dasdfd\&b=asdfasdf
是不是很复杂呢?像是在编写底层代码 :)。替换查找是最显bash水平的时候,但是根据sed的版本,可能让你的工作能力大大缩水。非常令人失望。如上的方法,在sed-4.1.5版本上就无法获得正确的结果。所以,快速python开发是如何重要!但是即使问题多多,bash依旧有着非常重要的地位,所以最好让自己的bash编程水平提高,对各个命令的版本了如指掌。才能称为一位优秀的工程师:)
注意:sed不认(:?)这样的perl正则表达式,所以不要使用所有的( a|b ),都要转义,例如\(\),以及\( a\|b \)。