1500字范文,内容丰富有趣,写作好帮手!
1500字范文 > python字符串界定符有哪些_Python 使用界定符分割字符串

python字符串界定符有哪些_Python 使用界定符分割字符串

时间:2018-09-06 09:18:12

相关推荐

python字符串界定符有哪些_Python 使用界定符分割字符串

文章目录

使用界定符分割字符串

前言

re.split()

maxsplit 和 flags 参数

捕获分组

注意事项

使用界定符分割字符串

前言

需求是将字符串分割成多段,但是分隔符(周围的空格)并不固定。

re.split()

普通 string 对象的 split() 方法能够用于字符串分割,但前提是需求相对简单的情况下,因为 string 对象的 split() 方法并不允许有多个分隔符或者分隔符周围有不确定的空格。当需要更加灵活地切割字符的时候,建议使用 re.split() 方法。示例如下:

>>> line = 'asdf fjdk; afed, fjek,asdf, foo'

>>> import re

>>> re.split(r'[;,\s]\s*', line)

['asdf', 'fjdk', 'afed', 'fjek', 'asdf', 'foo']

re.split() 允许为分隔符指定多个正则模式,上面的示例中表示,分隔符可以是分号、逗号或者空格,并且后面紧跟任意空格。只要这个模式被找到,那么匹配的分隔符两边的实体都会别当成是结果中的元素返回。返回结果类型是列表。

maxsplit 和 flags 参数

这里延伸讲下 re.split() 函数的参数,该函数的完整表达形式如下:

re.split(pattern, string, maxsplit=0, flags=0)

pattern 就是分割模式;

string 就是代表带分割的字符串;

maxsplit默认为 0,但如果这个参数非零,函数最多进行 maxsplit 次分割,剩下的字符全部返回到列表的最后一个元素中;

flags 参数为可选标记参数,例如 re.M,re.I 等。

实例代码演示 maxsplit 参数的效果

>>> re.split(r'\W+', 'Words, words, words.')

['Words', 'words', 'words', '']

>>> re.split(r'\W+', 'Words, words, words.', 1)

['Words', 'words, words.']

在第二段代码中,函数只分割了一次,剩余元素都在列表中的最后一个元素中。

下面这段代码是 flags 这个参数的一个应用:

>>> re.split('[a-f]+', '0a3B9', flags=re.IGNORECASE)

['0', '3', '9']

>>> re.split('[a-f]+', '0a3B9', flags=re.I)

['0', '3', '9']

这里指定的标记参数是 re.I 跟 re.IGNORECASE,但是两者的效果等同,这两者的作用是用于在匹配时忽略大小写。

捕获分组

使用 re.split() 函数的时候,还需要注意正则表达式是否包含一个括号的捕获分组,如果在 pattern 中捕获到括号,那么所有被匹配的文本,都会被当成一部分返回在列表里。示例如下:

>>> re.split(r'\W+', 'Words, words, words.')

['Words', 'words', 'words', '']

>>> re.split(r'(\W+)', 'Words, words, words.')

['Words', ', ', 'words', ', ', 'words', '.', '']

>>> re.split(r'(\W+)', '...words, words...')

['', '...', 'words', ', ', 'words', '...', '']

\W 用于匹配特殊字符,在例子第二段代码中,被匹配的字符,也作为一部分内容返回在列表中。第三段代码,表示的是,分割模式有捕获分组,并且匹配到字符串的开始,那么结果将以一个空字符串开始,对于结尾也一样。

如果不想保留分割字符到结果列表中,但仍然需要使用到括号来分组的情况下,可以用 (?:...) 来表达分组是非捕获组,例如:

>>> re.split(r'(\W+)', 'Words, words, words.')

['Words', ', ', 'words', ', ', 'words', '.', '']

>>> re.split(r'(?:\W+)', 'Words, words, words.')

['Words', 'words', 'words', '']

注意事项

本篇文章运行环境中,Python 的版本是 3.6 ,在未升级到 3.7 的版本中, split() 函数并不支持空匹配模式,例如,文档中给出的注解:

Note: split() doesn’t currently split a string on an empty pattern match.

先给出示例代码:

>>> re.split('x*', 'axbc')

...: FutureWarning: split() requires a non-empty pattern match.

return _compile(pattern, flags).split(string, maxsplit)

['a', 'bc']

正常情况下,x* 是能够匹配 0 个 x,无论是在 a 之前,b 和 c 之间还是 c 之后,然而这些都被忽略了。正确的结果应该是形如 ['', 'a', 'b', 'c', ''],但这是一个向后不兼容的更改,所以会有 FutureWarning 警告抛出。

在 Python 3.6 中,空匹配模式还不被允许,强行使用的话,会抛出 ValueError 异常。例如:

>>> re.split("^$", 'foo\n\nbar\n', flags=re.M)

Traceback (most recent call last):

File "", line 1, in

...

ValueError: split() requires a non-empty pattern match.

但这部分内容,已经在 3.7 中做出了改动。在 3.8 版本中的文档中,有部分小注:

Changed in version 3.7: Added support of splitting on a pattern that could match an empty string.

这部分内容表明,在 3.7版后 re.split() 已经开始支持空匹配模式。

所以,如果使用 re.split() 空匹配模式的时候,效果未达预期,可以考虑是否是 Python 版本的原因。

以上就是本篇的主要内容

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。