Python3 处理空白HTML占位空白字符

Python | 空白字符处理 | u3000 | x0a

Posted by luoruiqing on April 4, 2023

unicodedata

Python自带一个 unicodedata 的包, 方便部分字符中携带一些在网页中不可见的占位空白字符, 可以通过这个包进行过滤, 示例如下:

1
2
3
4
5
6
import unicodedata


ucd.normalize('NFKC', '\n|\r|\t|\u3000|\xa0|\u2003')
# '\n|\r|\t| | | '