同樣是Python，怎么區(qū)別這么大

lovXin 發(fā)布于2019-07-31 10:29 / 1742人閱讀

摘要：可是當我測試，我就懵逼了，中文真都驗證通過，不對啊，我以前也是這么過濾參數(shù)的，測試沒問題啊唯一的區(qū)別是現(xiàn)在用的是。

發(fā)現(xiàn)問題

上周，我的測試同事告訴我，你的用戶名怎么還允許中文??？當時我心里就想，你們測試肯定又搞錯接口了，我用的是正則w過濾了參數(shù)，怎么可能出錯，除非Python正則系統(tǒng)出錯了，那是不可能的。本著嚴謹?shù)淖黠L，我自己先測試一下，沒問題看我怎么懟回去?？墒钱斘覝y試，我就懵逼了，中文真TM都驗證通過，不對啊，我以前也是這么過濾參數(shù)的，測試沒問題??？唯一的區(qū)別是現(xiàn)在用的是Python3。
上網(wǎng)搜了一圈，發(fā)現(xiàn)沒有一篇文章講述Python2和Python3的正則在處理字符串是的區(qū)別，都是一視同仁，知道我去翻了一遍官方文檔，才明白怎么回事。

問題復現(xiàn)

我們都知道，Python有個正則規(guī)則w，幾乎所有的網(wǎng)上博客文章都告訴你，這個規(guī)則匹配字母數(shù)字及下劃線，但實際并不是這樣：
有Python2代碼如下：

~|? python
Python 2.7.10 (default, Aug 17 2018, 19:45:58)
[GCC 4.2.1 Compatible Apple LLVM 10.0.0 (clang-1000.0.42)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import re
>>> aa = "捕蛇者說"
>>> re.match("w{1,20}", aa)
>>> bb = "abc123ADB"
>>> re.match("w{1,20}", bb)
<_sre.SRE_Match object at 0x1031b0b28>

我們可以看到，在python2中，w是無法匹配中文的。那么，同樣的代碼在Python3中運行結果是什么樣子的了？

~|? python3
Python 3.7.1 (default, Nov 28 2018, 11:55:14)
[Clang 9.0.0 (clang-900.0.39.2)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import re
>>> aa = "捕蛇者說"
>>> re.match("w{1,20}", aa)

>>> bb = "abc123ADB"
>>> re.match("w{1,20}", bb)

但在Python3中w是可以匹配中文的，這是怎么回事了？要回答這個問題，我們要回到Python官方文檔中來尋找答案。

解決問題

當我們仔細閱讀Python的官方文檔時，就會發(fā)現(xiàn)，對于同樣的正則規(guī)則w，Python2和Python3區(qū)別好大，我們先來看看Python2：

When the LOCALE and UNICODE flags are not specified, matches any alphanumeric character and the underscore; this is equivalent to the set [a-zA-Z0-9_]. With LOCALE, it will match the set [0-9_] plus whatever characters are defined as alphanumeric for the current locale. If UNICODE is set, this will match the characters [0-9_] plus whatever is classified as alphanumeric in the Unicode character properties database.

翻譯一下：當沒有設置LOCALE(re.L)和UNICODE(re.U)標志，匹配數(shù)字字母和下劃線，如果設置了LOCALE(re.L)則匹配數(shù)字下劃線和LOCALE文字。如果設置了UNICODE(re.U)標志，匹配數(shù)字下劃線和Unicode字符集里的字符。

那么Python3了：

對于 Unicode (str) 樣式：
匹配Unicode詞語的字符，包含了可以構成詞語的絕大部分字符，也包括數(shù)字和下劃線。如果設置了 ASCII 標志，就只匹配 [a-zA-Z0-9_] 。
對于8位(bytes)樣式：
匹配ASCII字符中的數(shù)字和字母和下劃線，就是 [a-zA-Z0-9_] 。如果設置了 LOCALE 標記，就匹配當前語言區(qū)域的數(shù)字和字母和下劃線。

到此，我明白了，默認情況下，不設置任何標志，Python2 w匹配ASCII字符集里的字符，包括數(shù)字字符和下劃線，Python3 w匹配數(shù)字下劃線和Unicode字符集。所以，為了遷移方便，如果你想匹配ASCII字符集里的字符，指定標志為re.A，如果你想匹配Unicode字符集里的字符，指定標志為re.U。

總結

到此，我的問題是徹底解決了，但也有兩個教訓：

看網(wǎng)上的教程要多注意，特別是教程里的環(huán)境和自己環(huán)境的區(qū)別

多看官方文檔

關于Python2和Python3，還有很多區(qū)別，這里就不一一列舉了，歡迎大家留言討論。

獲取更多文章，關注我的公眾號：littlebyte

收藏我的博客

云服務器 GPU云服務器云計算和大數(shù)據(jù)是什么?云計算和大數(shù)據(jù)區(qū)別這么大小程序是這么做的 python這么運行

文章版權歸作者所有，未經(jīng)允許請勿轉載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉載請注明本文地址：http://www.ezyhdfw.cn/yun/43909.html

同樣是Python，Python3和Python2怎么區(qū)別這么大？

摘要：可是當我測試，我就懵逼了，中文真都驗證通過，不對啊，我以前也是這么過濾參數(shù)的，測試沒問題啊唯一的區(qū)別是現(xiàn)在用的是。上周，我的測試同事告訴我，你的用戶名怎么還允許中文啊？當時我心里就想，你們測試肯定又搞錯接口了，我用的是正則w過濾了參數(shù)，怎么可能出錯，除非Python正則系統(tǒng)出錯了，那是不可能的。本著嚴謹?shù)淖黠L，我自己先測試一下，沒問題看我怎么懟回去?？墒钱斘覝y試，我就懵逼了，中文真T...

Raaabbit 2019-07-31 10:33 評論0 收藏0
Python 開發(fā)者在遷移到 Go(lang) 時需要知道哪些事？

摘要：如果你只對開發(fā)者需要了解的事感興趣，請下拉到早該知道的事板塊。在不泄露機密的情況下，利用支持向量機來獲取一個句子最可能的意思，并且以此來推斷句子的情感。也就是說，如果一個文檔包含個詞，就會與支持向量機進行多次對比。【編者按】本文最早由 Repustate 發(fā)布，主要介紹將代碼遷移至 Go(lang) 時的注意事項。文章系國內 ITOM 管理平臺 OneAPM 編譯呈現(xiàn)，以下為正文。 ...

hqman 2019-07-25 10:27 評論0 收藏0
Python進階：迭代器與迭代器切片

摘要：本文是切片系列的第三篇，主要內容是迭代器切片。實際上，迭代器必然是可迭代對象，但可迭代對象不一定是迭代器。這是迭代器切片最具想象力的用途場景。考慮到文件對象天然就是迭代器，我們可以使用迭代器切片先行截取，然后再處理，如此效率將大大地提升。 2018-12-31 更新聲明：切片系列文章本是分三篇寫成，現(xiàn)已合并成一篇。合并后，修正了一些嚴重的錯誤（如自定義序列切片的部分），還對行文結構與章...

hedge_hog 2019-06-28 10:30 評論0 收藏0

發(fā)表評論

登陸后可評論

0條評論

lovXin

男|高級講師

我要關注我要私信

TA的文章

【平衡小車】前言

閱讀 1720·2021-11-16 11:44
ip地址怎么判斷主機地址-如何判斷一個ip地址是不是有效主機地址？

閱讀 7690·2021-09-22 15:00
虛擬機wmware workstation pro 16.1.2 Build 17966106官方版

閱讀 4702·2021-09-02 10:20
知名開源軟件廠商 Grafana Labs 完成5000萬美元B輪融資，估值已達30億美元

閱讀 2071·2021-08-27 16:20
【JavaScript系列】vue項目中實現(xiàn)滾動條（具體視窗口的滾動條）操作：（1）置底，（2）置于

閱讀 2460·2019-08-26 14:00
高級 Angular 組件模式 (4)

閱讀 2964·2019-08-26 11:44
websocket pc端調試成功，手機端不可通信

閱讀 1732·2019-08-23 18:33
自開發(fā)的EasyCanvas繪圖庫實踐、Pixeler項目開發(fā)小結

閱讀 1971·2019-08-22 17:28

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

同樣是Python，怎么區(qū)別這么大

相關文章

**同樣是Python，Python3和Python2怎么區(qū)別這么大？**

Python 開發(fā)者在遷移到 Go(lang) 時需要知道哪些事？

Python進階：迭代器與迭代器切片

發(fā)表評論

0條評論

lovXin

男|高級講師

TA的文章

【平衡小車】前言

ip地址怎么判斷主機地址-如何判斷一個ip地址是不是有效主機地址？

虛擬機wmware workstation pro 16.1.2 Build 17966106官方版

知名開源軟件廠商 Grafana Labs 完成5000萬美元B輪融資，估值已達30億美元

【JavaScript系列】vue項目中實現(xiàn)滾動條（具體視窗口的滾動條）操作：（1）置底，（2）置于

高級 Angular 組件模式 (4)

websocket pc端調試成功，手機端不可通信

自開發(fā)的EasyCanvas繪圖庫實踐、Pixeler項目開發(fā)小結

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

同樣是Python，怎么區(qū)別這么大

相關文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

同樣是Python，怎么區(qū)別這么大