文章詳情頁

python中使用正則表達(dá)式將所有符合條件的字段全部提取出來

瀏覽：4日期：2022-07-13 11:31:29

問題如標(biāo)題，使用正則表達(dá)式匹配字段目前無非就三種，分別是：

re.match()re.search()re.findall()

簡單介紹一下，re.match()與re.search()非常類似，主要區(qū)別就是前者是從目標(biāo)字符串的開頭匹配，而后者則要沒有這個(gè)要求。而re.findall()則是可以返回匹配的所有結(jié)果。但是有時(shí)候re.findall()返回的結(jié)果和前面兩個(gè)并不一樣，我們來看下面一個(gè)例子：對于句子：

起病以來,患者無腰背痛、頸痛,無咽痛、口腔潰瘍,無光過敏、脫發(fā),無口干、眼干,無肢端發(fā)作性青紫,無肢體乏力,無浮腫、泡沫尿,精神、食欲、睡眠欠佳,近1月大便干結(jié),5-6天1次,無腹痛、黑便、便血,小便1-2小時(shí)1次,無尿痛、血尿。體重未見明顯變化。

我想使用正則去匹配所有包含小便和尿相關(guān)的子句，目的就是將“無浮腫、泡沫尿”和“小便1-2小時(shí)1次,無尿痛、血尿。”識別出來并且將這些子句返回。本來我想使用re.findall()去匹配:

import relines = [ '起病以來,患者無腰背痛、頸痛,無咽痛、口腔潰瘍,無光過敏、脫發(fā),無口干、眼干,無肢端發(fā)作性青紫,無肢體乏力,無浮腫、泡沫尿,精神、食欲、睡眠欠佳,近1月大便干結(jié),5-6天1次,無腹痛、黑便、便血,小便1-2小時(shí)1次,無尿痛、血尿。體重未見明顯變化。', ]for line in lines: pattern = '[,;.，；。]+[^,;.，；。]*((小便)|尿)+[^,;.，；。]*[,;.，；。]+' str = re.findall(pattern,line) print(str)

結(jié)果為：

[(’尿’, ’’), (’小便’, ’小便’)]

這里說明一下我使用的模式的意義，因?yàn)槲沂且ヅ渥泳洌砸粋€(gè)子句的前后必然會有相應(yīng)的符號，所以pattern前面和后面均添加了“[,;.，；。]+”；“+”表示至少匹配一個(gè)。而后面的“[,;.，；。]*”表示匹配0個(gè)或多個(gè)除標(biāo)點(diǎn)符號“,;.，；。”的任意字符，這里分別添加了中英文的逗號、分號和句號，“*”表示匹配0個(gè)或1個(gè)及以上。需要說明的是，這里我之所以使用“[,;.，；。]”，是因?yàn)槲谋局锌赡馨芏嗥渌姆枺裆侠谐霈F(xiàn)的“-”；所以想要使用漢字、數(shù)字、特定符號來匹配的話可能會存在遺漏，而我的目的是只想要得到匹配的子句，所以使用“[^,;.，；。]”會更通用一些。接下來就是“((小便)|尿)”意思是匹配含有“小便”或者含有“尿”的子串。但是使用re.findall()所得到的結(jié)果并不是我想要的，于是我稍微換了一下匹配規(guī)則，將“((小便)|尿)+”換成了“[(小便)|尿]+”；為了驗(yàn)證匹配的適用性，我又添加了兩個(gè)樣本。總體如下：

import relines = [ '起病以來,患者無腰背痛、頸痛,無咽痛、口腔潰瘍,無光過敏、脫發(fā),無口干、眼干,無肢端發(fā)作性青紫,無肢體乏力,無浮腫、泡沫尿,精神、食欲、睡眠欠佳,近1月大便干結(jié),5-6天1次,無腹痛、黑便、便血,小便1-2小時(shí)1次,無尿痛、血尿。體重未見明顯變化。', '起病以來,睡眠、胃納正常,小便正常,近4~5年來每天解大便3~4次,多為黃褐色成形軟便,偶有解爛便,有排便不盡感,便血、解黑便,無消瘦。', '身材矮小，體重較同齡人輕。']for line in lines: pattern = '[,;.，；。]+[^,;.，；。]*[(小便)尿]+[^,;.，；。]*[,;.，；。]+' str = re.findall(pattern,line) print(str)

結(jié)果為：

[’,無浮腫、泡沫尿,’, ’,近1月大便干結(jié),’, ’,無腹痛、黑便、便血,’, ’,無尿痛、血尿。’][’,小便正常,’, ’,多為黃褐色成形軟便,’, ’,有排便不盡感,’][]

倒是匹配出了子句，一則是“小便1-2小時(shí)1次,無尿痛、血尿”中的“小便1-2小時(shí)1次”沒有匹配出來，二則是竟然連大便相關(guān)的“近1月大便干結(jié)”和“無腹痛、黑便、便血”都匹配出來了，看來“[(小便)尿]”的意思并不是匹配含有“小便”或者“尿”的子串；那“[(小便)尿]”的意思是不是匹配含有“小”、“便”、“尿”任意一個(gè)的子串呢？但是根據(jù)第三個(gè)含有“小”但是不含“便”與“尿”的樣本可以看出，上述的想法依然不對。再加上re.findall()沒有匹配到的子串在原始文本中的開始和結(jié)束位置，所以我想要得到“小便1-2小時(shí)1次,無尿痛、血尿。”這種兩個(gè)子句連在一起的情況也很難得到。于是我轉(zhuǎn)而使用另一個(gè)很常用的re.search()方法。

import relines = [ '起病以來,患者無腰背痛、頸痛,無咽痛、口腔潰瘍,無光過敏、脫發(fā),無口干、眼干,無肢端發(fā)作性青紫,無肢體乏力,無浮腫、泡沫尿,精神、食欲、睡眠欠佳,近1月大便干結(jié),5-6天1次,無腹痛、黑便、便血,小便1-2小時(shí)1次,無尿痛、血尿。體重未見明顯變化。',]for line in lines: pattern = '[,;.，；。]+[^,;.，；。]*((小便)|尿)+[^,;.，；。]*[,;.，；。]+' str = re.search(pattern, line) print(str.group())

結(jié)果為：

,無浮腫、泡沫尿,

可見，re.search()只匹配遇到的第一個(gè)滿足條件的子串。而如果將pattern中的“((小便)|尿)”修改為“[(小便)|尿]”(或者“[(小便)尿]”，意思是完全一樣的，也試過)得到的結(jié)果為：

,無浮腫、泡沫尿,

可見修改前后并沒有任何變化，但是如果我將原始文本中的“無浮腫、泡沫尿”中的“尿”刪除，則修改前的結(jié)果為：

,小便1-2小時(shí)1次,

修改后的結(jié)果為：

,近1月大便干結(jié),

也就是說對于

pattern = '[,;.，；。]+[^,;.，；。]*[(小便)尿]+[^,;.，；。]*[,;.，；。]+'

無論是re.findall()還是re.search()，都能匹配到大便相關(guān)的子串；而對于：

pattern = '[,;.，；。]+[^,;.，；。]*((小便)|尿)+[^,;.，；。]*[,;.，；。]+'

re.findall()和re.search()匹配的子串就有所區(qū)別了，前置匹配的結(jié)果是含有元組的列表：[(‘尿’, ‘’), (‘小便’, ‘小便’)]；而后者匹配到了我想要的子串：,無浮腫、泡沫尿,后來問了同事以及進(jìn)一步了解了正則的運(yùn)行機(jī)制后，發(fā)現(xiàn)小括號()除了提取匹配的字符串，還有一個(gè)作用是用來捕獲分組的，也就是說小括號中的內(nèi)容匹配后會被存儲起來，在調(diào)用的時(shí)候便會返回相應(yīng)的值。而使用re.findall()時(shí)會將存儲分組的值全部返回。再舉個(gè)例子會更加明白些，將上述pattern中的“((小便)|尿)”改為“((小便)|(尿))”，如：

pattern = '[,;.，；。]+[^,;.，；。]*((小便)|(尿))+[^,;.，；。]*[,;.，；。]+'

使用re.findall()輸出的結(jié)果為：

[(’尿’, ’’, ’尿’), (’小便’, ’小便’, ’’)]

由上可知，“((小便)|(尿))”使用了三個(gè)“()”,于是便產(chǎn)生了三個(gè)分組，在最外圍的第一個(gè)分組用于捕獲“小便”或“尿”，原文中“小便”和“尿”都能匹配到，所以第一個(gè)位置兩者都有；第二個(gè)分組是用來捕獲“(小便)”的，所以第二個(gè)分組只存儲“小便”；同理第三個(gè)分組用來捕獲“(尿)”的，所以結(jié)果只存儲了“尿”。而我使用re.search()來輸出分組結(jié)果：

for line in lines: pattern = '[,;.，；。]+[^,;.，；。]*((小便)|(尿))+[^,;.，；。]*[,;.，；。]+' str = re.search(pattern, line) print(str.group(0)) print(str.group(1)) print(str.group(2)) print(str.group(3))

結(jié)果為：

,無浮腫、泡沫尿,尿None尿

group(1)、group(2)、group(3)分別與(‘尿’, ‘’, ‘尿’)中對應(yīng)的分組結(jié)果相同。但是這里的group(0)(或者說group(),兩個(gè)意思完全一樣)卻不是“(‘尿’, ‘’, ‘尿’)”；這里作者水平有限，不是很清楚原因，也就是說，當(dāng)調(diào)用group(0)的時(shí)候，pattern中的()的意義并不再是捕獲分組了，而是回到了原始的提取匹配字符串的意思上來了。為了解決

pattern = '[,;.，；。]+[^,;.，；。]*[(小便)尿]+[^,;.，；。]*[,;.，；。]+'

會匹配到不想要的含有“大便”字符串的問題，通過使用非捕獲分組(?:)便可以達(dá)到目的。

pattern = '[,;.，；。]?[^,;.，；。]*(?:小便|尿)[^,;.，；。]*[,;.，；。]'

此時(shí)便是匹配“小便”或者“尿”了；結(jié)果為：

[’,無浮腫、泡沫尿,’, ’,小便1-2小時(shí)1次,’, ’無尿痛、血尿。’]

注意上述結(jié)果，由于“,小便1-2小時(shí)1次,”和“無尿痛、血尿。”是緊接著的，而逗號已經(jīng)被分配給了前者，所以后者便沒有了逗號，這看起了有點(diǎn)像字符串的切片，被切走了就沒了，所以這里在pattern中的第一個(gè)“[,;.，；。]”后面將“+”換成了“?”()意思的前面的字符出現(xiàn)0次或1次;當(dāng)然更進(jìn)一步可以優(yōu)化為：

pattern = '[,;.，；。]?[^,;.，；。]*(?:小便|尿).*?[,;.，；。]'

可以看到，將pattern中第二個(gè)“[^,;.，；。]”變?yōu)椤??”上述雖然將所有子句全部匹配并輸出了，但是相鄰的兩個(gè)子句還是分開輸出的，仍舊沒有達(dá)到我們想要的預(yù)期。于是對上述代碼進(jìn)行了改進(jìn)：

for line in lines: #pattern = '[,;.，；。]+[^,;.，；。]*[(’小便’)尿]+[^,;.，；。]*[,;.，；。]+' pattern = '[,;.，；。]?[^,;.，；。]*?(?:小便|尿).*?[,;.，；。]' #pattern = '[,;.，；。]?[^,;.，；。]*(?:小便|尿)[^,;.，；。]*[,;.，；。]' str = re.findall(pattern,line) ls = [’,’,’;’,’.’,’，’,’；’,’。’] for idx, text in enumerate(str): if text[0] not in ls: str[idx-1] += text str.remove(text) print(str)

結(jié)果為：

[’,無浮腫、泡沫尿,’, ’,小便1-2小時(shí)1次,無尿痛、血尿。’]

而如果使用re.search(),也是可以達(dá)到預(yù)期的，代碼如下：

for line in lines: result = [] num = -1 while line: #pattern = re.compile(r'[,;.，；。]+[^,;.，；。]*((小便)|尿)+[^,;.，；。]*[,;.，；。]+') #str = pattern.search(line) pattern = r'[,;.，；。]+[^,;.，；。]*((小便)|尿)+[^,;.，；。]*[,;.，；。]+' str = re.search(pattern,line) if str == None: break tmp = str.group() if str.start() == 0: result[-1] += tmp[1:] else: result.append(tmp[1:]) #print(tmp) num = str.end() - 1 #print(num) line = line[num:] print(result)

結(jié)果為：

[’無浮腫、泡沫尿,’, ’小便1-2小時(shí)1次,無尿痛、血尿。’]

到此這篇關(guān)于python中使用正則表達(dá)式將所有符合條件的字段全部提取出來的文章就介紹到這了,更多相關(guān)python 正則表達(dá)式提取字段內(nèi)容請搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)！

Python 編程

上一條：利用Python的folium包繪制城市道路圖的實(shí)現(xiàn)示例下一條：深入分析python 排序

相關(guān)文章：

1. 詳解php如何合并身份證正反面圖片為一張圖片2. 得到XML文檔大小的方法3. ASP錯(cuò)誤捕獲的幾種常規(guī)處理方式4. asp.net core項(xiàng)目授權(quán)流程詳解5. 詳解JS前端使用迭代器和生成器原理及示例6. ASP編碼必備的8條原則7. Python 如何將字符串每兩個(gè)用空格隔開8. .NET 中配置從xml轉(zhuǎn)向json方法示例詳解9. 解決python 輸出到csv 出現(xiàn)多空行的情況10. asp錯(cuò)誤 '80040e21' 多步 OLE DB 操作產(chǎn)生錯(cuò)誤

排行榜

					
					改進(jìn)JAVA字符串分解的方法
PHP 編碼規(guī)范及建議
Python sorted對list和dict排序
python實(shí)現(xiàn)猜數(shù)游戲(保存游戲記錄）
Python切割圖片成九宮格的示例代碼
Python使用shutil模塊實(shí)現(xiàn)文件拷貝
python 實(shí)現(xiàn)aes256加密
Python容器類型公共方法總結(jié)
Python 如何將字符串每兩個(gè)用空格隔開
如何用python開發(fā)Zeroc Ice應(yīng)用
利用python+request通過接口實(shí)現(xiàn)人員通行記錄上傳功能