电脑知识|欧美黑人一区二区三区|软件|欧美黑人一级爽快片淫片高清|系统|欧美黑人狂野猛交老妇|数据库|服务器|编程开发|网络运营|知识问答|技术教程文章 - 好吧啦网

您的位置:首頁技術文章
文章詳情頁

詳解python字符串駐留技術

瀏覽:3日期:2022-06-19 08:04:15
目錄前言1、什么是“字符串駐留”?2、為什么要駐留字符串?3、Python的字符串駐留4、字符串駐留的原理4.1 如何駐留字符串?4.2 如何清理駐留的字符串?5、字符串駐留的實現(xiàn)5.1 變量、常量與函數(shù)名5.2 字典的鍵5.3 任何對象的屬性5.4 顯式地駐留6、字符串駐留的其它發(fā)現(xiàn)前言

每種編程語言為了表現(xiàn)出色,并且實現(xiàn)卓越的性能,都需要有大量編譯器級與解釋器級的優(yōu)化。

由于字符串是任何編程語言中不可或缺的一個部分,因此,如果有快速操作字符串的能力,就可以迅速地提高整體的性能。

在本文中,我們將深入研究 Python 的內部實現(xiàn),并了解 Python 如何使用一種名為字符串駐留(String Interning)的技術,實現(xiàn)解釋器的高性能。本文的目的不僅在于介紹 Python 的內部知識,而且還旨在使讀者能夠輕松地瀏覽 Python 的源代碼;因此,本文中將有很多出自CPython的代碼片段。

全文提綱如下:

詳解python字符串駐留技術

1、什么是“字符串駐留”?

字符串駐留是一種編譯器/解釋器的優(yōu)化方法,它通過緩存一般性的字符串,從而節(jié)省字符串處理任務的空間和時間。

這種優(yōu)化方法不會每次都創(chuàng)建一個新的字符串副本,而是僅為每個適當?shù)牟豢勺冎当A粢粋€字符串副本,并使用指針引用之。每個字符串的唯一拷貝被稱為它的intern,并因此而得名 String Interning。

String Interning 一般被譯為“字符串駐留”或“字符串留用”,在某些語言中可能習慣用 String Pool(字符串常量池)的概念,其實是對同一種機制的不同表述。intern 作為名詞時,是“實習生、實習醫(yī)生”的意思,在此可以理解成“駐留物、駐留值”。

查找字符串 intern 的方法可能作為公開接口公開,也可能不公開。現(xiàn)代編程語言如 Java、Python、PHP、Ruby、Julia 等等,都支持字符串駐留,以使其編譯器和解釋器做到高性能。

詳解python字符串駐留技術

2、為什么要駐留字符串?

字符串駐留提升了字符串比較的速度。如果沒有駐留,當我們要比較兩個字符串是否相等時,它的時間復雜度將上升到 O(n),即需要檢查兩個字符串中的每個字符,才能判斷出它們是否相等。

但是,如果字符串是固定的,由于相同的字符串將使用同一個對象引用,因此只需檢查指針是否相同,就足以判斷出兩個字符串是否相等,不必再逐一檢查每個字符。由于這是一個非常普遍的操作,因此,它被典型地實現(xiàn)為指針相等性校驗,僅使用一條完全沒有內存引用的機器指令。

字符串駐留減少了內存占用。Python 避免內存中充斥多余的字符串對象,通過享元設計模式共享和重用已經定義的對象,從而優(yōu)化內存占用。

3、Python的字符串駐留

像大多數(shù)其它現(xiàn)代編程語言一樣,Python 也使用字符串駐留來提高性能。在 Python 中,我們可以使用is運算符,檢查兩個對象是否引用了同一個內存對象。

因此,如果兩個字符串對象引用了相同的內存對象,則is運算符將得出True,否則為False。

 >>> ’python’ is ’python’

  True

我們可以使用這個特定的運算符,來判斷哪些字符串是被駐留的。在 CPython 的,字符串駐留是通過以下函數(shù)實現(xiàn)的,聲明在 unicodeobject.h 中,定義在 unicodeobject.c 中。

PyAPI_FUNC(void) PyUnicode_InternInPlace(PyObject **);

為了檢查一個字符串是否被駐留,CPython 實現(xiàn)了一個名為PyUnicode_CHECK_INTERNED的宏,同樣是定義在 unicodeobject.h 中。

這個宏表明了 Python 在PyASCIIObject結構中維護著一個名為interned的成員變量,它的值表示相應的字符串是否被駐留。

#define PyUnicode_CHECK_INTERNED(op) (((PyASCIIObject *)(op))->state.interned)4、字符串駐留的原理

在 CPython 中,字符串的引用被一個名為interned的 Python 字典所存儲、訪問和管理。 該字典在第一次調用字符串駐留時,被延遲地初始化,并持有全部已駐留字符串對象的引用。

4.1 如何駐留字符串?

負責駐留字符串的核心函數(shù)是PyUnicode_InternInPlace,它定義在 unicodeobject.c 中,當調用時,它會創(chuàng)建一個準備容納所有駐留的字符串的字典interned,然后登記入?yún)⒅械膶ο螅钇滏I和值都使用相同的對象引用。

以下函數(shù)片段顯示了 Python 實現(xiàn)字符串駐留的過程。

void PyUnicode_InternInPlace(PyObject **p) { PyObject *s = *p; ​ ......... ​ // Lazily build the dictionary to hold interned Strings if (interned == NULL) { interned = PyDict_New(); if (interned == NULL) { PyErr_Clear(); return; } } ​ PyObject *t; ​ // Make an entry to the interned dictionary for the // given object t = PyDict_SetDefault(interned, s, s); ​ ......... // The two references in interned dict (key and value) are // not counted by refcnt. // unicode_dealloc() and _PyUnicode_ClearInterned() take // care of this. Py_SET_REFCNT(s, Py_REFCNT(s) - 2); ​ // Set the state of the string to be INTERNED _PyUnicode_STATE(s).interned = SSTATE_INTERNED_MORTAL; }4.2 如何清理駐留的字符串?

清理函數(shù)從interned字典中遍歷所有的字符串,調整這些對象的引用計數(shù),并把它們標記為NOT_INTERNED,使其被垃圾回收。一旦所有的字符串都被標記為NOT_INTERNED,則interned字典會被清空并刪除。

這個清理函數(shù)就是_PyUnicode_ClearInterned,在unicodeobject.c 中定義。

void _PyUnicode_ClearInterned(PyThreadState *tstate) { ......... ​ // Get all the keys to the interned dictionary PyObject *keys = PyDict_Keys(interned); ​ ......... ​ // Interned Unicode strings are not forcibly deallocated; // rather, we give them their stolen references back // and then clear and DECREF the interned dict. ​ for (Py_ssize_t i = 0; i < n; i++) { PyObject *s = PyList_GET_ITEM(keys, i); ​ ......... ​ switch (PyUnicode_CHECK_INTERNED(s)) { case SSTATE_INTERNED_IMMORTAL: Py_SET_REFCNT(s, Py_REFCNT(s) + 1); break; case SSTATE_INTERNED_MORTAL: // Restore the two references (key and value) ignored // by PyUnicode_InternInPlace(). Py_SET_REFCNT(s, Py_REFCNT(s) + 2); break; case SSTATE_NOT_INTERNED: /* fall through */ default: Py_UNREACHABLE(); } ​ // marking the string to be NOT_INTERNED _PyUnicode_STATE(s).interned = SSTATE_NOT_INTERNED; } ​ // decreasing the reference to the initialized and // access keys object. Py_DECREF(keys); ​ // clearing the dictionary PyDict_Clear(interned); ​ // clearing the object interned Py_CLEAR(interned); }5、字符串駐留的實現(xiàn)

既然了解了字符串駐留及清理的內部原理,我們就可以找出 Python 中所有會被駐留的字符串。

為了做到這點,我們要做的就是在 CPython 源代碼中查找PyUnicode_InternInPlace 函數(shù)的調用,并查看其附近的代碼。下面是在 Python 中關于字符串駐留的一些有趣的發(fā)現(xiàn)。

5.1 變量、常量與函數(shù)名

CPython 對常量(例如函數(shù)名、變量名、字符串字面量等)執(zhí)行字符串駐留。

以下代碼出自codeobject.c,它表明在創(chuàng)建新的PyCode對象時,解釋器將對所有編譯期的常量、名稱和字面量進行駐留。

PyCodeObject * PyCode_NewWithPosOnlyArgs(int argcount, int posonlyargcount, int kwonlyargcount, int nlocals, int stacksize, int flags, PyObject *code, PyObject *consts, PyObject *names, PyObject *varnames, PyObject *freevars, PyObject *cellvars, PyObject *filename, PyObject *name, int firstlineno, PyObject *linetable) { ​ ........ ​ if (intern_strings(names) < 0) { return NULL; } ​ if (intern_strings(varnames) < 0) { return NULL; } ​ if (intern_strings(freevars) < 0) { return NULL; } ​ if (intern_strings(cellvars) < 0) { return NULL; } ​ if (intern_string_constants(consts, NULL) < 0) { return NULL; } ​ ........ ​ }5.2 字典的鍵

CPython 還會駐留任何字典對象的字符串鍵。

當在字典中插入元素時,解釋器會對該元素的鍵作字符串駐留。以下代碼出自dictobject.c,展示了實際的行為。

有趣的地方:在PyUnicode_InternInPlace函數(shù)被調用處有一條注釋,它問道,我們是否真的需要對所有字典中的全部鍵進行駐留?

int PyDict_SetItemString(PyObject *v, const char *key, PyObject *item) { PyObject *kv; int err; kv = PyUnicode_FromString(key); if (kv == NULL) return -1; ​ // Invoking String Interning on the key PyUnicode_InternInPlace(&kv); /* XXX Should we really? */ ​ err = PyDict_SetItem(v, kv, item); Py_DECREF(kv); return err; }5.3 任何對象的屬性

Python 中對象的屬性可以通過setattr函數(shù)顯式地設置,也可以作為類成員的一部分而隱式地設置,或者在其數(shù)據(jù)類型中預定義。

CPython 會駐留所有這些屬性名,以便實現(xiàn)快速查找。以下是函數(shù)PyObject_SetAttr的代碼片段,該函數(shù)定義在文件object.c中,負責為 Python 對象設置新屬性。

int PyObject_SetAttr(PyObject *v, PyObject *name, PyObject *value) { ​ ........ ​ PyUnicode_InternInPlace(&name); ​ ........ }5.4 顯式地駐留

Python 還支持通過sys模塊中的intern函數(shù)進行顯式地字符串駐留。

當使用任何字符串對象調用此函數(shù)時,該字符串對象將被駐留。以下是sysmodule.c文件的代碼片段,它展示了在sys_intern_impl函數(shù)中的字符串駐留過程。

static PyObject * sys_intern_impl(PyObject *module, PyObject *s) { ​ ........ ​ if (PyUnicode_CheckExact(s)) { Py_INCREF(s); PyUnicode_InternInPlace(&s); return s; } ​ ........ }6、字符串駐留的其它發(fā)現(xiàn)

只有編譯期的字符串會被駐留。在解釋時或編譯時指定的字符串會被駐留,而動態(tài)創(chuàng)建的字符串則不會。

Python貓注:這一條規(guī)則值得展開思考,我曾經在上面踩過坑……有兩個知識點,我相信 99% 的人都不知道:字符串的 join() 方法是動態(tài)創(chuàng)建字符串,因此其創(chuàng)建的字符串不會被駐留;常量折疊機制也發(fā)生在編譯期,因此有時候容易把它跟字符串駐留搞混淆。推薦閱讀《join()方法的神奇用處與Intern機制的軟肋》

包含 ASCII 字符和下劃線的字符串會被駐留。在編譯期間,當對字符串字面量進行駐留時,CPython確保僅對匹配正則表達式[a-zA-Z0-9_]*的常量進行駐留,因為它們非常貼近于 Python 的標識符。

注:關于 Python 中標識符的命名規(guī)則,在 Python2 版本只有“字母、數(shù)字和下劃線”,但在 Python 3.x 版本中,已經支持 Unicode 編碼。這部分內容推薦閱讀《醒醒!Python已經支持中文變量名啦!》

以上就是詳解python字符串駐留技術的詳細內容,更多關于python字符串駐留技術的資料請關注好吧啦網(wǎng)其它相關文章!

標簽: Python 編程
相關文章:
主站蜘蛛池模板: EDLC超级法拉电容器_LIC锂离子超级电容_超级电容模组_软包单体电容电池_轴向薄膜电力电容器_深圳佳名兴电容有限公司_JMX专注中高端品牌电容生产厂家 | 胶辊硫化罐_胶鞋硫化罐_硫化罐厂家-山东鑫泰鑫智能装备有限公司 意大利Frascold/富士豪压缩机_富士豪半封闭压缩机_富士豪活塞压缩机_富士豪螺杆压缩机 | 污水处理设备,一体化泵站,一体化净水设备-「梦之洁环保设备厂家」 | 聚合氯化铝厂家-聚合氯化铝铁价格-河南洁康环保科技 | 安徽成考网-安徽成人高考网 | 钢格板|镀锌钢格板|热镀锌钢格板|格栅板|钢格板|钢格栅板|热浸锌钢格板|平台钢格板|镀锌钢格栅板|热镀锌钢格栅板|平台钢格栅板|不锈钢钢格栅板 - 专业钢格板厂家 | 商秀—企业短视频代运营_抖音企业号托管 | uv机-uv灯-uvled光固化机-生产厂家-蓝盾机电 | 直读光谱仪,光谱分析仪,手持式光谱仪,碳硫分析仪,创想仪器官网 | 集装袋吨袋生产厂家-噸袋廠傢-塑料编织袋-纸塑复合袋-二手吨袋-太空袋-曹县建烨包装 | 寮步纸箱厂_东莞纸箱厂 _东莞纸箱加工厂-东莞市寮步恒辉纸制品厂 | 东莞爱加真空科技有限公司-进口真空镀膜机|真空镀膜设备|Polycold维修厂家 | 红立方品牌应急包/急救包加盟,小成本好项目代理_应急/消防/户外用品加盟_应急好项目加盟_新奇特项目招商 - 中红方宁(北京) 供应链有限公司 | 超声骨密度仪,双能X射线骨密度仪【起草单位】,骨密度检测仪厂家 - 品源医疗(江苏)有限公司 | hc22_hc22价格_hc22哈氏合金—东锜特殊钢| 河北凯普威医疗器材有限公司,高档轮椅系列,推车系列,座厕椅系列,协步椅系列,拐扙系列,卫浴系列 | 上海三信|ph计|酸度计|电导率仪-艾科仪器 | 拉曼光谱仪_便携式|激光|显微共焦拉曼光谱仪-北京卓立汉光仪器有限公司 | 齿轮减速电机一体机_蜗轮蜗杆减速马达-德国BOSERL齿轮减速机带电机生产厂家 | 吹塑加工_大型吹塑加工_滚塑代加工-莱力奇吹塑加工有限公司 | 智能化的检漏仪_气密性测试仪_流量测试仪_流阻阻力测试仪_呼吸管快速检漏仪_连接器防水测试仪_车载镜头测试仪_奥图自动化科技 | 设定时间记录电子秤-自动累计储存电子秤-昆山巨天仪器设备有限公司 | 消防泵-XBD单级卧式/立式消防泵-上海塑泉泵阀(集团)有限公司 | 广东青藤环境科技有限公司-水质检测 | 采暖炉_取暖炉_生物质颗粒锅炉_颗粒壁炉_厂家加盟批发_烟台蓝澳采暖设备有限公司 | 电动百叶窗,开窗器,电动遮阳百叶,电动开窗机生产厂家-徐州鑫友工控科技发展有限公司 | 反渗透阻垢剂-缓蚀阻垢剂厂家-循环水处理药剂-山东鲁东环保科技有限公司 | 智慧钢琴-电钢琴-便携钢琴-数码钢琴-深圳市特伦斯乐器有限公司 | 天空彩票天下彩,天空彩天空彩票免费资料,天空彩票与你同行开奖,天下彩正版资料大全 | 驾驶人在线_专业学车门户网站| 海德莱电力(HYDELEY)-无功补偿元器件生产厂家-二十年专业从事电力电容器 | 万师讲师网-优质讲师培训师供应商,讲师认证,找讲师来万师 | 手板_手板模型制作_cnc手板加工厂-东莞天泓 | 拉力机-万能试验机-材料拉伸试验机-电子拉力机-拉力试验机厂家-冲击试验机-苏州皖仪实验仪器有限公司 | 铁盒_铁罐_马口铁盒_马口铁罐_铁盒生产厂家-广州博新制罐 | 船用烟火信号弹-CCS防汛救生圈-船用救生抛绳器(海威救生设备) | 磁力抛光机_磁力研磨机_磁力去毛刺机-冠古设备厂家|维修|租赁【官网】 | BOE画框屏-触摸一体机-触控查询一体机-触摸屏一体机价格-厂家直销-触发电子 | 水厂自动化-水厂控制系统-泵站自动化|控制系统-闸门自动化控制-济南华通中控科技有限公司 | 北京乾茂兴业科技发展有限公司 | 进口便携式天平,外校_十万分之一分析天平,奥豪斯工业台秤,V2000防水秤-重庆珂偌德科技有限公司(www.crdkj.com) |