你寫的 Python 代碼可以更「瘦」

  • 2019 年 10 月 7 日
  • 筆記

文章詳情:CSDN

譯者:彎月

在執行程序時,如果內存中有大量活動的對象,就可能出現內存問題,尤其是在可用內存總量有限的情況下。在本文中,我們將討論縮小對象的方法,大幅減少 Python 所需的內存。

為了簡便起見,我們以一個表示點的 Python 結構為例,它包括 x、y、z 坐標值,坐標值可以通過名稱訪問。

Dict

在小型程序中,特別是在腳本中,使用 Python 自帶的 dict 來表示結構信息非常簡單方便:

>>> ob = {'x':1, 'y':2, 'z':3}  >>> x = ob['x']  >>> ob['y'] = y

由於在 Python 3.6 中 dict 的實現採用了一組有序鍵,因此其結構更為緊湊,更深得人心。但是,讓我們看看 dict 在內容中佔用的空間大小:

>>> print(sys.getsizeof(ob))  240

如上所示,dict 佔用了大量內存,尤其是如果突然虛需要創建大量實例時:

實例數

對象大小

1 000 000

240 Mb

10 000 000

2.40 Gb

100 000 000

24 Gb

類實例

有些人希望將所有東西都封裝到類中,他們更喜歡將結構定義為可以通過屬性名訪問的類:

class Point:      #      def __init__(self, x, y, z):          self.x = x          self.y = y          self.z = z    >>> ob = Point(1,2,3)  >>> x = ob.x  >>> ob.y = y

類實例的結構很有趣:

字段

大小(比特)

PyGC_Head

24

PyObject_HEAD

16

__weakref__

8

__dict__

8

合計:

56

在上表中,__weakref__ 是該列表的引用,稱之為到該對象的弱引用(weak reference);字段 __dict__ 是該類的實例字典的引用,其中包含實例屬性的值(注意在 64-bit 引用平台中佔用 8 位元組)。從 Python 3.3 開始,所有類實例的字典的鍵都存儲在共享空間中。這樣就減少了內存中實例的大小:

>>> print(sys.getsizeof(ob), sys.getsizeof(ob.__dict__))  56 112

因此,大量類實例在內存中佔用的空間少於常規字典(dict):

實例數

大小

1 000 000

168 Mb

10 000 000

1.68 Gb

100 000 000

16.8 Gb

不難看出,由於實例的字典很大,所以實例依然佔用了大量內存。

帶有 __slots__ 的類實例

為了大幅降低內存中類實例的大小,我們可以考慮幹掉 __dict__ 和__weakref__。為此,我們可以藉助 __slots__:

class Point:      __slots__ = 'x', 'y', 'z'        def __init__(self, x, y, z):          self.x = x          self.y = y          self.z = z    >>> ob = Point(1,2,3)  >>> print(sys.getsizeof(ob))  64

如此一來,內存中的對象就明顯變小了:

字段

大小(比特)

PyGC_Head

24

PyObject_HEAD

16

x

8

y

8

z

8

總計:

64

在類的定義中使用了 __slots__ 以後,大量實例佔據的內存就明顯減少了:

實例數

大小

1 000 000

64 Mb

10 000 000

640 Mb

100 000 000

6.4 Gb

目前,這是降低類實例佔用內存的主要方式。

這種方式減少內存的原理為:在內存中,對象的標題後面存儲的是對象的引用(即屬性值),訪問這些屬性值可以使用類字典中的特殊描述符:

>>> pprint(Point.__dict__)  mappingproxy(                ....................................                'x': <member 'x' of 'Point' objects>,                'y': <member 'y' of 'Point' objects>,                'z': <member 'z' of 'Point' objects>})

為了自動化使用 __slots__ 創建類的過程,你可以使用庫namedlist(https://pypi.org/project/namedlist)。namedlist.namedlist 函數可以創建帶有 __slots__ 的類:

>>> Point = namedlist('Point', ('x', 'y', 'z'))

還有一個包 attrs(https://pypi.org/project/attrs),無論使用或不使用 __slots__ 都可以利用這個包自動創建類。

元組

Python 還有一個自帶的元組(tuple)類型,代表不可修改的數據結構。元組是固定的結構或記錄,但它不包含字段名稱。你可以利用字段索引訪問元組的字段。在創建元組實例時,元組的字段會一次性關聯到值對象:

>>> ob = (1,2,3)  >>> x = ob[0]  >>> ob[1] = y # ERROR

元組實例非常緊湊:

>>> print(sys.getsizeof(ob))  72

由於內存中的元組還包含字段數,因此需要佔據內存的 8 個位元組,多於帶有 __slots__ 的類:

字段

大小(位元組)

PyGC_Head

24

PyObject_HEAD

16

ob_size

8

[0]

8

[1]

8

[2]

8

總計:

72

命名元組

由於元組的使用非常廣泛,所以終有一天你需要通過名稱訪問元組。為了滿足這種需求,你可以使用模塊 collections.namedtuple。

namedtuple 函數可以自動生成這種類:

>>> Point = namedtuple('Point', ('x', 'y', 'z'))

如上代碼創建了元組的子類,其中還定義了通過名稱訪問字段的描述符。對於上述示例,訪問方式如下:

 class Point(tuple):       #       @property       def _get_x(self):           return self[0]       @property       def _get_y(self):           return self[1]       @property       def _get_z(self):           return self[2]       #       def __new__(cls, x, y, z):           return tuple.__new__(cls, (x, y, z))  

這種類所有的實例所佔用的內存與元組完全相同。但大量的實例佔用的內存也會稍稍多一些:

實例數

大小

1 000 000

72 Mb

10 000 000

720 Mb

100 000 000

7.2 Gb

記錄類:不帶循環 GC 的可變更命名元組

由於元組及其相應的命名元組類能夠生成不可修改的對象,因此類似於 ob.x 的對象值不能再被賦予其他值,所以有時還需要可修改的命名元組。由於 Python 沒有相當於元組且支持賦值的內置類型,因此人們想了許多辦法。在這裡我們討論一下記錄類(recordclass,https://pypi.org/project/recordclass),它在 StackoverFlow 上廣受好評(https://stackoverflow.com/questions/29290359/existence-of-mutable-named-tuple-in)。

此外,它還可以將對象佔用的內存量減少到與元組對象差不多的水平。

recordclass 包引入了類型 recordclass.mutabletuple,它幾乎等價於元組,但它支持賦值。它會創建幾乎與 namedtuple 完全一致的子類,但支持給屬性賦新值(而不需要創建新的實例)。recordclass 函數與 namedtuple 函數類似,可以自動創建這些類:

 >>> Point = recordclass('Point', ('x', 'y', 'z'))   >>> ob = Point(1, 2, 3)

類實例的結構也類似於 tuple,但沒有 PyGC_Head:

字段

大小(位元組)

PyObject_HEAD

16

ob_size

8

x

8

y

8

z

8

總計:

48

在默認情況下,recordclass 函數會創建一個類,該類不參與垃圾回收機制。一般來說,namedtuple 和 recordclass 都可以生成表示記錄或簡單數據結構(即非遞歸結構)的類。在 Python 中正確使用這二者不會造成循環引用。因此,recordclass 生成的類實例默認情況下不包含 PyGC_Head 片段(這個片段是支持循環垃圾回收機制的必需字段,或者更準確地說,在創建類的 PyTypeObject 結構中,flags 字段默認情況下不會設置 Py_TPFLAGS_HAVE_GC 標誌)。

大量實例佔用的內存量要小於帶有 __slots__ 的類實例:

實例數

大小

1 000 000

48 Mb

10 000 000

480 Mb

100 000 000

4.8 Gb

dataobject

recordclass 庫提出的另一個解決方案的基本想法為:內存結構採用與帶 __slots__ 的類實例同樣的結構,但不參與循環垃圾回收機制。這種類可以通過 recordclass.make_dataclass 函數生成:

>>> Point = make_dataclass('Point', ('x', 'y', 'z'))

這種方式創建的類默認會生成可修改的實例。

另一種方法是從 recordclass.dataobject 繼承:

class Point(dataobject):      x:int      y:int      z:int

這種方法創建的類實例不會參與循環垃圾回收機制。內存中實例的結構與帶有 __slots__ 的類相同,但沒有 PyGC_Head:

字段

大小(位元組)

PyObject_HEAD

16

ob_size

8

x

8

y

8

z

8

總計:

48

>>> ob = Point(1,2,3)  >>> print(sys.getsizeof(ob))  40

如果想訪問字段,則需要使用特殊的描述符來表示從對象開頭算起的偏移量,其位置位於類字典內:

mappingproxy({'__new__': <staticmethod at 0x7f203c4e6be0>,                .......................................                'x': <recordclass.dataobject.dataslotgetset at 0x7f203c55c690>,                'y': <recordclass.dataobject.dataslotgetset at 0x7f203c55c670>,                'z': <recordclass.dataobject.dataslotgetset at 0x7f203c55c410>})

大量實例佔用的內存量在 CPython 實現中是最小的:

實例數

大小

1 000 000

40 Mb

10 000 000

400 Mb

100 000 000

4.0 Gb

Cython

還有一個基於 Cython(https://cython.org/)的方案。該方案的優點是字段可以使用 C 語言的原子類型。訪問字段的描述符可以通過純 Python 創建。例如:

cdef class Python:      cdef public int x, y, z     def __init__(self, x, y, z):        self.x = x        self.y = y        self.z = z

本例中實例佔用的內存更小:

>>> ob = Point(1,2,3)  >>> print(sys.getsizeof(ob))  32  

內存結構如下:

字段

大小(位元組)

PyObject_HEAD

16

x

4

y

4

z

4

nycto

4

總計:

32

大量副本所佔用的內存量也很小:

實例數

大小

1 000 000

32 Mb

10 000 000

320 Mb

100 000 000

3.2 Gb

但是,需要記住在從 Python 代碼訪問時,每次訪問都會引發 int 類型和 Python 對象之間的轉換。

Numpy

使用擁有大量數據的多維數組或記錄數組會佔用大量內存。但是,為了有效地利用純 Python 處理數據,你應該使用 Numpy 包提供的函數。

>>> Point = numpy.dtype(('x', numpy.int32), ('y', numpy.int32), ('z', numpy.int32)])  

一個擁有 N 個元素、初始化成零的數組可以通過下面的函數創建:

 >>> points = numpy.zeros(N, dtype=Point)

內存佔用是最小的:

實例數

大小

1 000 000

12 Mb

10 000 000

120 Mb

100 000 000

1.2 Gb

一般情況下,訪問數組元素和行會引發 Python 對象與 C 語言 int 值之間的轉換。如果從生成的數組中獲取一行結果,其中包含一個元素,其內存就沒那麼緊湊了:

  >>> sys.getsizeof(points[0])    68

因此,如上所述,在 Python 代碼中需要使用 numpy 包提供的函數來處理數組。

總結

在本文中,我們通過一個簡單明了的例子,求證了 Python 語言(CPython)社區的開發人員和用戶可以真正減少對象佔用的內存量。

原文:https://habr.com/en/post/458518