拋棄os.path,擁抱pathlib

基於Python的文件、目錄和路徑操作,我們一般使用的是os.path模塊。

pathlib是它的替代品,在os.path上的基礎上進行了封裝,實現了路徑的對象化,api更加通俗,操作更便捷,更符編程的思維習慣。

pathlib模塊提供了一些使用語義化表示文件系統路徑的類,這些類適合多種操作系統。路徑類被劃分為純路徑(該路徑提供了不帶I/O的純粹計算操作),以及具體路徑(從純路徑中繼承而來,但提供了I/O操作)。

首先我們看一下pathlib模塊的組織結構,其核心是6個類,這6個類的基類是PurePath類,其它5個類都是從它派生出來的:

箭頭連接的是有繼承關係的兩個類,以 PurePosixPath 和 PurePath 類為例,PurePosixPath 繼承自 PurePath,即前者是後者的子類。

  • PurePath 類:將路徑看做是一個普通的字符串,它可以實現將多個指定的字符串拼接成適用於當前操作系統的路徑格式,同時還可以判斷任意兩個路徑是否相等。從英文名來理解,Pure是純粹的意思,表示PurePath類純粹只關心路徑的操作,而不管真實文件系統中路徑是否有效、文件是否存在、目錄是否存在等現實問題。
  • PurePosixPath 和 PureWindowsPath 是 PurePath 的子類,前者用於操作 UNIX(包括 Mac OS X)風格操作系統的路徑,後者用於操作 Windows 操作系統的路徑。我們都知道兩種風格的操作系統在路徑分隔符上有一定的區別。
  • Path 類和以上 3 個類不同,在操作路徑的同時,還能操作文件/目錄,並和真實的文件系統交互,例如判斷路徑是否真實存在。
  • PosixPath 和 WindowsPath 是 Path 的子類,分別用於操作 Unix(Mac OS X)風格的路徑和 Windows 風格的路徑。

PurePath、PurePosixPath 和 PureWindowsPath這三個純路徑類通常用在一些特殊的情況里,如:

  • 如果你需要在Unix設備里操作Windows路徑,或在Windiws設備里操作Unix路徑。因為我們不能在Unix上實例化一個真正的Windows路徑,但我們可以實例化一個純Windows路徑,假裝我們在操作windows。

  • 你想要確保你的代碼只操作路徑而不和操作系統真實交互。

科普:UNIX 類型的操作系統和 Windows 操作系統上,路徑的格式是完全不同的,主要區別在於根路徑和路徑分隔符,UNIX 系統的根路徑是斜杠(/),而 Windows 系統的根路徑是盤符(C:);UNIX 系統路徑使用的分隔符是正斜杠(/),而 Windows 使用的是反斜杠(\)。

一、PurePath類

PurePath 類(以及 PurePosixPath 類和 PureWindowsPath 類)都提供了大量的構造方法、實例方法以及類實例屬性供我們使用。

在實例化 PurePath 類時,會自動適配操作系統。如果在 UNIX 或 Mac OS X 系統中,構造方法實際返回的是 PurePosixPath 對象;反之,如果在 Windows 系統上使用 PurePath 創建實例,構造方法返回的是 PureWindowsPath 對象。

例如,在 Windows 系統中執行如下語句:

from pathlib import PurePath

path = PurePath('file.txt')
print(type(path))

# <class 'pathlib.PureWindowsPath'>

PurePath 在創建對象時,也支持傳入多個路徑字符串,它們會被拼接成一個路徑。例如:

from pathlib import PurePath

path = PurePath('https:','www.liujiangblog.com','django')
print(path)

# https:\www.liujiangblog.com\django

可以看到,由於運行環境為 Windows 擦奧做系統,因此輸出的是 Windows 平台格式的路徑。

如果想在 Windows 中創建 UNIX 風格的路徑,就需要指定使用 PurePosixPath 類,反之亦然。例如:

from pathlib import PurePosixPath
path = PurePosixPath('https:','www.liujiangblog.com','django')
print(path)

# https:/www.liujiangblog.com/django

強調:在做純路徑操作的時候,其實玩弄的都是字符串,與本地文件系統沒有任何實際關聯,不做任何磁盤IO操作。PurePath構造的路徑本質上是字符串,完全可以使用 str() 將 其轉換成字符串。

此外,如果在使用 PurePath 類的構造方法時,不傳入任何字符串參數,則等相當於傳入點.(當前路徑)作為參數:

from pathlib import PurePath

path1 = PurePath()

path2 = PurePath('.')

print(path1 == path2)

# True

如果傳入 PurePath 構造方法中的多個參數中,包含多個根路徑,則只會有最後一個根路徑及後面的子路徑生效。例如:

from pathlib import PurePath

path = PurePath('C:/', 'D:/', 'file.txt')
print(path)

# D:\file.txt

額外提醒,在Python中構造字符串的時候,一定要注意正/反斜杠在轉義和不轉義時的區別。以及r原生字符串的使用和不使用。千萬不要寫錯了

如果傳給 PurePath 構造方法的參數中包含有多餘的斜杠或者.會直接被忽略,但..不會被忽略:

from pathlib import PurePath
path = PurePath('C:/./..file.txt')
print(path)

# C:\..file.txt

PurePath 實例支持比較運算符,對於同種風格的路徑,可以判斷是否相等,也可以比較大小(實際上就是比較字符串的大小);對於不同風格的路徑,只能判斷是否相等(顯然,不可能相等),但不能比較大小:

from pathlib import *

# Unix風格的路徑區分大小寫
print(PurePosixPath('/D/file.txt') == PurePosixPath('/d/file.txt'))

# Windows風格的路徑不區分大小寫
print(PureWindowsPath('D://file.txt') == PureWindowsPath('d://file.txt'))

# False
# True

下面列出PurePath實例常用的方法和屬性:

實例屬性和方法 功能描述
PurePath.parts 返迴路徑字符串中所包含的各部分。
PurePath.drive 返迴路徑字符串中的驅動器盤符。
PurePath.root 返迴路徑字符串中的根路徑。
PurePath.anchor 返迴路徑字符串中的盤符和根路徑。
PurePath.parents 返回當前路徑的全部父路徑。
PurPath.parent 返回當前路徑的上一級路徑,相當於 parents[0] 的返回值。
PurePath.name 返回當前路徑中的文件名。
PurePath.suffixes 返回當前路徑中的文件所有後綴名。
PurePath.suffix 返回當前路徑中的文件後綴名。也就是 suffixes 屬性列表的最後一個元素。
PurePath.stem 返回當前路徑中的主文件名。
PurePath.as_posix() 將當前路徑轉換成 UNIX 風格的路徑。
PurePath.as_uri() 將當前路徑轉換成 URL。只有絕對路徑才能轉換,否則將會引發 ValueError。
PurePath.is_absolute() 判斷當前路徑是否為絕對路徑。
PurePath.joinpath(*other) 將多個路徑連接在一起,作用類似於前面介紹的斜杠(/)連接符。
PurePath.match(pattern) 判斷當前路徑是否匹配指定通配符。
PurePath.relative_to(*other) 獲取當前路徑中去除基準路徑之後的結果。
PurePath.with_name(name) 將當前路徑中的文件名替換成新文件名。如果當前路徑中沒有文件名,則會引發 ValueError。
PurePath.with_suffix(suffix) 將當前路徑中的文件後綴名替換成新的後綴名。如果當前路徑中沒有後綴名,則會添加新的後綴名。

二、Path類

更多的時候,我們都是直接使用Path類,而不是PurePath。

Path 是 PurePath 的子類, 除了支持 PurePath 提供的各種構造函數、屬性及方法之外,還提供判斷路徑有效性的方法,甚至還可以判斷該路徑對應的是文件還是文件夾,如果是文件,還支持對文件進行讀寫等操作。

Path 有 2 個子類,分別為 PosixPath和 WindowsPath,這兩個子類的作用顯而易見,不再贅述。

基本使用

from pathlib import Path

# 創建實例
p = Path('a','b','c/d')  	
p = Path('/etc')  	

-------------------------------------------------------
p = Path()		

# WindowsPath('.')
p.resolve()                    	# 解析路徑,不一定是真實路徑
# WindowsPath('C:/Users/liujiangblog')
--------------------------------------------------
# 任何時候都返回當前的真實的絕對路徑
p.cwd()
# WindowsPath('D:/work/2020/django3')
Path.cwd()
# WindowsPath('D:/work/2020/django3')
p.home()
# WindowsPath('C:/Users/liujiangblog')
Path.home()
# WindowsPath('C:/Users/liujiangblog')

目錄操作

p = Path(r'd:\test\11\22')
p.mkdir(exist_ok=True)          # 創建文件目錄(前提是tt目錄存在, 否則會報錯)
# 一般我會使用下面這種創建方法
p.mkdir(exist_ok=True, parents=True) # 遞歸創建文件目錄
p.rmdir()		#刪除當前目錄,但是該目錄必須為空

p
# WindowsPath('d:/test/11/22')  		p依然存在

遍歷目錄

p = Path(r'd:\test')
# WindowsPath('d:/test')
p.iterdir()                     # 相當於os.listdir
p.glob('*')                     # 相當於os.listdir, 但是可以添加匹配條件
p.rglob('*')                    # 相當於os.walk, 也可以添加匹配條件

創建文件

file = Path(r'd:\test\11\22\test.py')
file.touch()				# touch方法用於創建空文件,目錄必須存在,否則無法創建
#Traceback (most recent call last):
#  File "<input>", line 1, in <module>
# .....
#FileNotFoundError: [Errno 2] No such file or directory: 'd:\\test\\11\\22\\test.py'

p = Path(r'd:\test\11\22')
p.mkdir(exist_ok=True,parents=True)
file.touch()

文件操作

p = Path(r'd:\test\tt.txt.bk')
p.name                          # 獲取文件名
# tt.txt.bk
p.stem                          # 獲取文件名除後綴的部分
# tt.txt
p.suffix                        # 文件後綴
# .bk
p.suffixs                       # 文件的後綴們...
# ['.txt', '.bk']
p.parent                        # 相當於dirnanme
# WindowsPath('d:/test')
p.parents                       # 返回一個iterable, 包含所有父目錄
# <WindowsPath.parents>
for i in p.parents:
    print(i)
# d:\test
# d:\
p.parts                         # 將路徑通過分隔符分割成一個元組
# ('d:\\', 'test', 'tt.txt.bk')

p = Path('C:/Users/Administrator/Desktop/')
p.parent
# WindowsPath('C:/Users/Administrator')

p.parent.parent
# WindowsPath('C:/Users')


# 索引0是直接的父目錄,索引越大越接近根目錄
for x in p.parents: print(x)
# C:\Users\Administrator
# C:\Users
# C:\
# 更多技術文章請訪問官網//www.liujiangblog.com

# with_name(name)替換路徑最後一部分並返回一個新路徑
Path("/home/liujiangblog/test.py").with_name('python.txt')
# WindowsPath('/home/liujiangblog/python.txt')

# with_suffix(suffix)替換擴展名,返回新的路徑,擴展名存在則不變
Path("/home/liujiangblog/test.py").with_suffix('.txt')
# WindowsPath('/home/liujiangblog/test.txt')

文件信息

p = Path(r'd:\test\tt.txt')
p.stat()                        # 獲取詳細信息
# os.stat_result(st_mode=33206, st_ino=562949953579011, st_dev=3870140380, st_nlink=1, st_uid=0, st_gid=0, st_size=0, st_atime=1525254557, st_mtime=1525254557, st_ctime=1525254557)
p.stat().st_size                # 文件大小
# 0
p.stat().st_ctime               # 創建時間
# 1525254557.2090347
# 其他的信息也可以通過相同方式獲取
p.stat().st_mtime               # 修改時間

文件讀寫

open(mode=’r’, bufferiong=-1, encoding=None, errors=None, newline=None)

使用方法類似Python內置的open函數,返回一個文件對象。

p = Path('C:/Users/Administrator/Desktop/text.txt')
with p.open(encoding='utf-8') as f: 
	print(f.readline())  

read_bytes():以'rb'模式讀取文件,並返回bytes類型數據

write_bytes(data): 以'wb'方式將數據寫入文件

p = Path('C:/Users/Administrator/Desktop/text.txt')
p.write_bytes(b'Binary file contents')
# 20
p.read_bytes()
# b'Binary file contents'

read_text(encoding=None, errors=None): 以'r'方式讀取路徑對應文件,返迴文本

write_text(data, encoding=None, errors=None):以'w'方式寫入字符串到路徑對應文件

p = Path('C:/Users/Administrator/Desktop/text.txt')
p.write_text('Text file contents')
# 18
p.read_text()
# 'Text file contents'

判斷操作

返回布爾值

  • is_dir() :是否是目錄
  • is_file() :是否是普通文件
  • is_symlink() :是否是軟鏈接
  • is_socket(): 是否是socket文件
  • is_block_device(): 是否是塊設備
  • is_char_device(): 是否是字符設備
  • is_absolute() :是否是絕對路徑
p = Path(r'd:\test')
p = Path(p, 'test.txt')           # 字符串拼接
p.exists()                      # 判斷文件是否存在
p.is_file()                     # 判斷是否是文件
p.is_dir()                      # 判斷是否是目錄

路徑拼接和分解

在pathlib中,通過拼接操作符/來拼接路徑,主要有三種方式:

  • Path對象 / Path對象
  • Path對象 / 字符串
  • 字符串 / Path對象

分解路徑主要通過parts方法

p=Path()
p
# WindowsPath('.')
p = p / 'a'
p
# WindowsPath('a')
p = 'b' / p
p
# WindowsPath('b/a')
p2 = Path('c')
p = p2 / p
p
# WindowsPath('c/b/a')
p.parts
# ('c', 'b', 'a')
p.joinpath("c:","liujiangblog.com","jack")    # 拼接的時候,前面部分被忽略了
# WindowsPath('c:liujiangblog.com/jack')

# 更多技術文章請訪問官網//www.liujiangblog.com

通配符

  • glob(pattern): 通配給定的模式
  • rglob(pattern) :通配給定的模式,並且遞歸搜索目錄

返回值: 一個生成器

p=Path(r'd:\vue_learn')
p.glob('*.html')   # 匹配所有HTML文件,返回的是一個generator生成器
# <generator object Path.glob at 0x000002ECA2199F90>
list(p.glob('*.html'))
# [WindowsPath('d:/vue_learn/base.html'), WindowsPath('d:/vue_learn/components.html'), WindowsPath('d:/vue_learn/demo.html').........................
g = p.rglob('*.html')	# 遞歸匹配
next(g)  
# WindowsPath('d:/vue_learn/base.html')
next(g)
# WindowsPath('d:/vue_learn/components.html')

正則匹配

使用match方法進行模式匹配,成功則返回True

p = Path('C:/Users/Administrator/Desktop/text.txt')
p.match('*.txt')
# True
Path('C:/Users/Administrator/Desktop/text.txt').match('**/*.txt')
# True

更多例子

from pathlib import Path

p1 = Path(__file__)  #獲取當前文件路徑
#D:\liujiangblog\test1.py

p2 = Path.cwd()  #獲取當前文件的目錄
#D:\test

p3=Path.cwd().parent  #當前文件目錄的父目錄
#D:\

p=Path.cwd().joinpath('a')  #路徑拼接
#D:\test\a

st=Path(__file__).stat()  #獲取當前文件的信息
#os.stat_result(st_mode=33206, st_ino=6473924464701313, st_dev=1559383105, st_nlink=1, st_uid=0, st_gid=0, st_size=300, st_atime=1578661629, st_mtime=1578661629, st_ctime=1576891792)
a=st.st_size   #文件大小,單位:位元組

p=p1.parent  #p1的父路徑
z=p1.parents #p的所有祖輩路徑,返回一個對象
# for i in z:
#     print(i)
pp = Path(『D:/python『)  #創建一個path對象
a=pp.is_file()  #判斷pp是否文件
a=pp.is_dir()  #判斷pp是否目錄
a=p2.is_absolute()  #判斷p2是否是絕對路徑
a=p2.match(『d:\*『)  #判斷p2是否符合某一個模式
a=p2.glob(『*.py『) #在p2下搜索符合某一模式的文件--只搜索p2目錄
a=p3.glob(『**\*.py『)  #在p3下搜索符合某一模式的文件--包括所有子目錄
# a=p3.rglob(『*.py『)  #在p3下搜索符合某一模式的文件--包括所有子目錄
# for i in a:
#     print(i)
# 更多技術文章請訪問官網//www.liujiangblog.com
#pp.mkdir()  #創建目錄--如果已經存在就拋出異常
a=p1.name  #獲取文件名
#test1.py
a=p1.suffix #獲取後綴
#.py
a=pp.stem  #目錄最後一個部分,不帶後綴
a=pp.with_name(『vocab.txt『)  #替換最後一個部分並返回一個新的路徑
a=p1.with_suffix(『.lm『) #替換擴展名,返回新的路徑,擴展名存在則不變
#D:\ss\test1.lm
dir=Path(『d:/『)
a=dir.iterdir()  #所有文件與文件夾路徑的迭代器--只返回本目錄的不包括子目錄
# for i in a:
#     print(i)

file=Path(『D:/ss.lm『)
#file.rename(『d:/cc.txt『)  #改名並移動-文件與文件夾都可以
#如果file不存在就拋出異常
#移動必須是同一驅動器
#目標文件已經存在時拋出異常

file.replace(『d:/cc.txt『)  #改名並移動-文件與文件夾都可以
#與rename類似,目標文件或文件夾已經存在時則覆蓋原文件

更多內容請訪問: //www.liujiangblog.com

更多視頻教程請訪問: //www.liujiangblog.com/video/