Python学习—文件操作
- 2020 年 1 月 8 日
- 筆記
1.文件基础知识
1.文件是存储在外部介质上的数据的集合,文件的基本单位是字节,文件所含的字节数就是文件的长度。每个字节都有一个默认的位置,位置从0开始,文件头的位置就是0,文件尾的位置是文件内容结束后的后一个位置,该位置上没有文件内容,为空。文件的读写操作从文件指针所在的位置开始,即读会从文件指针所在的位置开始读取,写会从文件指针所在的位置开始写,如有内容,则会被覆盖。 2.按文件中数据的组织形式把文件分为文本文件和二进制文件两类。文本文件存储的是常规字符串,由文本行组成,通常以换行符'n'结尾,只能读写常规字符串。文本文件可以用字处理软件如gedit、记事本等进行查看编辑。常规字符串是指文本编辑器能正常显示、编辑的字符串,如英文字母串、汉字串、数字串。二进制文件把对象在内存中的内容以字节串(bytes)的形式进行存储。不能用字处理软件进行编辑。
2.文件的打开或创建
格式:文件变量名 = open(文件名[,打开方式[,缓冲区]])
文件名指定被打开文件对象 打开方式指定文件打开后能进行的处理方式 缓冲区制定了读写文件的缓存模式。0表示不缓存,1表示缓存,如大余1则表示缓冲区的大小。默认值为1 open()函数返回一个文件对象,通过该对象可以对文件进行各种操作
1.普通文本文件
r: - 只能读,不能写 - 读取的文件不存在, 报错 - 报错信息:FileNotFoundError: [Errno 2] No such file or directory:xxxxxx r+: - 可以执行读写操作 - 文件不存在,报错 - 默认情况下,从文件指针所在位置开始写入 w: - 只能写,不能读 - 文件不存在,不报错,自动创建文件并打开 - 会清空文件内容 w+: - 可以执行读写操作 - 文件不存在,不报错,自动创建文件并打开 - 会清空文件内容 a: - 只能写,不能读 - 文件不存在,不报错,自动创建文件并打开 - 不会清空文件内容 a+: - 可以执行读写操作 - 文件不存在,不报错,自动创建文件并打开 - 不会清空文件内容
2.二进制文件:打开方式在普通文本文件上加'b'
rb: - 只能读,不能写 - 读取的文件不存在,报错 rb+: - 可以执行读写操作 - 文件不存在,报错 - 默认情况下,从文件指针所在位置开始写入 wb: - 只能写,不能读 - 文件不存在,不报错,自动创建文件并打开 - 会清空文件内容 wb+: - 可以执行读写操作 - 文件不存在,不报错,自动创建文件并打开 - 会清空文件内容 ab: - 只能写,不能读 - 文件不存在,不报错,自动创建文件并打开 - 不会清空文件内容 ab+: - 可以执行读写操作 - 文件不存在,不报错,自动创建文件并打开 - 不会清空文件内容
3.文件常用方法
一、读 f.next() #在文件使用迭代器时会使用到,在循环中,next()方法会在每次循环中调用,该方法返回文件的下一行,如果到达结尾(EOF),则触发 StopIteration f.read([size]) #方法用于从文件读取指定的字节数,如果未给定或为负则读取所有。 f.readline([size]) #从文件读取整行,包括 "n" 字符。如果指定了一个非负数的参数,则返回指定大小的字节数,包括 "n" 字符。 f.readlines([size]) #读取所有行(直到结束符 EOF)并返回列表,该列表可以由 Python 的 for... in ... 结构进行处理。如果碰到结束符 EOF 则返回空字符串。,若给定sizeint>0,则是设置一次读多少字节,这是为了减轻读取压力 二、写 f.write([str]) #用于向文件中写入指定字符串 f.writelines(sequence_of_strings) #向文件中写入一序列的字符串 三、其他操作 f.flush() #用来刷新缓冲区的,即将缓冲区中的数据立刻写入文件,同时清空缓冲区,不需要是被动的等待输出缓冲区写入 f.seek(offset[, whence]) #于移动文件读取指针到指定位置 offset -- 开始的偏移量,也就是代表需要移动偏移的字节数 whence -- 可选,默认值为 0。给offset参数一个定义,表示要从哪个位置开始偏移;0代表从文件开头开始算起,1代表从当前位开始算起,2代表从文件末尾算起。 f.tell() #返回文件指针当前位置 f.truncate([ size ]) #截断文件,如果指定了可选参数 size,则表示截断文件为 size 个字符。 如果没有指定 size,则从当前位置起截断;截断之后 size 后面的所有字符被删除。 f.close() #用于关闭一个已打开的文件 f.closed #返回true如果文件已被关闭,否则返回false。 f.fileno() #方法返回一个整型的文件描述符(file descriptor FD 整型),可用于底层操作系统的 I/O 操作。 f.isatty() #检测文件是否连接到一个终端设备,如果是返回 True,否则返回 False 四、以下两个属性在python2中有,在python3中已经被删除了 f.mode #返回被打开文件的访问模式。 f.name # 返回文件的名称。
4.安全上下文with
上下文管理器:打开文件, 执行完with语句内容之后, 自动关闭文件对象
with open('/tmp/passwd') as f: print("with语句里面:", f.closed) print(f.read()) print("after with语句:", f.closed)
同时打开两个文件对象( python2中不支持)
with open('/tmp/passwd') as f1, open('/tmp/passwdBack', 'w+') as f2: # 将第一个文件的内容写入第二个文件中,文件复制即使如此。 f2.write(f1.read()) # 移动指针移动到文件最开始 f2.seek(0,0) # 读取指针内容 print(f2.read())
python2中只能这么实现
with open('/tmp/passwd') as f1: content = f1.read() with open('/tmp/passwdBack', 'w+'): f2.write(content)
5.yield实现读取大文件
# 1. 文件操作 1). 创建文件data.txt, 文件共100000行, 每行存放一个1~100之间的整数. 2). 找出文件中数字出现次数最多的10个数字, 写入文件mostNum.txt; import random with open('data.txt', mode='a+') as f: for i in range(1000000): f.write(str(random.randint(1,100))+'n') # 通过yield, 每次读取一行进行处理 def byLineReader(filename): with open(filename) as f: line = f.readline() # 如果可以读取到内容, 返回该行信息 while line: yield line line = f.readline() # read是一个生成器对象, read = byLineReader('data.txt') print(read) # #1). next 读取生成器的内容 print(next(read)) print(next(read)) ... # #2). 通过for循环 for item in read: print(item) # ******** 文件对象是可以for循环遍历的, 默认遍历的内容为每一行的内容.是节省内存空间的。 from collections import Iterable f = open('data.txt') print(isinstance(f, Iterable)) for i, item in enumerate(f): if i == 10: break print(i, item)
6.os模块
os 模块提供了非常丰富的方法用来处理文件和目录。
import os # 1). 返回操作系统类型, 值为posix,是Linux操作系统, 值为nt, 是windows操作系统 print(os.name) print('Linux' if os.name=='posix' else 'Windows') # 2). 操作系统的详细信息 info = os.uname() print(info) print(info.sysname) print(info.nodename) # 3). 系统环境变量 print(os.environ) # 4). 通过key值获取环境变量对应的value值 print(os.environ.get('PATH')) print(os.getenv('PATH'))
遍历指定目录下所有内容
import os from os.path import join for root, dirs, files in os.walk('/var/log'): #print(root, dirs, files) for name in files: print(join(root, name))
os模块常用方法大全:
os.access(path, mode) 检验权限模式 os.chdir(path) 改变当前工作目录 os.chflags(path, flags) 设置路径的标记为数字标记。 os.chmod(path, mode) 更改权限 os.chown(path, uid, gid) 更改文件所有者 os.chroot(path) 改变当前进程的根目录 os.close(fd) 关闭文件描述符 fd os.closerange(fd_low, fd_high) 关闭所有文件描述符,从 fd_low (包含) 到 fd_high (不包含), 错误会忽略 os.dup(fd) 复制文件描述符 fd os.dup2(fd, fd2) 将一个文件描述符 fd 复制到另一个 fd2 os.fchdir(fd) 通过文件描述符改变当前工作目录 os.fchmod(fd, mode) 改变一个文件的访问权限,该文件由参数fd指定,参数mode是Unix下的文件访问权限。 os.fchown(fd, uid, gid) 修改一个文件的所有权,这个函数修改一个文件的用户ID和用户组ID,该文件由文件描述符fd指定。 os.fdatasync(fd) 强制将文件写入磁盘,该文件由文件描述符fd指定,但是不强制更新文件的状态信息。 os.fdopen(fd[, mode[, bufsize]]) 通过文件描述符 fd 创建一个文件对象,并返回这个文件对象 os.fpathconf(fd, name) 返回一个打开的文件的系统配置信息。name为检索的系统配置的值,它也许是一个定义系统值的字符串,这些名字在很多标准中指定(POSIX.1, Unix 95, Unix 98, 和其它)。 os.fstat(fd) 返回文件描述符fd的状态,像stat()。 os.fstatvfs(fd) 返回包含文件描述符fd的文件的文件系统的信息,像 statvfs() os.fsync(fd) 强制将文件描述符为fd的文件写入硬盘。 os.ftruncate(fd, length) 裁剪文件描述符fd对应的文件, 所以它最大不能超过文件大小。 os.getcwd() 返回当前工作目录 os.getcwdu() 返回一个当前工作目录的Unicode对象 os.isatty(fd) 如果文件描述符fd是打开的,同时与tty(-like)设备相连,则返回true, 否则False。 os.lchflags(path, flags) 设置路径的标记为数字标记,类似 chflags(),但是没有软链接 os.lchmod(path, mode) 修改连接文件权限 os.lchown(path, uid, gid) 更改文件所有者,类似 chown,但是不追踪链接。 os.link(src, dst) 创建硬链接,名为参数 dst,指向参数 src os.listdir(path) 返回path指定的文件夹包含的文件或文件夹的名字的列表。 os.lseek(fd, pos, how) 设置文件描述符 fd当前位置为pos, how方式修改: SEEK_SET 或者 0 设置从文件开始的计算的pos; SEEK_CUR或者 1 则从当前位置计算; os.SEEK_END或者2则从文件尾部开始. 在unix,Windows中有效 os.lstat(path) 像stat(),但是没有软链接 os.major(device) 从原始的设备号中提取设备major号码 (使用stat中的st_dev或者st_rdev field)。 os.makedev(major, minor) 以major和minor设备号组成一个原始设备号 os.makedirs(path[, mode]) 递归文件夹创建函数。像mkdir(), 但创建的所有intermediate-level文件夹需要包含子文件夹。 os.minor(device) 从原始的设备号中提取设备minor号码 (使用stat中的st_dev或者st_rdev field )。 os.mkdir(path[, mode]) 以数字mode的mode创建一个名为path的文件夹.默认的 mode 是 0777 (八进制)。 os.mkfifo(path[, mode]) 创建命名管道,mode 为数字,默认为 0666 (八进制) os.mknod(filename[, mode=0600, device]) 创建一个名为filename文件系统节点(文件,设备特别文件或者命名pipe)。 os.open(file, flags[, mode]) 打开一个文件,并且设置需要的打开选项,mode参数是可选的 os.openpty() 打开一个新的伪终端对。返回 pty 和 tty的文件描述符。 os.pathconf(path, name) 返回相关文件的系统配置信息。 os.pipe() 创建一个管道. 返回一对文件描述符(r, w) 分别为读和写 os.popen(command[, mode[, bufsize]]) 从一个 command 打开一个管道 os.read(fd, n) 从文件描述符 fd 中读取最多 n 个字节,返回包含读取字节的字符串,文件描述符 fd对应文件已达到结尾, 返回一个空字符串。 os.readlink(path) 返回软链接所指向的文件 os.remove(path) 删除路径为path的文件。如果path 是一个文件夹,将抛出OSError; 查看下面的rmdir()删除一个 directory。 os.removedirs(path) 递归删除目录。 os.rename(src, dst) 重命名文件或目录,从 src 到 dst os.renames(old, new) 递归地对目录进行更名,也可以对文件进行更名。 os.rmdir(path) 删除path指定的空目录,如果目录非空,则抛出一个OSError异常。 os.stat(path) 获取path指定的路径的信息,功能等同于C API中的stat()系统调用。 os.stat_float_times([newvalue]) 决定stat_result是否以float对象显示时间戳 os.statvfs(path) 获取指定路径的文件系统统计信息 os.symlink(src, dst) 创建一个软链接 os.tcgetpgrp(fd) 返回与终端fd(一个由os.open()返回的打开的文件描述符)关联的进程组 os.tcsetpgrp(fd, pg) 设置与终端fd(一个由os.open()返回的打开的文件描述符)关联的进程组为pg。 os.tempnam([dir[, prefix]]) Python3 中已删除。返回唯一的路径名用于创建临时文件。 os.tmpfile() Python3 中已删除。返回一个打开的模式为(w+b)的文件对象 .这文件对象没有文件夹入口,没有文件描述符,将会自动删除。 os.tmpnam() Python3 中已删除。为创建一个临时文件返回一个唯一的路径 os.ttyname(fd) 返回一个字符串,它表示与文件描述符fd 关联的终端设备。如果fd 没有与终端设备关联,则引发一个异常。 os.unlink(path) 删除文件路径 os.utime(path, times) 返回指定的path文件的访问和修改的时间。 os.walk(top[, topdown=True[, onerror=None[, followlinks=False]]]) 输出在文件夹中的文件名。通过在树中游走,向上或者向下。 os.write(fd, str) 写入字符串到文件描述符 fd中. 返回实际写入的字符串长度
来自:http://www.runoob.com/python3/python3-os-file-methods.html
8.sys模块
import sys # 返回一个列表, 第一个元素为当前文件名 print(sys.argv) print(sys.argv[0]) # 如果获取脚本传入的第n个参数, sys.argv[n]
批量更改文件名
# 创建目录img,在此目录下随机生成100个以.png结尾的文件,然后把以.png结尾的文件改成以.jpg结尾 import os,random,string,sys # 创建目录并随机生成.png文件 os.mkdir('img') for i in range(100): os.mknod('img/'+''.join(random.sample(string.ascii_letters+string.digits,4))+'.png') def modify_suffix(dirname,old_suffix,new_suffix): if not os.path.exists(dirname): print('目录不存在!') exit() old_suffix_file_list = list(filter(lambda x:x.endswith(old_suffix),os.listdir(dirname))) #字符串方法: #new_suffix_file_list = [] # for i in old_suffix_file_list: # new_suffix_file_list.append(i.replace(old_suffix,new_suffix)) # print(new_suffix_file_list) # for i,j in zip(old_suffix_file_list,new_suffix_file_list): # print(dirname+i,dirname+j) # os.rename(dirname+'/'+i,dirname+'/'+j) #文件操作方法: file_name = [os.path.splitext(name)[0] for name in old_suffix_file_list] for i in file_name: os.rename(dirname+'/'+i+old_suffix,dirname+'/'+i+new_suffix) modify_suffix('img','.png','.jpg')