python进行文件操作

  • 2020 年 3 月 17 日
  • 筆記

Linux系统中,万物皆文件。一个用户是一个文件,一张图片是一个文件。文件是以一定数据结构存储在硬盘中。 打开文件 读取或者写入 关闭文件 打开文件 Python使用内置的open()函数打开一个文件,并且返回一个文件对象,也叫句柄(handle)。

f = open("test.txt") # 在本文件夹下面的一个文件 再打开文件时,我们需要指定文件打开的模式, 当我们需要读取文件时,使用f = open("test.txt", 'r'), 写入文件时,使用f = open("test.txt", 'w'), 追加输入时f = open("test.txt", 'a'),这里的a就是append的意思。 追加模式和写入模式的区别就是,写入模式打开一个文件时,无论这个文件是否有内容,都会被清空再写入; 在使用追加模式时,打开的文件,只是在原有的内容上继续进行写入。 同时我们也要指定以文本模式打开还是二进制模式(b)打开。

文本模式(text mode)和二进制(binary mode)模式的区别 文本模式中,读取时操作系统的换行符('n' on Unix,'rn' on Windows)会被转换成Python的默认换行符n,写入时会将默认的换行符转换为操作系统的换行符;在二进制模式中不会转换。这个转化在对文本文件没有影响,但是对于二进制数据会有影响,比如图像文件或者EXE文件等。因此,再打开这类文件时,一般使用二进制模式进行读写 常用模式

| r | 文本模式,读取 |

| rb | 二进制模式,读取 |

| w | 文本模式,写入 |

| wb | 二进制模式,写入 |

| a | 文本模式,追加 |

| ab | 二进制模式,追加 |

| + | 可读可写 |

f = open("test.txt", 'r')  # 读模式  f = open("test.txt", 'w')  # 写模式  f = open("img.jpg",'r+')  # 可读可写  f = open("img.jpg",'w+')  # 可读可写  f = open("img.jpg",'rb')  # 二进制读取

如何关闭文件 当文件操作结束时,我们最好主动关闭文件。尽管Python有垃圾回收(garbage collector)机制,去清理不用的对象,但是最好还是自己关闭文件。

最简单的方法就是:

f = open("app.log", 'r')  do_something()  f.close()

但是这个办法不安全,因为在进行其他操作时,可能会出现异常,程序退出,那么关闭文件的语句就不会被执行。

因此,可以用<try-finally>语句来处理:

try:     f = open('app.log', 'r')     do_something()  finally:     f.close()

无论是否发生异常,关闭文件的指令都会被执行。

但是python官方给出的最佳用法是:

with open('app.log', 'r') as f: do_something() 使用这种用法,我们不必调用close()方法,在with语句程序内部就会执行,无论内部是否出现异常。with语句被称为上下文管理器,我们可以暂且不管这个的原理,只需要知道使用with语句,关闭文件的操作会被自动执行,这也是官方推荐的最佳用法,比用<try-finally>语句写起来简单。

文件操作 写入文件 主要介绍两个方法:

1.write()方法

这个方法的参数是一个单独的字符串,比如:

lines = ['line1', 'line2']  with open('filename.txt', 'w') as f:      s = ''      for data in lines:          s += data          s += 'n'      f.write(s)

其实更好的写法是使用join函数:

lines = ['line1', 'line2']  with open('filename.txt', 'w') as f:      f.write('n'.join(lines))

2.writelines()方法

参数是一组可迭代的字符串,比如

lines = ['line1', 'line2']  with open('filename.txt', 'w') as f:      new_lines = []      for data in lines:          new_lines.append(data+'n')      f.writelines(new_lines)

其实更加优雅的写法,可以使用生成器:

lines = ['line1', 'line2']  with open('filename.txt', 'w') as f:      f.writelines("%sn" % l for l in lines)

读取文件 这里介绍四种用法,后面都默认文件已经被打开了:

1.read()

result = f.read()

这里返回的是文件内容,是str类型的结果,这个方法还带一个数值类型的参数,指定读取多少内容,如果省略了或者是负数,那么就返回文件的全部内容。

2.readline()

result = f.readline()

返回的也是字符串,不过是一行内容,继续调用,就会返回下一行内容

3.readlines()

result = f.readlines() 这里返回的是一个列表,但是当数据较大时,这样的用法会很占用内存,不推荐在数据量大时使用

4.直接循环文件对象

for line in f:      print line      do_something()

这样的用法节省内存,快速,并且代码还简单

result = f.readlines()  ------------------------  result = list(f)

这两种写法返回的结果是一样的

显然我们推荐第四种用法。

如何处理大文件 大文件主要问题在于占用内存较大,我们不能一下子将文件全部内容读入内存,最好的做法如下:

with open("log.txt") as f:      for line in f:          do_something_with(line)

一行一行读取,速度也更快,使用with语句,无论内部是否出现异常,在结束时,文件对象都会被关闭,因此在处理大文件时,非常推荐这种做法。