python3讀取文件指定行的三種方案

2021 年 5 月 24 日
筆記
python編程

技術背景

考慮到深度學習領域中的數據規模一般都比較大，尤其是訓練集，這個限制條件對應到實際編程中就意味着，我們很有可能無法將整個數據文件的內容全部都加載到內存中。那麼就需要一些特殊的處理方式，比如：創建內存映射文件來替代原始文件被加載到內存中、預處理數據後再加載內存中以及單次只加載文件的片段。其中關於內存映射技術的一些應用，在前面的這2篇博客1和博客2中有所介紹，而本文將要介紹的是從文件中只讀取特定行的內容的3種解決方案。

行遍歷實現

在python中如果要將一個文件完全加載到內存中，通過file.readlines()即可，但是在文件佔用較高時，我們是無法完整的將文件加載到內存中的，這時候就需要用到python的file.readline()進行迭代式的逐行讀取：

filename = 'hello.txt'

with open(filename, 'r') as file:
    line = file.readline()
    counts = 1
    while line:
        if counts >= 50000000:
            break
        line = file.readline()
        counts += 1

這裡我們的實現方式是先用一個with語句打開一個文件，然後用readline()函數配合while循環逐行加載，最終通過一個序號標記來結束循環遍歷，輸出文件第50000000行的內容。該代碼的執行效果如下：

dechin@ubuntu2004:~/projects/gitlab/dechin/$ time python3 get_line.py 

real    0m10.359s
user    0m10.062s
sys     0m0.296s

可以看到這裡的耗時為10s多一些。

linecache實現

雖然在python的readline函數中並沒有實現讀取指定行內容的方案，但是在另一個庫linecache中是實現了的，由於使用的方式較為簡單，這裡直接放上代碼示例供參考：

filename = 'hello.txt'

import linecache
text = linecache.getline(filename, 50000000)

該代碼的執行結果如下：

dechin@ubuntu2004:~/projects/gitlab/dechin/$ time python3 get_line.py 

real    0m11.904s
user    0m5.672s
sys     0m6.231s

雖然在實現方式上簡化了許多，但是我們發現這個實現的用時超過了11s，還不如我們自己手動實現的循環遍歷方案。因此如果是對於性能有一定要求的場景，是不建議採用這個方案的。

命令行sed獲取

我們知道用Linux系統本身自帶的sed指令也是可以獲取到文件指定行或者是指定行範圍的數據的，其執行指令為：sed -n 50000000p filename即表示讀取文件的第50000000行的內容。同時結合python的話，我們可以在python代碼中執行系統指令並獲取輸出結果：

filename = 'hello.txt'

import os
result = os.popen('sed -n {}p {}'.format(50000000, filename)).read()

需要注意的是，如果直接運行os.system()是沒有返回值的，只有os.popen()是有返回值的，並且需要在尾巴加上一個read()的選項。該代碼的執行結果如下：

dechin@ubuntu2004:~/projects/gitlab/dechin/$ time python3 get_line.py 

real    0m2.532s
user    0m0.032s
sys     0m0.020s

可以看到直接使用sed指令的執行速度很快，但是用這種方法並不是一本萬利的，比如以下這個例子：

filename = 'hello.txt'

import os
result = os.popen('sed -n {}p {}'.format(500, filename)).read()

我們把讀取第50000000行內容改為讀取第500行的內容，再運行一次程序：

dechin@ubuntu2004:~/projects/gitlab/dechin/$ time python3 get_line.py 

real    0m2.540s
user    0m0.037s
sys     0m0.013s

然而我們發現這個速度並沒有因為要讀取的行數減少了而變少，而是幾乎保持不變的。

總結概要

本文通過4個測試案例分析了在python中讀取文件指定行內容的方案，並得到了一些運行耗時的數據。從需求上來說，如果是對於小規模的數據，比如幾百行規模的數據，建議使用readline循環遍歷來操作，速度也相當不錯，或者是linecache中的函數實現也是可以的，甚至可以直接用readlines將整個文本內容加載到內存中。但是對於數據規模比較大的場景，比如超過了千萬行的級別，那麼使用sed指令的方式對指定行內容進行讀取的方式，應該是所有方式中最快速的。

版權聲明

本文首發鏈接為：//www.cnblogs.com/dechinphy/p/lbl.html

作者ID：DechinPhy

更多原著文章請參考：//www.cnblogs.com/dechinphy/

打賞專用鏈接：//www.cnblogs.com/dechinphy/gallery/image/379634.html

騰訊雲專欄同步：//cloud.tencent.com/developer/column/91958

Tags: python編程

python3讀取文件指定行的三種方案

技術背景

行遍歷實現

linecache實現

命令行sed獲取

總結概要

版權聲明

VirMach 便宜 VPS

QNews

python3讀取文件指定行的三種方案

技術背景

行遍歷實現

linecache實現

命令行sed獲取

總結概要

版權聲明

分享此文：

Related Posts

同樣做前端，為何差距越來越大？

進階spring/Hibernate*框架精選面試題

pt-online-schema-change 大數據表結構修改

【建議收藏】缺少 Vue3 和 Spring Boot 的實戰項目經驗？我這兒有啊！

VirMach 便宜 VPS

QNews

熱門文章

熱門搜尋