利用 Python 破解 ZIP 或 RAR 文件密碼

  • 2020 年 2 月 12 日
  • 筆記

我們經常會從網絡上下載一些帶密碼的壓縮包,想要獲取裏面的內容,往往就要給提供商支付一些費用。想要白嫖其中的內容,常見的做法是百度搜索一些壓縮包密碼破解軟件,但後果相信體驗過的人都知道。本文將會利用 Python 破解壓縮包的密碼,這裡以 ZIP/RAR 為例。

本文源碼可在微信公眾號「01 二進制」後台留言「破解壓縮包」獲得

破解原理

其實原理很簡單,一句話概括就是「大力出奇蹟」,Python 有兩個壓縮文件庫:zipfilerarfile,這兩個庫提供的解壓縮方法 extractall() 可以指定密碼,這樣的話首先生成一個密碼字典(手動或用程序),然後依次嘗試其中的密碼,如果能夠正常解壓縮則表示密碼正確。

實驗環境

本文採取的虛擬環境為 Pipenv,有關 Pipenv 的詳細介紹可以參考我的這篇文章 ?《Python 管理哪家強?

  • zipfile:Python 標準庫,使用時直接導入即可
  • rarfile:Python 第三方庫,使用時需要安裝,API 文檔(https://rarfile.readthedocs.io/en/latest/api.html)

利用 Pipenv 安裝 rarfile

pipenv install rarfile

最後,再將一個帶有密碼的壓縮包放入實驗環境中即可。

編碼

知道原理後,編碼就會非常簡單了

準備密碼本

「密碼本」其實就是一個包含了所有可能密碼的文件,用戶可以手動錄入,也可以用程序錄入。文末還會有一個介紹。

讀取壓縮文件

# 根據文件擴展名,使用不同的庫  if filename.endswith('.zip'):      fp = zipfile.ZipFile(filename)  elif filename.endswith('.rar'):      fp = rarfile.RarFile(filename)

嘗試解壓

先嘗試不用密碼解壓縮,如果成功則表示壓縮文件沒有密碼

fp.extractall(desPath)  fp.close()  print('No password')  return

暴力破解

try:      # 讀取密碼本文件      fpPwd = open('pwd.txt')  except:      print('No dict file pwd.txt in current directory.')      return  for pwd in fpPwd:      pwd = pwd.rstrip()      try:          fp.extractall(path=desPath, pwd=pwd.encode())          print('Success! ====>'+pwd)          fp.close()          break      except:          pass  fpPwd.close()

程序入口

if __name__ == '__main__':      filename = sys.argv[1]      if os.path.isfile(filename) and filename.endswith(('.zip', '.rar')):          decryptRarZipFile(filename)      else:          print('Must be Rar or Zip file')

使用

如果想要使用上述代碼,我們只需在命令行執行 python main.py<filename>即可。例如 python main.py test.zip

運行結果:

$ python main.py test.zip  Success! ====>323126

擴展

密碼本如何獲取?

看到這裡,細心的小夥伴一定會發現,最核心的其實不是代碼,而是「密碼本」。理論上只要密碼本中的密碼足夠多,就一定能獲取到壓縮包的密碼,這也就是俗稱的「撞庫」

這時問題又來了,如何搜集到足夠多的密碼?我在搜索資料的時候發現已經有人整理好了,我 fork 了一份到了自己的倉庫,有興趣的可以點擊 ?爆破字典(https://github.com/YueYongDev/Blasting_dictionary)

如何加速破解過程?

解決了密碼本的問題,深入思考的小夥伴的一定又會有新的疑問,密碼本既然如此龐大,那如何加速破解的過程呢?這裡給出兩個思路

多線程(進程)破解

密碼本如果很多且密碼數量龐大時,我們可以採用多線程(進程)的方式讀取密碼,一個進程讀一個密碼本,一個線程分段讀密碼。當然,如果是在 python 中,建議不要採用多線程,因為 python 中的線程就是雞肋,有興趣的可以閱讀相關資料。

利用 GPU 加速

我們以上的代碼都是運行在 CPU 上的,即使開啟多線程(進程)也只是利用到 CPU 的資源,但如果想要加速破解過程,我們其實還可以利用閑置的 GPU 資源。

在介紹為什麼可以利用 GPU 加速前,我們需要明確一個觀點,兩者都為了完成計算任務而設計。

那為什麼會想到使用 GPU 加速呢?這是就要說到兩者的不同了:CPU 雖然有多核,但總數沒有超過兩位數,並且每個核的運算能力極其強大。而 GPU 的核數遠超 CPU,但每個核的運算能力與 CPU 的核相比就相差甚遠了。

我們可以簡單的舉個例子,解一道題,CPU 就是博士生,GPU 就是小學生,CPU 負責理解題目並且整理出解題的步驟以及解法,而 GPU 負責其中很簡單但是數量又很大的簡單運算就行了。

因此理論上在破解密碼的過程中,我們完全可以使用 GPU 來加速這一過程。

事實上,這樣的工具也已經出現了,Hashcat 便是最出名的一個,它號稱是世界上最快的密碼恢復工具,可以基於 CPU/GPU 工作。有興趣的可以訪問他的官網https://hashcat.net/hashcat/進行了解。