用python記錄運行pid,並在需要時
- 2020 年 1 月 8 日
- 筆記
我在跑爬蟲程序的時候,由於爬蟲程序的等待目標服務器返回數據的時間很長,而cpu佔用很低,所以經常掛着代理一跑就跑好幾百個。但是爬蟲程序通常是寫了死循環,或直到分配給該進程的任務都跑完才退出的。如果我們想中途結束掉這些任務,是沒辦法手工一個一個kill掉的。那麼該如何結束這些進程呢?
我的方法就是在運行爬蟲進程時,記錄該進程的Pid,然後在需要手動結束時,再用語句kill掉它們。
for i in {1..100} do nohup python NetEase_comms_proxy.py > hehe.dat 2>&1 & echo $! >> run.pid sleep 10 done
上述語句完成了將腳本在後台運行100便,並且將pid append到run.pid文件中。其中nohup 是 no hang up的縮寫命令。do…done之間是被循環的語句。
接下來就是kill掉它們的語句了,我用的python
import os if __name__ == '__main__': fin = open('run.pid', 'r') pids = [] for line in fin: pids.append(line.strip()) for pid in pids: cmd = 'kill ' + pid os.system(cmd)
這樣就把記錄下來的pid全部kill掉了。 但需要注意的一點時,如果在任務運行期間,有的進程由於完成任務或者出錯而退出。其他的程序可能會share這些進程的Pid,這樣如果在運行kill腳本的時候,可能附帶就把這些進程也給Kill掉了,造成不必要的麻煩。