用python記錄運行pid,並在需要時

  我在跑爬蟲程序的時候,由於爬蟲程序的等待目標服務器返回數據的時間很長,而cpu佔用很低,所以經常掛着代理一跑就跑好幾百個。但是爬蟲程序通常是寫了死循環,或直到分配給該進程的任務都跑完才退出的。如果我們想中途結束掉這些任務,是沒辦法手工一個一個kill掉的。那麼該如何結束這些進程呢?

  我的方法就是在運行爬蟲進程時,記錄該進程的Pid,然後在需要手動結束時,再用語句kill掉它們。

for i in {1..100}  do      nohup python NetEase_comms_proxy.py > hehe.dat 2>&1 & echo $! >> run.pid      sleep 10  done

上述語句完成了將腳本在後台運行100便,並且將pid append到run.pid文件中。其中nohup 是 no hang up的縮寫命令。do…done之間是被循環的語句。

  接下來就是kill掉它們的語句了,我用的python

import os    if __name__ == '__main__':      fin = open('run.pid', 'r')      pids = []      for line in fin:          pids.append(line.strip())      for pid in pids:          cmd = 'kill ' + pid          os.system(cmd)

這樣就把記錄下來的pid全部kill掉了。 但需要注意的一點時,如果在任務運行期間,有的進程由於完成任務或者出錯而退出。其他的程序可能會share這些進程的Pid,這樣如果在運行kill腳本的時候,可能附帶就把這些進程也給Kill掉了,造成不必要的麻煩。