用Python在工作中「偷懶」

2019 年 11 月 14 日
筆記

作者：吳小鵬

來源：數據札記館

「偷懶還能幹完活，才是本事。」

帥張發了一篇《工作要學會偷懶》，深感贊同。

有些事情既然定期都要處理，就沒有更好的處理方式？能自動化么？工作要學會偷懶，尤其對於一些大量重複的工作，第一感覺就要想到如何偷懶。怎麼偷懶呢？做一點簡單的編程工作就可以了。

我總結了一些在工作中非常常見的例子，將源碼整理好供參考。

這類工作大部分是重複性工作，但佔據了你比較多的時間，有時候用蠻力做的事情，可以有更省時省力的辦法。

作為一名優秀的社會主義接班人，肯定都會有將工作任務自動化的意識，於是我去了解了一下身邊不同崗位（HR、產品、運營、市場、數據分析師等）每天需要面對的重複性勞動（肯定會有不全，各位大佬不要噴我~）

今天我來分享一下在工作是實際會遇到的情況，其實我們不用吭哧吭哧地埋頭干表格，也不用拚死平活地理數據，更不用機械式地點擊各個啟動和確認按鈕，掌握一些自動化程式會讓你的工作更加高效。

那麼如何將這些統統實現呢？

我將這些分為以下幾類，大家可以自行評估，各取所需：

如果你喜歡的話，點個在看讓更多的人看到~

系統錄入自動化

由於你經常需要不斷的將一些資訊錄入系統，每一次錄入的過程中你可能需要不斷的點擊一些按鈕，面對這種情況，完全可以寫一個自動腳本，每次代替你來執行這些點擊的行為。

這裡我們需要用到splinter：

pip install splinter

這裡寫了一個自動登錄郵箱的腳本，可以實現文本輸入和網頁點擊：

#coding=utf-8  import time  from splinter import Browser    def splinter(url):      browser = Browser()      #login 126 email websize      browser.visit(url)      #wait web element loading      time.sleep(5)      #fill in account and password      browser.find_by_id('idInput').fill('xxxxxx')      browser.find_by_id('pwdInput').fill('xxxxx')      #click the button of login      browser.find_by_id('loginBtn').click()      time.sleep(8)      #close the window of brower      browser.quit()    if __name__ == '__main__':      websize = 'https://mail.163.com/'      splinter(websize)

同理可以寫一個簡單的遊戲掛機腳本，遊戲掛機腳本，無非就是自動移動滑鼠，自動點擊，進行重複操作，所以，第一步就是如何控制滑鼠。

import win32api  import time  def move_click(x, y, t=0):  # 移動滑鼠並點擊左鍵      win32api.SetCursorPos((x, y))  # 設置滑鼠位置(x, y)      win32api.mouse_event(win32con.MOUSEEVENTF_LEFTDOWN |                           win32con.MOUSEEVENTF_LEFTUP, x, y, 0, 0)  # 點擊滑鼠左鍵      if t == 0:          time.sleep(random.random()*2+1)  # sleep一下      else:          time.sleep(t)      return 0  # 測試  move_click(30, 30)    def resolution():  # 獲取螢幕解析度      return win32api.GetSystemMetrics(0), win32api.GetSystemMetrics(1)

值得注意的是，一定要在管理員許可權下的cmd中運行，否則點擊無效。

這個時候，你已經可以寫個循環，不停地點擊螢幕上不同的幾個點，最基礎的掛機腳本就實現了。

不是在犯罪的道路上越走越遠，就是在成長的道路上越走越遠

更高級的遊戲外掛：

https://github.com/JamesRaynor67/jump

Excel自動化處理

Excel合併

在實際應用中可能會有不同月份的數據或者不同周的報告等等的Excel數據，都是單個獨立的文件，如果想要整體使用的話就需要合併一下，那麼如何利用python把指定目錄下的所有Excel數據合併成一個文件呢？

思路：利用python xlrd包讀取excle文件，然後將文件內容存入一個列表中，再利用xlsxwriter將內容寫入到一個新的excel文件中。

# -*- coding: utf-8 -*-    #將多個Excel文件合併成一個  import xlrd  import xlsxwriter    #獲取excel中所有的sheet表  def getsheet(fh):      return fh.sheets()    #獲取sheet表的行數  def getnrows(fh,sheet):      table=fh.sheets()[sheet]      return table.nrows    #讀取文件內容並返回行內容  def getFilect(file,shnum):      fh=open_xls(file)      table=fh.sheets()[shnum]      num=table.nrows      for row in range(num):          rdata=table.row_values(row)          datavalue.append(rdata)      return datavalue

或者直接用concat+一個循環來實現：

for i in var_list:      df_0 = data[['var_1','var_2','var_3','var_4',i]][data[i]=='資訊']      df_0['month'] = date_replace(i)      df_0 = df_0[['var_1','var_2','var_3','var_4','var_5']]      li.append(df_0)    writer = pd.ExcelWriter(r'C:Usersmapping.xlsx')  df = pd.concat(li)  df.to_excel(writer,'Sheet1',index=False,header = None)  df

Excel中添加數據圖表

整理好excel文件後下一步需要做的是處理文件里的數據，根據數據來生成一些自己需要的圖表：

import xlsxwriter    #設置一個例子  data = [20, 45, 26, 18, 45]    #創建表格  workbook = xlsxwriter.Workbook("temp.xlsx")  worksheet = workbook.add_worksheet("data")    #添加數據  worksheet.write_column('A1', data)    #創建圖表  chart = workbook.add_chart({'type': 'line'})    #圖表添加數據  chart.add_series({          'values': '=data!$A1:$A6',          'name': '圖表名稱',          'marker': {                  'type': 'circle',                  'size': 8,                  'border': {'color': 'black'},                  'fill': {'color': 'red'}                  } ,          'data_labels': {'values': True},          'trendline': {                  'type': 'polynomial',                  'order': 2,                  'name': '趨勢線',                  'forward': 0.5,                  'backward': 0.5,                  'display_equation':True,                  'line': {'color': 'red', 'width':1, 'dash_type': 'long_dash'}                  }  })    worksheet.insert_chart('c1', chart)  workbook.close()

實現效果：

這部分圖文來自網路，侵刪。

word關鍵資訊提取

假設你收到1萬份簡歷，你想先根據學校做一些篩選，這時候利用python將大量的簡歷進行資訊匯總，只提取關鍵資訊用excel查看起來更加方便。

docx文件自己本身是壓縮文件，打開壓縮包之後竟然發現裡面有個專門存儲word裡面文本的文件。

那麼步驟就變得簡單了：

1. 打開docx的壓縮包

2. 獲取word裡面的正文資訊

3. 利用正則表達式匹配出我們想要的資訊

4. 將資訊存儲到txt中（txt可以用excel打開）

5. 批量調用上述過程，完成一萬份簡歷的提取工作

利用正則匹配獲取關鍵資訊：

import re  def get_field_value(text):      value_list = []      m = re.findall(r"姓 名(.*?)性    別", table)      value_list.append(m)      m = re.findall(r"性    別(.*?)學    歷", table)      value_list.append(m)      m = re.findall(r"民 族(.*?)健康狀況", table)      value_list.append(m)      '''      此處省略其他欄位匹配      '''      return value_list

後台回復簡歷獲取完整程式碼，參考資料：

https://blog.csdn.net/geoker/article/details/80149463

自動化運營監控

在平時的工作中，一定會有對運營情況的監控，假設你管理一家店鋪，那麼一些關鍵指標肯定是你需要每天查看到的，比如店鋪訪問數，商品瀏覽數，下單數等等，這個時候不用每天重複地去統計這些數據，這需要寫一個自動化程式，每天將數據保存在固定的文件夾下就可以實現報表的實時監控。

如果你的數據來源是線下文件：

那麼可以利用python操作線下文件將其載入資料庫

然後通過資料庫對數據進行處理

再利用python輸出結果

from impala.dbapi import connect  from impala.util import as_pandas  import datetime    conn = connect(host='host',port=21050,auth_mechanism='PLAIN',user='user',password='password')  #host：資料庫域名  #user：資料庫用戶名  #password：資料庫密碼  df_data = pd.read_excel('temp.xlsx')    rows =[]  for index, row in df_data.iterrows():      rows.append('('+'"'+str(row['case_id']).replace('nan','null')+'"'+','+'"'+str(row['birth_date'])+'"'+')'+',')      a= '''      INSERT into table      (case_id, birth_date)      values '''  for i in rows:      a += i  a = a[:-1]    cursor1 = conn.cursor()  cursor1.execute(a)  cursor1.close()  conn.close()  print('成功導入數據至資料庫...')  del a  del rows

如果你的數據來源是線上文件（存在資料庫）

那可以直接利用python鏈接資料庫進行一些列的操作

然後導出你所需要的結果

import sql   #sql是封裝的sql文件  sql_end = sql.sql_end  cursor1 = conn.cursor()  for i in sql_end.split(';'):      print(i)      cursor1.execute(i)  cursor1.close()  conn.close()  print('程式運行結束，請執行下一步。')

python連接資料庫：

https://blog.csdn.net/weixin_42213622/article/details/86523400

自動發送郵件

使用Python實現自動化郵件發送，可以讓你擺脫繁瑣的重複性業務，節省非常多的時間。

數據分析師經常會遇到一些取數需求，有些數據需求是每天都需要的，有些數據需求是每周一次的。對於這些周期性的數據需求，每次都重複性地手動導出這些數據，並回傳給需求方，是很繁瑣且浪費時間的。所以完全可以設置自動郵件來解決。

"Talk is cheap, show you the code"

常見的郵件肯定有三部分：

1、正文

2、圖片

3、附件

導入我們需要用到的包

from email.mime.text import MIMEText  from email.mime.multipart import MIMEMultipart  from email.mime.image import MIMEImage  import smtplib    msg = MIMEMultipart()

在郵件中插入正文：

##在郵件中插入文本資訊  df_text='''<html>                    <body>                    <p>   Hi all ，</p>                    <p>   這是一個測試郵件，詳情請參考附件 </p>                    <p>   情況如下圖： </p>                   </body></html>'''  msgtext = MIMEText(df_text, 'html', 'utf-8')  msg.attach(msgtext)

如果你需要插入圖片，利用同樣的方法，在郵件中插入圖片：

##在郵件中插入圖片資訊  image = open('temp.jpg','rb')  msgimage = MIMEImage(image.read())  msg.attach(msgimage)

在郵件中插入附件：

##在郵件添加附件  msgfile = MIMEText(open('temp.xlsx', 'rb').read(), 'base64', 'utf-8')  msgfile["Content-Disposition"] = 'attachment; filename="temp.xlsx"'  msg.attach(msgfile)

剩下的就是設置一些郵件參數來發送郵件：

#設置郵件資訊常量  email_host= ''  # 伺服器地址  sender = '' # 發件人  password ='' # 密碼，如果是授權碼就填授權碼  receiver = '' # 收件人

發送郵件：

try:      smtp = smtplib.SMTP(host=email_host)      smtp.connect(email_host)      smtp.starttls()      smtp.login(sender, password)      smtp.sendmail(sender, receiver.split(',') , msg.as_string())      smtp.quit()      print('發送成功')  except Exception:       print('發送失敗')

然後將你的任務設置定時執行就可以輕鬆實現啦

實現效果：

平時的工作中，真的有太多可以去自動化的任務，由於經驗受限這裡不能一一舉例說明，只能盡量分享一些我遇到過或者聽說過的例子。

希望大家都越來越高效，邊偷懶邊完成工作~

大家如果有特別想要了解或者實現的功能，在文末留言或者私信，我可以針對一個點寫得更詳細，將完整實現方式分享給大家。

留言打卡第二季 DAY 50

今日的留言話題是聊聊你在工作或者學習中一些「偷懶」的技巧，關於留言打卡的規則可以參考數據森麟公眾號留言打卡第二季開啟！，請按照昵稱+天數（請以自己實際打卡的天數為準，如day1 or day2 or day3）+ 留言內容（不少於15字）的方式留言，超過50天的朋友可以坐等獎品了，不夠的後面還會有幾次機會哈

用Python在工作中「偷懶」

VirMach 便宜 VPS

QNews

用Python在工作中「偷懶」

分享此文：

Related Posts

聊聊性能測試中的基準測試

關於kaggle註冊無法顯示人機驗證碼問題

ImageNet識別率一次提高1%：GoogleAI新突破引Jeff Dean點贊

【AutoML】如何使用強化學習進行模型剪枝？

VirMach 便宜 VPS

QNews

熱門搜尋