­

用Python分析我國高等教育分佈的不均衡

  • 2019 年 10 月 10 日
  • 筆記

當前正值開學季,各個心懷夢想的學子們都邁入了自己理想中的大學。只是當我們站在象牙塔前,再回首凝望高中生活,一路走來,是不是會感慨萬千呢。都說高考是普通大眾改變命運的最好的階梯,那麼大學就是培養能力,形成品格的試驗田,而通向這塊田地的之路卻並不平坦。尤其是一些高考大省的小夥伴兒們,是經歷了怎樣的拼搏,才一路拼殺過來的呢。

這裡就涉及到了各個省份的招生標準和各省的高校資源情況了,畢竟每個省的高校,在本省的招生數量既多,要求又低(差不多是這樣…)。

都說高考其實是相對公平的選拔,那麼今天我們就用數據來說話,看看全國的教育資源,高校分佈到底是怎樣,哪裡的小夥伴相對來說,更容易踏入大學的校門呢。

數據獲取

這裡我選擇的是「高考網」作為我數據的來源

http://college.gaokao.com/schlist/p1 網站很簡單,也沒有任何的反爬機制,直接分析頁面,獲取並保存數據就可以了 這裡直接給出代碼,不關心數據獲取過程的小夥伴兒可以跳過此部分

import requests  from bs4 import BeautifulSoup  import os  import time      def get_data():      for i in range(1, 108):          print("正在下載第%s頁數據" % i)          url = 'http://college.gaokao.com/schlist/p%s' % i          res = requests.get(url).text          content = BeautifulSoup(res, "html.parser")          college_list = content.find('div', attrs={'class': 'scores_List'}).find_all('dl')          items = map(parse_item, college_list)          save_to_csv(items)          time.sleep(1)      def parse_item(item):      college_name = item.find('strong')['title']      college_attr = item.find_all('li')      college_site = college_attr[0].text[6:]      college_title = college_attr[1].text[5:]      college_type = college_attr[2].text[5:]      college_belong = college_attr[3].text[5:]      college_nature = college_attr[4].text[5:]      college_website = college_attr[5].text[5:]      result = {          'college_name': college_name,          'college_site': college_site,          'college_title': college_title,          'college_type': college_type,          'college_belong': college_belong,          'college_nature': college_nature,          'college_website': college_website      }      return result      def save_to_csv(data):      if not os.path.exists(r'college_data.csv'):          with open('college_data.csv', 'a+', encoding='utf-8') as f:              f.write('name,site,title,type,belong,nature,websiten')              for d in data:                  try:                      row = '{},{},{},{},{},{},{}'.format(d['college_name'],                                                          d['college_site'],                                                          d['college_title'],                                                          d['college_type'],                                                          d['college_belong'],                                                          d['college_nature'],                                                          d['college_website'])                      f.write(row)                      f.write('n')                  except:                      continue      else:          with open('college_data.csv', 'a+', encoding='utf-8') as f:              for d in data:                  try:                      row = '{},{},{},{},{},{},{}'.format(d['college_name'],                                                          d['college_site'],                                                          d['college_title'],                                                          d['college_type'],                                                          d['college_belong'],                                                          d['college_nature'],                                                          d['college_website'])                      f.write(row)                      f.write('n')                  except:                      continue    if __name__ == '__main__':      get_data()  

我們來看下最後拿到的數據

數據還是比較整齊的,下面就進入到數據分析階段

高校總數量排行

先不考慮高校質量、級別等因素,單單從高校數量方面來看下各個省份的排名情況

排行榜

總體排名

高校數量前十

高校數量後十

能夠看到,高校數量靠前的省份為江蘇、山東、湖北、廣東,這些可都是高考大省,同時高校數量也是非常多的。而更加著名的高考大省河南河北,同樣也有着不錯的高校數量,看來這些省份雖然考生多,但是要想考上本省的一個大學,還是比較有優勢的。 但是對於貴州、內蒙、青海,西藏等地區的考生來說,高考考出省,也許會是個不錯的選擇哦。

全國高校熱力圖

我們再通過一張熱力圖來看看全國大學的分佈情況

不出意外,京畿重地、東南沿海加湖廣地區、東北工業區、珠江三角洲和巴蜀地區,是大學比較幾種的地區,同時也是我國經濟比較發達且人口比較密集的區域,幾者之間還是有着千絲萬縷的聯繫的。

地區高校數量段位

在這個圖表中,山東和江蘇是獨一檔的存在,東南沿海其他城市幾歲其後,不過大西北還是需要繼續發展啊,基本是在倒數第一和第二擋位。

高校質量排行

前面的高校數量分析,並沒有考慮高校的質量,即該省份擁有985,211高校的數量。現在就來分析下從高質量高校層面分析,哪些省份又排名靠前呢

高質量高校數量排行

985高校排行

毫無疑問,北京位居第一,其擁有的985高校是其他地區所不能比擬的。緊隨其後的是上海,國際化的金融中心,也需要眾多高等院校來襯托。山東也不錯,位居第三。而前面榜單上的頭名江蘇則表現不佳,只擁有兩所985院校,看來江蘇的高校數量多,但是超級名牌大學卻不是很多啊。 那麼江蘇的小夥伴兒,你們的高考困難嗎?

211高校排行

擁有211院校的省份相對來說就比較多了,不過還是北京擁有的最多,誰讓人家是帝都呢。上海依然位居次席,地位穩穩的,配得上自己的身價。

985211高校綜合

我們再把擁有985和211高校的省份綜合起來看

北京,上海,江蘇,高質量高校三巨頭出現了,就是它們。那麼,這些省份的考生們,考名牌大學的困難程度是不是要比其他地區低一些呢,我沒經歷過,我沒發言權,哈哈哈哈。

高質量高校熱力分佈圖

京津和長三角地區優勢明顯,妥妥的高質量院校聚集地。

各地區高質量高校佔比

北京高質量高校佔比

北京一個省份,佔有率高達19%,絕對的全國教育中心,人才聚集地。

高質量高校三巨頭佔比

三巨頭也不遑多讓,高達37%的佔比,真真是羨煞其他地區了。

佔比前十城市高質量高校佔比

這個比例,拿走了絕大部分的教育資源,其他地區,沒得玩了。

你所在的省份,有優勢嗎?

高校類別及屬性分佈

最後,我們再來看看,各種類型及不同屬性的高校分佈情況

工科和綜合性大學是最多的,這應該是和報考人數以及社會需求息息相關的。

全國的高職專科所佔比例接近50%,看來這種定向培養專業人才的高校還是有其生存之道的,當然,佔有32%的本科院校,依然是廣大學子的首選院校。

不知道看了上面的分析,你想要報考哪種院校呢?

所有的代碼都上傳到 GitHub 上了,需要的自提

https://github.com/zhouwei713/data_analysis/tree/master/college