用Python分析我國高等教育分佈的不均衡
- 2019 年 10 月 10 日
- 筆記
當前正值開學季,各個心懷夢想的學子們都邁入了自己理想中的大學。只是當我們站在象牙塔前,再回首凝望高中生活,一路走來,是不是會感慨萬千呢。都說高考是普通大眾改變命運的最好的階梯,那麼大學就是培養能力,形成品格的試驗田,而通向這塊田地的之路卻並不平坦。尤其是一些高考大省的小夥伴兒們,是經歷了怎樣的拼搏,才一路拼殺過來的呢。
這裡就涉及到了各個省份的招生標準和各省的高校資源情況了,畢竟每個省的高校,在本省的招生數量既多,要求又低(差不多是這樣…)。
都說高考其實是相對公平的選拔,那麼今天我們就用數據來說話,看看全國的教育資源,高校分佈到底是怎樣,哪裡的小夥伴相對來說,更容易踏入大學的校門呢。
數據獲取
這裡我選擇的是「高考網」作為我數據的來源
http://college.gaokao.com/schlist/p1 網站很簡單,也沒有任何的反爬機制,直接分析頁面,獲取並保存數據就可以了 這裡直接給出代碼,不關心數據獲取過程的小夥伴兒可以跳過此部分
import requests from bs4 import BeautifulSoup import os import time def get_data(): for i in range(1, 108): print("正在下載第%s頁數據" % i) url = 'http://college.gaokao.com/schlist/p%s' % i res = requests.get(url).text content = BeautifulSoup(res, "html.parser") college_list = content.find('div', attrs={'class': 'scores_List'}).find_all('dl') items = map(parse_item, college_list) save_to_csv(items) time.sleep(1) def parse_item(item): college_name = item.find('strong')['title'] college_attr = item.find_all('li') college_site = college_attr[0].text[6:] college_title = college_attr[1].text[5:] college_type = college_attr[2].text[5:] college_belong = college_attr[3].text[5:] college_nature = college_attr[4].text[5:] college_website = college_attr[5].text[5:] result = { 'college_name': college_name, 'college_site': college_site, 'college_title': college_title, 'college_type': college_type, 'college_belong': college_belong, 'college_nature': college_nature, 'college_website': college_website } return result def save_to_csv(data): if not os.path.exists(r'college_data.csv'): with open('college_data.csv', 'a+', encoding='utf-8') as f: f.write('name,site,title,type,belong,nature,websiten') for d in data: try: row = '{},{},{},{},{},{},{}'.format(d['college_name'], d['college_site'], d['college_title'], d['college_type'], d['college_belong'], d['college_nature'], d['college_website']) f.write(row) f.write('n') except: continue else: with open('college_data.csv', 'a+', encoding='utf-8') as f: for d in data: try: row = '{},{},{},{},{},{},{}'.format(d['college_name'], d['college_site'], d['college_title'], d['college_type'], d['college_belong'], d['college_nature'], d['college_website']) f.write(row) f.write('n') except: continue if __name__ == '__main__': get_data()
我們來看下最後拿到的數據

數據還是比較整齊的,下面就進入到數據分析階段
高校總數量排行
先不考慮高校質量、級別等因素,單單從高校數量方面來看下各個省份的排名情況
排行榜
總體排名

高校數量前十

高校數量後十

能夠看到,高校數量靠前的省份為江蘇、山東、湖北、廣東,這些可都是高考大省,同時高校數量也是非常多的。而更加著名的高考大省河南河北,同樣也有着不錯的高校數量,看來這些省份雖然考生多,但是要想考上本省的一個大學,還是比較有優勢的。 但是對於貴州、內蒙、青海,西藏等地區的考生來說,高考考出省,也許會是個不錯的選擇哦。
全國高校熱力圖
我們再通過一張熱力圖來看看全國大學的分佈情況

不出意外,京畿重地、東南沿海加湖廣地區、東北工業區、珠江三角洲和巴蜀地區,是大學比較幾種的地區,同時也是我國經濟比較發達且人口比較密集的區域,幾者之間還是有着千絲萬縷的聯繫的。
地區高校數量段位

在這個圖表中,山東和江蘇是獨一檔的存在,東南沿海其他城市幾歲其後,不過大西北還是需要繼續發展啊,基本是在倒數第一和第二擋位。
高校質量排行
前面的高校數量分析,並沒有考慮高校的質量,即該省份擁有985,211高校的數量。現在就來分析下從高質量高校層面分析,哪些省份又排名靠前呢
高質量高校數量排行
985高校排行

毫無疑問,北京位居第一,其擁有的985高校是其他地區所不能比擬的。緊隨其後的是上海,國際化的金融中心,也需要眾多高等院校來襯托。山東也不錯,位居第三。而前面榜單上的頭名江蘇則表現不佳,只擁有兩所985院校,看來江蘇的高校數量多,但是超級名牌大學卻不是很多啊。 那麼江蘇的小夥伴兒,你們的高考困難嗎?
211高校排行

擁有211院校的省份相對來說就比較多了,不過還是北京擁有的最多,誰讓人家是帝都呢。上海依然位居次席,地位穩穩的,配得上自己的身價。
985211高校綜合
我們再把擁有985和211高校的省份綜合起來看

北京,上海,江蘇,高質量高校三巨頭出現了,就是它們。那麼,這些省份的考生們,考名牌大學的困難程度是不是要比其他地區低一些呢,我沒經歷過,我沒發言權,哈哈哈哈。
高質量高校熱力分佈圖

京津和長三角地區優勢明顯,妥妥的高質量院校聚集地。
各地區高質量高校佔比
北京高質量高校佔比

北京一個省份,佔有率高達19%,絕對的全國教育中心,人才聚集地。
高質量高校三巨頭佔比

三巨頭也不遑多讓,高達37%的佔比,真真是羨煞其他地區了。
佔比前十城市高質量高校佔比

這個比例,拿走了絕大部分的教育資源,其他地區,沒得玩了。
你所在的省份,有優勢嗎?
高校類別及屬性分佈
最後,我們再來看看,各種類型及不同屬性的高校分佈情況

工科和綜合性大學是最多的,這應該是和報考人數以及社會需求息息相關的。

全國的高職專科所佔比例接近50%,看來這種定向培養專業人才的高校還是有其生存之道的,當然,佔有32%的本科院校,依然是廣大學子的首選院校。
不知道看了上面的分析,你想要報考哪種院校呢?
所有的代碼都上傳到 GitHub 上了,需要的自提
https://github.com/zhouwei713/data_analysis/tree/master/college