SAS作圖問題概述3
- 2020 年 1 月 10 日
- 筆記
未分組數據-直方圖
數值型數據表現為數字,在整理時通常進行數據分組。分組是根據統計研究的需要,將數據按照某種標準分成不同的組別。直方圖是用矩形的寬度和高度來表示頻數分布的圖形。用橫軸表示數據分組,縱軸表示頻數或頻率。 例9 某地1993年抽樣調查了110名18歲男大學生的身高(cm)資料。現在關注的指標是身高的分布。 SAS程式:
引用: |
---|
data height; input height@@; cards; …… ; proc capability ; histogram height / cfill=gray; run; |
未分組數據-莖葉圖 對於未分組的原始數據,我們可以用莖葉圖來顯示其分布的特徵。莖葉圖由「莖」和「葉」兩部分構成,其圖形是由數字組成的。通過莖葉圖,可以看出數據的分布形狀及數據的離散狀況,比如分布是否對稱,數據是否集中,是否有極端值等。 例10 將20名鉤端螺旋體病人的血清隨機分為兩組,分別用標準株和水生株做凝溶試驗,測得稀釋倍數如下: 標準株:100 200 400 400 400 400 800 1600 1600 1600 3200 水生株:100 100 100 200 200 200 200 400 400 用莖葉圖初步考察標準株的分布。 SAS程式:
引用: |
---|
data beishu; input beishu@@; cards; 100 200 400 400 400 400 800 1600 1600 1600 3200 ; proc univariate plot; var beishu; run; |
未分組數據-箱線圖 箱線圖是由一組數據的5個特徵值繪製而成的,它由一個箱子和兩條線段組成。5個特徵值依次是最大值、上四分位數、中位數、下四分位數和最小值。通過箱線圖,可以反映出數據分布的特徵。 箱線圖一般有單批數據箱線圖和多批數據箱線圖兩種。 1) 單批數據箱線圖 例11 同例10數據,用箱線圖初步考察標準株的分布。 SAS程式:
引用: |
---|
data beishu; input beishu@@; datalines; 100 200 400 400 400 400 800 1600 1600 1600 3200 ; proc univariate plot; var beishu; run; |
2) 多批數據箱線圖 對於多批數據,我們可以將各批數據的箱線圖並列起來,從而進行分布特徵的比較。 例12 同例10數據,用多批數據箱線圖初步比較標準株、水生株的的分布。 SAS程式:
引用: |
---|
data beishu; input type$ beishu@@; cards; A 100 A 200 A 400 A 400 A 400 A 400 A 800 A 1600 A 1600 A 1600 A 3200 B 100 B 100 B 100 B 200 B 200 B 200 B 200 B 400 B 400 ; proc format; value $tt A='標準株' B='水生株'; proc boxplot; plot beishu*type; format type $tt.; run; |
未分組數據-散點圖 表示兩種事物變數的相關性和趨勢。醫學上常用於觀察兩種生理指標之間的動態變化關係,或臨床上兩項檢測結果之間的量變關係。 例13 某地抽樣調查了31名18歲男大學生的體重(kg)和肺活量資料。現在關注的指標是體重和肺活量之間的相關性。 SAS程式:
引用: |
---|
data wo; input weight oxygen@@; cards; …… ; proc gplot; plot weight*oxygen; run; |
時間序列數據-間隔圖形 當觀測按日期或時間排列時,數據就構成時間序列數據。我們一般採用「Timeplot」過程對一個或幾個變數繪製時間間隔的散點圖。間隔圖形的類型一般有單個變數的間隔圖形和多個變數的間隔圖形兩種。 1) 單個變數的間隔圖形 例14 現有1940-1974年間美國和全世界的肺癌死亡率數據[2]: 1940 1950 1960 1965 1970 1972 1973 1974 美國 12.6 10.0 14.2 15.0 10.2 13.7 13.0 11.5 世界 31.2 30.6 46.2 55.0 53.6 62.9 63.3 64.3 用間隔圖形初步考察美國的死亡率分布。 SAS程式:
引用: |
---|
data cancer; input year us@@; cards; 1940 12.6 1950 10.0 1960 14.2 1965 15.0 1970 10.2 1972 13.7 1973 13.0 1974 11.5 ; proc sort; by year; proc timeplot; plot us; id year; run; |
2) 多個變數的間隔圖形 例15 同例15數據,用間隔圖形初步比較美國和世界的死亡率分布。 SAS程式:
引用: |
---|
data cancer; input year us world@@; cards; 1940 12.6 31.2 1950 10.0 30.6 1960 14.2 46.2 1965 15.0 55.0 1970 10.2 53.6 1972 13.7 62.9 1973 13.0 63.3 1974 11.5 64.3 ; proc sort; by year; proc timeplot; plot us world/overlay; id year; run; |
地域性數據-統計地圖 利用SAS的GMAP可以在地圖上製作二維或三維的統計圖,直觀地顯示地區性的 差異。 例16 繪製截至2003年6月1日SARS確證病例各省分布圖。
引用: |
---|
data sars; input id idnumber $ ill@@; cards; 2 beijing 2521 9 heibei 215 22 shanxi 450 19 neimenggu 284 18 liaoning 6 24 shanghai 8 26 sichuan 19 13 hubei 7 6 guanxi 22 28 tianjin 175 17 jilin 35 5 guangdong 1511 15 jiangsu 7 4 gansu 8 1 anhui 10 25 shanxi 12 32 zhejiang 4 11 henan 15 16 jiangxi 1 20 ningxia 5 23 shandong 1 3 fujian 3 14 hunan 6 10 heilongjiang 0 29 xinjiang 0 31 yunnan 0 30 xizang 0 21 qinghai 0 7 guizhou 0 8 hainan 0 ; proc sort; by id; proc sort data=maps.china2 out=maps; by id; data both; merge maps sars; by id; proc gmap data=both; id _map_geometry_; block ill /midpoints=0 to 2600 by 500; run; |
綜上所述,雖然統計軟體SAS能夠幫助我們繪製各種類型的統計圖,但是不同類型的統計圖是不能混用的,必須遵守一定的原則和要求,所以我們在作圖前要搞清楚數據類型、所適用的統計圖,然後再運用相應的SAS程式作圖。