796-中級社會統計.ppt_三一文库31doc.com

资源描述

《796-中級社會統計.ppt》由会员分享，可在线阅读，更多相关《796-中級社會統計.ppt（69页珍藏版）》请在三一文库上搜索。

1、Ming-chi Chen,社會統計,Page.1,中級社會統計,第十五講二元依變項的迴歸分析：分對數模型（logit model or logistic model）,OLS無法處理的變數,是否做慈善捐款？是否投票？家庭子女數是否尋求民俗醫療？什麼國家會有民主體制中國廣東省一年抗議事件發生次數他們有的是二元依變項，回答有是/非兩種可能，有的則是從0到某個有限整數的次數。有的則是有順序的質性變數統稱為受限的依變數Limited dependent variable, limdep,Ming-chi Chen,社會統計,Page.2,Ming-chi Chen,社會統計,Pag

2、e.3,廣義線性模型GLM,我們之前所討論的線性迴歸模型（linear regression model，就是我們用OLS來求解的迴歸模型）其實屬於一個更大的統計模型家族，這就是廣義線性模型generalized linear model, GLM 之前的線性迴歸模型方法只能處理連續的DV，而且有很多限制（homoscedasticity, 殘差與IV不相關等） GLM則可以處理DV不符合變異數齊一性假設或變異數常態分配的連續變數、處理間斷性DV。這些DV有時候也被稱為類別categorical或受限limited依變項可以參照鄭旭智等譯、J. Scott Long原著，類別與受限依變項的

3、迴歸統計模式。（台北：弘智1997）底下的討論主要基於Agresti的Statistical Methods for the Social Sciences, 3rd ed.,GLM的構成,g(x)= +1X1+2X2+kXk 所有的GLM都有三個部分隨機部分random component：對DV做其機率分佈的假設，在線性迴歸模型中我們假設為常態分配。系統部分systematic component：自變項連結函數link function：指定依變項Y的期望值（或稱均數）是如何可以線性地被自變項預測的函數。,Ming-chi Chen,社會統計,Page.4,隨機部分,指定依變項Y

4、以及其機率分配之前我們所討論的，包括ANOVA在內，都預設了 Y是連續變數 Y是一個常態分配，且具有相同的變異數。換句話說，ANOVA和一般線性模型都是有著常態隨機部分的概化線性模型GLMs with normal random component 除此之外，DV也可能是二元變數（成功/失敗）：二項分配binomial，適合分對數logit模型來分析 DV也可能是一個次數count：波耳松分配Poisson distribution DV雖然是連續變數，但只能取正值，分配會右偏，而均數越大變異也越大，是一種gamma distribution,Ming-chi Chen,社會統計,Page

5、.5,系統部分,迴歸方程式等號右邊的部分 +1X1+2X2+kXk,Ming-chi Chen,社會統計,Page.6,連結函數,指定=E(Y)是如何關連到自變數 g()=+1X1+2X2+kXk g()就是連結函數link function 最簡單的連結函數是g()= ，這是一個identity link恆等連結 =+1X1+2X2+kXk OLS,Ming-chi Chen,社會統計,Page.7,常見的連結函數,對數連結log link,g()=ln() 100=102=log10100=2 e3=20.056(e2.718)=ln20.056=3 在社會科學裡，多半時候log其實就是指

6、ln 在這個式子裡，不管g()為正或負，恆為正這是一個對數連結log link，適用於次數DV 用log link的GLM往往被稱為loglinear model,Ming-chi Chen,社會統計,Page.9,分對數連結logit link,對於二元變數，我們往往指定連結函數g()=log(/1- ) 在介於0與1之間時適用當DV為二元變數時，我們可以指定一個事件發生的機率為這種迴歸模型稱為logit model,Ming-chi Chen,社會統計,Page.10,GLM與最大概似法,GLM在兩個面向上概化了OLS 隨機部分可以不是常態分配可以針對依變項做特定的函數 OLS用

7、最小平方法來估算迴歸係數，而GLM用一個不受常態分配假設限制的方法最大概似法maximum likelihood來估算在SAS裡是用proc genmod這個指令 proc genmod y=x / dist=norm link=identity; 在Stata裡是用glm這個指令 glm consum income, family(gamma) link(identity),Ming-chi Chen,社會統計,Page.11,Ming-chi Chen,社會統計,Page.12,收入與消費p.389,在data editor裡自行輸入資料,Ming-chi Chen,社會統計,Page.

8、13,收入與消費p.389,Stata沒有內建White test的功能，有的是另一個檢定Cook-Weisberg。一樣是要先run過迴歸分析。,Ming-chi Chen,社會統計,Page.14,White Test,所以拒絕虛無假設，也等於說變異數不齊一。,Ming-chi Chen,社會統計,Page.15,看圖形判斷,Ming-chi Chen,社會統計,Page.16,看圖形判斷,Ming-chi Chen,社會統計,Page.17,看圖形判斷,X越大殘差值越大,Stata與Gamma GLM,Ming-chi Chen,社會統計,Page.18,Heteroscedastic

9、ity & Gamma GLM,依變項y的標準差並非像常態分配預設一般維持不變，而會隨著均數增大而增大，根據圖形以及White test發現有Heteroscedasticity的問題。設依變項有著Gamma分配的特質 Gamma分配的特質標準差和均數等比例增大縮小（均數倍增標準差也倍增）恆為正、右偏。卡方分配就是一種Gamma分配,二元依變項,誰會做慈善捐款？誰去投票？誰會去尋求民俗醫療？什麼廠商西進大陸什麼國家會有民主體制誰移居到都市/外國？贊成婚前性行為以上都是社會科學關心的問題，他們都是二元依變項。回答有是/非兩種可能,Ming-chi Chen,社會統計,Page

10、.20,二元依變項的分析,依變項Y有兩種結果，用機率的術語來說就是成功/失敗。也就是Y有1或0兩個可能值 =E(Y)=P(y=1)表示成功的機率,Ming-chi Chen,社會統計,Page.21,二元依變項的分析,如何用迴歸方程式來預測成功的機率？用線性機率模型(linear probability model)： = P(y=1) = + X ? 問題何在？在自變項X相當小時，機率 0；而在X很大的時候， 1 但是機率不可能小於0或大於1 而且，自變項的機率分配是一個二項分配binomial distribution，用常態分配假設有其不適之處。怎麼辦？,Ming-chi Che

11、n,社會統計,Page.22,線性機率模型,Ming-chi Chen,社會統計,Page.23,1,0,x,linear,勝算與羅吉斯轉換,可以把依變項做一些適當的轉換 /(1- )稱為勝算odds，是賭徒常用的機率計算方式，就是成功/不成功的比。勝算介於0和之間。這樣的轉換只解決了一部份的問題再把勝算取自然對數log/(1- )，這個過程稱羅吉斯轉換logistic transformation又稱logit。這樣轉換之後， log/(1- )就會介於-和之間了(probit和complementary log-log轉換也有類似的效果),Ming-chi Chen,社會統計,Page

12、.24,Odds勝算,今天下午新竹降雨機率為74，折算成下雨的勝算為？ Odds=0.74/(1-0.74)=2.846 新興民主化國家在政權轉型後一年內發生軍事政變的機率為15，則發生政變的勝算為？ Odds=0.15/(1-0.15)=0.176 勝算這個概念雖然沒有機率來得符合我們的直覺，但應該還不難理解。,Ming-chi Chen,社會統計,Page.25,Odds ratio勝算比,我們也常用勝算比（odds ratio）來表達兩個勝算之間的關係今天下午新竹下雨的機率是74，而苗栗下雨的機率是65。新竹下雨的勝算是2.846，苗栗則是1.444 新竹和苗栗今天下午下雨的勝算比是

13、2.846/1.444=1.971,Ming-chi Chen,社會統計,Page.26,Logistic Regression Model,當從0增加到1時，odds從0增加到，而分對數logit則從- 增加到。當=1/2時，odds=1，而logit=0 當1/2時，logit0 當1/2時，logit0,Ming-chi Chen,社會統計,Page.27,Logistic Regression Model,Ming-chi Chen,社會統計,Page.28,1,0,x,linear,Logistic, 0,Logistic, 0,Logistic Regression Model,

14、當0，X變大，也變大當0，X變大，變小 | |越大，logistic曲線越陡但是在logistic regression model裡，這不是斜率的意思。,Ming-chi Chen,社會統計,Page.29,Logistic曲線的切線斜率,斜率會隨著X不同而不同。如果=0.5，則勝算odds /(1- )=1 log/(1- )=0 0=+X X=-/ 當X=-/， =0.5,Ming-chi Chen,社會統計,Page.30, (1- )是logistic曲線在特定值時的切線斜率若自變項X預測得知=0.5則，在這個X值上切線的斜率是0.25 當=1/2時，切線斜率最大，logit

15、=0，也就是當X=-/ 時。,Stata與logit regression,用88q1的資料我們想要瞭解什麼樣的人會捐錢幫助別人？在Stata裡依變項失敗（沒有捐錢）要以0來表示 gen donation=v54這是為了不動原資料方便轉換 Tab donation看有無異常值 Recode donation (2=0),Ming-chi Chen,社會統計,Page.32,Stata與logit regression,gen h_inc=v47家戶月平均收入用do檔來方便作轉換,Ming-chi Chen,社會統計,Page.33,Stata與logit regression,Ming-

16、chi Chen,社會統計,Page.34,把這個do file個容易記得的地方和名字存起來。,Stata與logit regression,Ming-chi Chen,社會統計,Page.35,找到你放do file的檔案夾執行。,Stata與logit regression,Ming-chi Chen,社會統計,Page.36,亦可用glm donation h_inc, family(binomial) link(logit),State與線性機率模型,前面的係數太小，因為收入是以元為單位，試以萬元作為單位。 gen demi_inc=h_inc/10000 tab demi_inc看分

17、佈狀況,Ming-chi Chen,社會統計,Page.37,以上得出線性機率模型linear probability model,LPM 捐款機率P(y=1)=0.7028+0.008554*以萬元計的家戶月收入,Stata & Logit regression,Ming-chi Chen,社會統計,Page.38,logit regression,Ming-chi Chen,社會統計,Page.39,也就是說，根據logistic迴歸模型的預測，受訪者的家庭月收入10萬元會有79.5的機會捐款。,若某個受訪者的家庭月收入為10萬元，則捐款的機率為,Stata與logit regressio

18、n,Ming-chi Chen,社會統計,Page.40,Stata logistic指令產生的係數不是logistic regression model的係數，而是odds ratio，也就是e，這也可以用計算機取反對數自行計算出來。,詮釋連續自變數的logit迴歸係數,Ming-chi Chen,社會統計,Page.41,針對連續自變數的logit迴歸係數，一般而言我們可以這樣了解，在控制了其他自變數以後，連續自變數X每增加一個單位，一變數Y的勝算增加100（e-1）,詮釋dummy variable logit迴歸係數,先對迴歸係數作反對數轉換，求e 這個數值乘上100就是虛擬變數值為1

19、的和虛擬變數值為0前對後的百分比差距,Ming-chi Chen,社會統計,Page.42,Logit迴歸模型與虛擬變數,以前面的88q1這個資料為例，v1為受訪者性別，1為男，2是女。轉換成虛擬變數dummy variable gen sex=1 replace sex=0 if v1=2 tab sex,Ming-chi Chen,社會統計,Page.43,Logit迴歸模型與虛擬變數,Ming-chi Chen,社會統計,Page.44,男生比女生更傾向不捐款，e-0.1818416=0.8337，也就是說在控制了家庭收入之後，男生捐款的勝算（機會）是女生的83.37%,Stata與虛

20、擬變數：xi指令,宗教與慈善捐款的關係 v49:1“佛教“ 2“道教“ 3“民間信仰“ 4“一貫道“ 5“軒轅教“ 6“回教” 7“天主教“ 8“基督教“ 9“沒有宗教信仰“ 10“其他“ gen relig=. If v49=6 | v49=10 replace relig=1 if v49=1 replace relig=2 if v49=2 | v49=3 | v49=4 | v49=5 replace relig=3 if v49=7 | v49=8 replace relig=4 if v49=9,Ming-chi Chen,社會統計,Page.45,Stata與虛擬變數：xi指令,

21、expand interactions 這個作法是讓Stata自動針對類別自變項產生數個虛擬變數。 xi, prefix(ind) i.relig所有虛擬變數以ind做開頭，以relig的類別來做虛擬變數，產生indrelig_1, indrelig_2, indrelig_3, indrelig_4共四個虛擬變數另一個方法則是讓Stata自己設定虛擬變數 xi i.relig i.relig indrelig_1-4 (naturally coded; indrelig_1 omitted)分數最小的那一組（佛教是1）被當成對照,Ming-chi Chen,社會統計,Page.46,我們可

22、用char religomit4指定relig第四組（無宗教信仰）為對照，虛擬變數組名稱為_I原變數名稱_* 分別tab _Irelig_1、_Irelig_2、和_Irelig_3看是否合乎原來的宗教變數,Stata與虛擬變數：xi指令,Ming-chi Chen,社會統計,Page.48,Ming-chi Chen,社會統計,Page.49,在其他條件皆相等的情況下，佛教徒比無神論者捐款的勝率為289.6；道教/民間信仰比無神論者捐款的勝率為231.26；基督天主教比無神論捐款的勝率為233.07,logistic regression model的統計推論,多半的統計軟體會報告個別自變項

23、的Wald統計量，方便我們判斷係數是否到達顯著水準 H0:=0 Wald統計量是除以其標準誤結果統計量Z的平方 Wald statistics是一個依循卡方分配的統計量不過Stata報告標準統計量Z，意思跟解讀都是相近的。,Ming-chi Chen,社會統計,Page.50,Logit迴歸係數的Z檢定,Ming-chi Chen,社會統計,Page.51,性別這個自變項沒有達到顯著水準，無法拒絕這個變數對捐款沒有影響的虛無假設。而收入和所有的宗教虛擬變數都到達顯著水準。,Logit迴歸係數的Wald檢定,透過將前表中的Z值取平方得到Wald檢測統計量，然後查卡方分配表。先進行過logit

24、或logistic的Stata分析後，可以用test 自變數名稱這個指令產生Wald檢測統計量。例如：test sex的結果如下,Ming-chi Chen,社會統計,Page.52,這個1.75正就是前面Z統計量-1.32的平方（1.32是四捨五入過了，所以有誤差），檢測一個IV，所以自由度=1，結論是性別這個IV不顯著,虛無假設H0:sex=0,Logit迴歸係數信賴區間,前表中，我們看到_Irelig_1的95%的信賴區間是0.7154, 1.4113，如何解讀？首先取antilog， e0.7154, e1.4113=2.0449, 4.1012 意思是佛教徒捐款的勝算有百分之九十

25、五的機會是無神論者的2.0449到4.1012倍。 Stata logistic指令直接給我們估計勝算的區間（看前面logistic迴歸的最後兩欄數值）,Ming-chi Chen,社會統計,Page.53,Likelihood-ratio test,可以用來比較增加新的變項（組）前後 likelihood ratio的改變我們可以令L0為當虛無假設為真的時候概似函數的最大值，而L1則為虛無假設為不真時概似函數的最大值。虛無假設是所有新增的自變數係數相等且等於0，例如在一個僅有單一IV的模型，我們的虛無假設是這個IV的係數為0 Likelihood-ratio test統計量：,Ming-

26、chi Chen,社會統計,Page.54,log(L0/L1)前面乘以-2是因為這樣在大樣本時才會符合卡方分配，使我們得以檢驗檢定統計量。這個統計量的自由度就等於我們兩模型之間自變數個數的差異，比如說一個單一IV的模型和一個沒有任何IV的模型相比，其自由度為1。,Likelihood-ratio test: an example,Ming-chi Chen,社會統計,Page.55,和沒有任何自變數的模型（log likelihood=-1004.2316）比較， (-2logL0)-(-2logL1)的卡方值為68.31，在自由度=5（自變數個數）的情況下，犯型一錯誤0.0001，這和一般

27、迴歸分析中的F檢定類似,Likelihood-ratio test & Wald test,針對logistic regression model裡個別自變項係數的統計檢定，除了Wald test和Z test以外，我們也可以用likelihood-ratio檢定，比較去除某個IV的模型和原來模型的log likelihood，來檢測其係數是否顯著（自由度1）大樣本時，Wald檢測和likelihood-ratio檢測有相似的結果。在中小型樣本時，最好選擇用likelihood-ratio,Ming-chi Chen,社會統計,Page.56,Logit迴歸係數的likelihood-ra

28、tio檢定,Ming-chi Chen,社會統計,Page.57,如果不是要Stata自己對類別變項產生虛擬變項就不需要加xi；quietly是要Stata不用產生表格，但相關數值還在記憶體裡。我們把相關數值用est store a記成a。接下來建立一個沒有性別的模型，相關數值記成b,用lrtest a b, stats來比較a、b兩模型的log likelihood,Likelihood-ratio=1.76=(-2logL0)-(-2logL1)=-2*(-970.9538)-2*(-970.0759) 自由度=1，P值為0.1852，結論是性別這個IV不顯著,Likelihood-rat

29、io test,Likelihood-ratio test可以用來檢測nested models 變數多的模型和變數少的模型的log likelihood的差異乘以-2 這趨近於卡方分配，其自由度為多出來的變項個數這就好像OLS裡在nested模型間來判斷新加入一組變項是否顯著的F檢定一般。全模型也可以看IV有無聯合解釋力，這就是Stata右上角的檢定數值的意義，和複線性迴歸全模型的F檢定一樣。,Ming-chi Chen,社會統計,Page.58,Likelihood-ratio test: an example,我們加入了宗教信仰的一組三個虛擬變數以後，log likelihood=-

30、970.07593 沒有宗教信仰相關的虛擬變數的logit迴歸模型log likelihood=-993.36151 (-2logL0)-(-2logL1)=-2(-993.36151)-2(-970.07593)=46.57116 自由度為3 23, 0.01=11.3446.57，意謂宗教這一組類別變數顯著，可以拒斥H0:_Irelig_1= _Irelig_2= _Irelig_3=0,Ming-chi Chen,社會統計,Page.59,一組虛擬變數的LR檢定,xi: quietly logit donation demi_inc sex i.relig est store a qui

31、etly logit donation demi_inc sex if relig!=.這是只跑那些宗教不是缺失值missing value的個案，以免發生模型間樣本量不同而不能比較的狀況。 est store c lrtest a c, stats,Ming-chi Chen,社會統計,Page.60,自由度=3，兩模型間有三個虛擬變項的差異，P值小於0.0001，拒絕虛無假設（三個係數都=0，也就是宗教對捐款有影響。,Ordered Logit,前面的logit regression處理的依變項是二元變數（是/不是）。 Logit regression也可以用來處理多元的順序尺度的依變數（

32、非常不滿意、滿意、中立、不滿意、非常不滿意）稱之為ordered logit、ordinal logit、proportional odds model 在Stata裡是用ologit這個指令來處理比如說我們要解釋個人的宗教參與度（幾乎沒有或從來沒有、每年至少一次、每個月至少一次）這是一個順序尺度的變項,累進機率與Logit,我們在此處用累進機率cumulative probabilities的概念作為基礎令P(yj)代表回答落在j這個類屬或以下的機率（1, 2, ,j）以宗教參與度為例 P(y=1) P(y2)=P(y=1)+ P(y=2) P(y3)=1,累進機率與Logit,每個

33、類屬j或以下的勝算odds是 P(yj)/ P(yj) 每一個累進機率都可以被轉換成高於或低於的二元變數的勝算 A popular logistic model for an ordinal response uses logits of the cumulative probabilities,cumulative logits,以宗教參與為例,Cumulative Logit Models for an Ordinal Response,A model can simultaneously describe the effect of an explanatory variable on

34、all the cumulative probabilities for y. 對於每個累積機率，這個模型就像是一般的羅吉斯模型，每一組自變項都可分成高於和低於特定的類屬j。這個模型是 LogitP(yj)=j+x, j=1, 2, ,c-1. In this model, does not have a j subscript. It has the same value for each cumulative logit. In other words, the model assumes that the effect of x is the same for each cumulat

35、ive probility. This cumulative logit model with this common effect is often called the proportional odds model比例勝算模型,Cumulative Logit Models for an Ordinal Response,For each j, the odds that yj multiply by e for each one-unit increase in x. Model fitting treats the observations as independent from a

36、 multinomial distribution. This is a generalization of the binomial distribution from two to multiple outcome categories. Software estimates the parameters using all the cumulative probabilities at once. This provides a single estimate beta-hat for the effect of x, rather than the thress separate estimates wed get by fitting the model seperately for each cumulative probability.,92q2資料，討論宗教信仰與教育程度（年數）對宗教參與度的影響,Logistic Models for Nominal Responses,教育程度（不識字、小學、初中、高中、大專以上）與族群對宗教信仰的影響,

展开阅读全文