统计分析.ppt

上传人:本田雅阁 文档编号:3217076 上传时间:2019-08-01 格式:PPT 页数:35 大小:508.01KB
返回 下载 相关 举报
统计分析.ppt_第1页
第1页 / 共35页
统计分析.ppt_第2页
第2页 / 共35页
统计分析.ppt_第3页
第3页 / 共35页
统计分析.ppt_第4页
第4页 / 共35页
统计分析.ppt_第5页
第5页 / 共35页
点击查看更多>>
资源描述

《统计分析.ppt》由会员分享,可在线阅读,更多相关《统计分析.ppt(35页珍藏版)》请在三一文库上搜索。

1、統計分析,1,統計分析,統計分析包含: 統計推論 -由樣本觀察值得到母體的特性,分為估計與檢定。 統計建模 - 針對試驗的資料,發展出一統計模式,以解釋變數間的關係或作預測。,統計分析,2,統計推論,樣 本,估計之母體,實際母體,統計推論必產生差異,稱為抽樣誤差;抽樣誤差的大小與樣本數有關。,統計分析,3,檢定與估計,統計推論分為檢定與估計 估計是估計母體特性的代表值,如,估計平均數、比例 檢定是對一假說作真偽判斷,統計分析,4,統計估計,在一信心水準下,根據資料估計某一參數值可能的範圍 通常估計平均數,發生率。 例: 以95%的信心水準,估計大學生起薪在2.50.3萬 以95%的信心水準,估

2、計支持率30%,誤差0.3%,統計分析,5,民調:319大突破逾半民眾存疑 2005.03.09 中國時報 (註六),六成九的國人知道陳義雄被指涉嫌,但這些人當中五成一的人存疑,只有二成六相信警方說法。 本次調查於八日晚間進行,以台灣地區住宅電話簿為抽樣清冊,共成功訪問七百三十五位成人。在九成五的信心水準下,抽樣誤差為正負三點七個百分點。,統計分析,6,誤差的大小與樣本數有關,樣本數為735時,計算得在九成五的信心水準下,抽樣誤差為3.7%。 樣本數為4,713時,計算得在九成五的信心水準下,抽樣誤差為2%。 (註七) 人數增加時,誤差下降。,統計分析,7,邏輯推論,丟骰子10次,有8次出現6

3、點,是機運或是假骰子?要如何辯護? 大前提:如果是一均勻骰子,得到超過8次6點的機率是0.000019 小前提:如今10次,有8次出現6點 判斷:顯然此骰子不是一均勻骰子,統計分析,8,統計檢定,例:甲在10次考試中,有8次成績都比乙好,是機運或是甲的程度比乙好?,假說:H0:甲=乙 vs. H1:甲乙 根據資料計算:若甲=乙,有超過8次成績都比乙好的機率只有0.1% 。 上列的機率在檢定上稱為 p-值 或 顯著值 判斷甲顯然不等於乙。此判斷錯誤的機會小於 1%。,統計分析,9,一般檢定的步驟,建立假說 (虛無假說及對立假說) 根據資料算出顯著機率 (p-值) 若顯著機率值太小,如 p-值0.

4、05 ,則判斷虛無假說不可能,結論為對立的假說是顯著的,統計分析,10,檢定的顯著p-值,不顯著的情況,顯著的情況,統計分析,11,例:維生素是否可預防感冒,400人隨機分為二組 一組服用維生素,另一組服用安慰劑(對照組) 經過一個冬季,統計二組患感冒比例 實驗組有15%,對照組有25%,統計分析,12,檢定,Hypothesis : 二組患感冒比例相同 在比例相同下,計算的 p-值小於0.0001 如果比例相同,得到此資料的機會有0.0001 否定二組患感冒比例相同 服用維生素的一組比例較低 結論是服用維生素對預防感冒顯然有效,統計分析,13,例:檢定五種廣告效應的差異,為了研究廣告對產品質

5、感的影響,30 個受試者隨機地被分配到 5 個試驗群,每一個試驗群接受一單獨的關於原子筆廣告。受試者看完廣告後,均拿到相同形式的原子筆,評估當他們購買像這樣原子筆所期望的價格。,資料圖,統計分析,14,廣告效應是否有差異?,虛無假說定為五種廣告效應相等 由資料計算得顯著的 p-值是 0.0001 (參考SAS統計軟體得到的報表) 結論是五種廣告效應有明顯的不同, 在統計上說“有顯著差異”(significant difference),統計分析,15,其它檢定之例,消基會檢測食品防腐劑是否超出標準:hypothesis 為不超出標準,在等於標準下計算的 p-值,若 p-值0.05,則認定食品防

6、腐劑顯然超出標準。 研究學歷高低是否影響工作滿意度:hypothesis 定為學歷與工作滿意度無關,在無關的情況下計算 p-值,若 p-值0.05,則結論是學歷顯然對工作滿意度有影響。,統計分析,16,檢定應用,檢定兩因素是否相關? 如:銷售量與廣告,肺癌與抽煙 比較數組情況是否相同? 1. 發生率是否相同?2. 平均數是否相同? 檢定數個因素對觀察值是否有影響? 檢定資料是否滿足某種分佈?,統計分析,17,如何完成統計檢定,確定檢定目標 寫下檢定假說 選一合適統計軟體分析資料 由報表得到p-值(顯著值),判斷檢定結果 p-值0.05, 對立假說不顯著,統計分析,18,統計模式,以統計方法分析

7、問題:將問題的因果關係轉換為統計模式,然後依據資料,找出合適的模式,以為研究的結果。 統計模式有: 線性模式 (Linear Model) 邏輯迴歸模式 (Logistic regression model) 時間序列模式 (Time series model) 其它,統計分析,19,線性模式,Y = 0 + 1X1 + 2X2+ + pXp+ 解釋 Y 的值各別受Xi值所影響,影響力是累加的。 係數代表的是各因素對 Y 的相對影響程度 係數的意義: 經其它Xi 調整後,X1增加1單位,Y將增加1個單位 10時,Y與 X1有正關係,10時,有負關係。 項目包含未在考慮的變因,統計分析,20,線

8、性模式中係數之意義,月薪 = 24260 + 670(年資) + 4025(教育程度) 其中教育程度是以1表大學以上學歷,0表高中以下學歷 對同教育程度的人,年資增加1,平均月薪增加670元 對同年資的人,大學以上學歷者比高中以下者,平均月薪增加4025元,統計分析,21,多項時藉用指標變數的模式,若教育程度分為四項,另設定三個指標變數,統計分析,22,指標變數係數之意義,月薪 = 24260 + 670(年資) + 4025(E1) + 3000(E2) + 2000(E3) 對同年資的人,大學以上比小學以下學歷者,平均月薪增加4025元 對同年資的人,高中比小學以下學歷者,平均月薪增加30

9、00元 對同年資的人,國中比小學以下學歷者,平均月薪增加2000元,統計分析,23,可由線性模式找出影響因素,模式:Y = 0 + 1X1 + 2X2+ + pXp+ 檢定線性模式的係數,若 Xi 值的係數是顯著的,則 Xi 對 Y 的影響是顯著的。 可使用逐步迴歸法將所有可能影響 Y 的因素 Xi逐一地加入模式中,重複篩選,找出最可能影響的因素。,統計分析,24,特殊模式,兩個自變數含交互作用項的模式; 如: E(Y) =0+1X1+2 X2 + 3X 1 X2 多項式迴歸式; 如: E(Y) =0+1X1+ 2 X12 轉換變數迴歸式; 如: Y =0 X 1 轉換成線性模式 ln(Y)

10、= ln(0) + 1 ln(X),統計分析,25,變數轉換,在許多時候,將資料經過特殊的函數轉換,可以找到更適合資料的模式 線性轉換:y = a + bx 例:成績標準化,華氏溫度與攝氏溫度 次方的轉換:y=axb 例:成績開根號以10 對數的轉換: y=log(x),統計分析,26,變數轉換的影響,線性轉換 通常不會改變原資料的分佈型態 次方或對數的轉換會改變分佈的形態。,原資料分佈,對數轉換後分佈,統計分析,27,邏輯迴歸模式 Logistic regression model,邏輯迴歸模式為一非線性模式,可預測某現象發生之機率,當研究的對象限於二種或少數的幾個項目時,無法使用線性模式,

11、而使用邏輯迴歸模式 範例: 研究有心血管疾病的因素,研究的對象分為有或沒有 預測下雨機率,研究的對象是會下雨分為有或沒有 研究已婚婦女選擇就業的因素,研究的對象分為就業或不就業 金融機構研究影響個人信用狀況的因素,統計分析,28,簡易邏輯迴歸模式,以某一變因(X) 預估事件發生的機率 資料的反應變數(Y)只有二種可能的結果, 通常以 y=1 表示發生 及 y=0 表示未發生。 定義:勝算 odds = 勝負機率之比 基本原理:假設 ln(勝算) 對 X 有線性關係 註:ln 是自然對數,統計分析,29,例:由程式經驗預估完成工作的機率,經驗愈多者,完成工作的機率愈大,但無法以一線性關係表示,改

12、以 S-曲線預測較合理,參考下圖。,統計分析,30,原始資料與估計機率圖,統計分析,31,邏輯迴歸估計式,由邏輯迴歸之最大概似估計得到 z = -3.0597 + 0.1615 (經驗月數),此為 S-曲線,統計分析,32,(1) 預估成功率: 有一年工作經驗者,估計有 24.6 % 機率完成,勝算 0.326 有二年工作經驗者,估計有 69.4 % 機率完成,勝算 2.262 (2) 可由係數估計勝算比, 勝算比 = exp(0.1615) = 1.175. 實值意義:工作經驗每增加一個月,完成工作之勝算是原來的 1.175倍。,由經歷估計成功率,統計分析,33,時間序列,長時間對某一現象觀

13、察的資料記錄是為時間序列 政府機關、公司機構保留的記錄,長期累積下來是為一有研究價值的資料 未來經濟預測、營運的決策,或投資的選擇通常靠分析時間序列資料,統計分析,34,時間序列模式,時間序列的資料非獨立資料,相鄰兩筆資料間互相影響,此稱之為自相關 通常時間序列資料的建模必須考慮自相關 以下的模式考慮前一時間的影響 Yt = a + b Yt-1 + t,t 指時間 Yt = a + b Xt-1 + t,統計分析,35,近代時間序列模式,ARMA(p,q)模式 1976 Box-Jenkin 巴克斯-簡金斯的研究步驟,是分析財經時間數列的標準操作方法。 ARCH模式-安格爾 (Robert F. Engle)註七.1 自我迴歸非均齊波動模型 ,將 ARMA 模式巧妙地轉變成對時序波動程度的分析工具。 ARCH模式分析未來的波動性與風險,不估計報酬率,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1