一章统计的认识.ppt

上传人:本田雅阁 文档编号:2658201 上传时间:2019-05-01 格式:PPT 页数:82 大小:138.01KB
返回 下载 相关 举报
一章统计的认识.ppt_第1页
第1页 / 共82页
一章统计的认识.ppt_第2页
第2页 / 共82页
一章统计的认识.ppt_第3页
第3页 / 共82页
一章统计的认识.ppt_第4页
第4页 / 共82页
一章统计的认识.ppt_第5页
第5页 / 共82页
点击查看更多>>
资源描述

《一章统计的认识.ppt》由会员分享,可在线阅读,更多相关《一章统计的认识.ppt(82页珍藏版)》请在三一文库上搜索。

1、1,第一章 統計的認識,統計學 陳順宇 教授著 成功大學統計系,2,統計提供決策,日常生活中我們常遇到不確定的情形,等待我們下決定, 如果決策錯誤可能造成莫大的損失, 因此如何做決策才能使損失 降至最低是現代人所必須研究的課題,3,正確的統計方法收集資料外, 也要能對一大堆數據經分析後 說出它的“內涵”,4,1.1 統計的意義,現代是資訊發達的時代, 擁有資訊 就擁有權力, 統計讓數字說話,就是 將資料變成資訊、再由資訊提供決策, 讓企業提昇品質,使企業更具有競爭力。,1.1,5,數字(資料)是雜亂無章的,必須經過整理, 簡化成統計圖表或統計量(資訊) 才能看出資料的意義, 才能解釋現象,做為

2、預測或做計劃依據。 下圖說明統計如何提供決策,6,統計提供決策,7,統計是一門科學,收集資料、 整理資料、 分析資料 解釋意義 等規則與程序所組合而成,8,1.3 近期統計之發展,1. 大型企業的出現 2. 研發、品管的要求 3. 電腦科技的衝擊 4. 科技研究的需要 5. 民意調查,9,企業與統計之關係,1. 品質管制 2. 預測統計 3. 人事管理 4. 生產計劃 5. 市場研究 6. 年度報告,10,1.母體,在一研究中,所有可能的個人或物品或感興趣的測量所成的集合;,11,具有某種共同特性,也就是母體是具有某種共同特性之 所有個體所成的集合, 每個個體都擁有研究者想要的 某種共同特徵。

3、,12,母體資料,母體內的個體(人或物)稱為受測者 (或稱為受測單位) , 量測(或收集)每位受測者所得資料 稱為母體資料,13,例1.1、2002年台北市長選舉,選前做民意調查,則所有台北市 合格選民所成的集合為母體, 這些選民的共同特徵是都可以投票, 每位台北市合格選民為受測者, 訪問每位選民要投給那位候選人 所得資料為母體資料,14,例1.2、台灣地區電視收視率調查,台灣地區所有有電視的家庭 所成集合為母體, 有電視的家庭為受測者, 訪問所有家庭他們正在看那一個電視台所得資料為母體資料,15,例1.3、調查台灣地區90年度 申報所得平均是多少?,台灣地區所有所得申報戶所成集合 為母體,

4、受測者為申報戶 所有申報戶的所得為母體資料,16,例1.5、調查大華公司 某種產品的不良率,此公司所有這種產品所成集合為母體; 若此公司生產20000件產品, 則這20000件產品所成集合即為母體, 每個產品為受測者, 測量每個產品是良品或不良品 所得資料為母體資料,17,例1.6、台南市政府想了解 全市成年人(約50萬人) 身高、 體重、性別與教育程度等,全體成年市民所成的集合即為母體, 所有台南市成年人為受測者, 母體資料為這50萬人的身高、 體重、性別與教育程度等,18,樣本,由於母體太龐大,要得到所有人(或物)的資料有時是很困難的, 只能收集部份人(或物),這部份人(或物)所成的集合稱

5、為樣本(Sample),,19,即樣本是由母體所選出一個 “部份集合” , 測量(或收集) 樣本中每個受測者 所得資料為樣本資料,20,例1.7、(例1.1續),由台北市選民抽出1050位, 訪問他們要投給哪位候選人, 這1050人所成集合為樣本, 樣本資料為訪問這1050位 要投給那位候選人所得的資料,21,例1.8、(例1.5續),大華公司品保部門想調查生產 產品的不良率, 如果將所有產品一一檢查是良品 或不良品(普查)非常耗時不經濟, 通常我們並不是要完全無誤, 只是“概估”即可。,22,如果從所有10000件產品中抽出30個, 則這30個產品所成之集合即為樣本, 記錄這30個產品是否為

6、良品即為 樣本資料,23,例1.9、(例1.6續),台南市政府從全體成年市民中 隨機抽樣50位, 這50位市民所成之集合即為樣本。 將這50位市民的性別、身高、體重、 年齡與教育程度等資料,列表如下:,24,台南市抽樣50位市民資料,25,此資料成矩陣型式,有5行50列, 除第一行編號(或員工姓名)外,其他4行每行為一個變數(Variable),共有4個變數 每一列為一筆資料(Case),共有50列, 即有50筆資料,26,3.抽樣,常用的抽樣方法有 簡單隨機抽樣法、 系統抽樣法、 分層隨機抽樣法, 及部落抽樣法等四種, 當然也可由這四個抽樣方法混合使用,27,4.普查,是要對母體的每一份子都

7、獲得資料, 也就是100%的抽樣。 台灣地區常用的普查有工商普查、 戶口普查、農業普查等。,28,普查雖可得到全部母體的資料, 但有時由於訪查員的失誤,造成資料 不可靠,反而比抽樣所提供資訊不好。 而且普查耗時、耗成本、耗人力, 除非不得已,很少用此種方法,29,5.參數,是研究者想了解的母體某特性值, 通常我們關心的參數有母體平均數、 標準差或最大值等,,30,例如品管人員想知道某生產線其產品 不良率是多少,則不良率就是參數, 一般參數是未知的定數。 參數它在某個時段是一定數, 但很可能誰也不知道它是多少, 它也許永遠是個謎,31,例1.10、(例1.5續),如果我們想知道某產品的不良率是多

8、少? 不良品所佔的比例即為參數。 如全部產品20000件中,不良品有2400件,則參數 (即不良率)為,32,例1.11、(例1.6續),台南市政府人事部門關心 全體成年市民(單位:公分)平均身高, 因此參數為成年市民(50萬)的平均身高。,33,若第1位市民、第2位市民到第500000位市民的身高,分別為175、168、. 、155。一般母體平均數以表示,如台南市身高母體平均數為,34,例1.12、(例1.11續) 500000位市民的身高,母體變異數為 母體標準差為,35,6.統計量,是由抽樣樣本所計算出的一個量 (或一組量),用來對母體參數做推論。 如做為參數估計用的統計量就稱為 估計量

9、(Estimator), 例如母體平均數的估計量最常用的是 樣本平均數,母體不良率p的估計量 最常用的是樣本不良率,36,例1.13、(例1.5續),若從大華公司生產線上隨機抽出 30件產品,結果有3件不良品, 樣本的不良率為 3/30 = 0.1, 它與真正不良率(參數) p= 0.12的相差為 0.02這個數值就稱為估計誤差(Estimate Error), 好的統計方法(包括抽樣與實驗) 就是想辦法使誤差愈小愈好,37,例1.14、(例1.11續),若從台南市成年市民中抽樣50位,得50位的身高如表1.1 算出50位平均身高 , 則稱為樣本平均身高, 樣本平均身高與母體平均身高 的相差為

10、 為估計誤差,38,7.統計推論,是由一組樣本資料算出統計量以便對母體的參數做評估。 一般統計推論包括 估計(Estimation)、 預測(Prediction)及 檢定(Testing),39,1.6 資料的分類,數值資料如能適當使用,就能獲得好的決策,反之,如果不當的使用不好的資料將導致錯誤的結論。 一般而言,統計資料分析方法的採用,決定於資料本身的形態。,40,下面依收集 (1)時間順序、 (2)收集方法、 (3)資料性質 對資料做分類,41,1.依收集時間順序分類,a.橫向資料: 收集的是某一時段的資料, 如1995年某公司的員工身高、年收入等資料。 這種資料為橫向資料。,42,b.

11、縱向資料: 收集的是不同時段的資料, 如台鐵從民國70年到83年每年的營運 狀況或每年發生交通事故的件數等資料。 這種資料為縱向資料或稱之為 時間數列資料。,43,2.依收集方法分類,a.觀察資料: 問卷訪談所得資料 或是公司內部現成之資料, 而人文社會科學與商業經濟等的資料 也大都是觀察資料。,44,b.實驗設計資料: 產業有時為了研究發展探討影響 某種結果(或稱品質特性)因素而做實驗。 控制各種因素的水準,實驗後量測出 品質特性的大小,此為實驗設計的資料。,45,3.依資料性質分類,a.連續型資料: 如量測身高、體重、產品之容量、 重量、長度等資料,它是可以計量的, 而且理論上可以到小數點

12、以下幾位數據。 這種資料稱為連續型資料Continuous Data)。,46,b.離散型資料: 性別、宗教信仰、教育程度等 分類變數是“離散型資料“(Discrete Data),,47,請看下列兩組數據的差別:,第一組 3 5 5 8 7 6 9 12 第二組 3.52 5.63 83.62 7.96 55.33,48,次序資料,第一組數據都是整數,它是計數的, 為離散型資料。 離散型資料除了上述計數的形式外,,49,如教育程度或是問卷中分別以 1表示非常贊成、 2表示贊成、 3表示沒意見、 4表示反對、 5表示非常反對,,50,這1、2、3、4、5數據也是離散型, 但他們之間有次序概念,

13、稱為次序(Ordinal)資料。,51,名目資料,再如比賽的名次冠軍、亞軍、季軍、殿軍 也是次序的資料。 至於一般分類(Category)資料, 性別男生、女生 它們之間無大小之分 宗教信仰佛教、基督教、天主教、道教、回教、其他等, 也是沒有次序,稱為名目(Nominal)資料,52,第二組數據有小數點,是量測所得資料,為連續型資料。 如身高、體重、售價、營業額、雨量、離婚率、失業率、用水量等, 都是連續型資料。,53,連續型資料應是小數點以下很多位數,但為了簡捷,常只取小數點後一、兩位數,甚至到整數部份, 如我們常說身高172公分、體重65公斤等,但它們仍是連續型資料,54,1.7 資料收集

14、,資料收集方式就如上所述, 基本上分兩大類, 一種是以問卷為主的抽樣調查, 一種是以做實驗為主的實驗設計,,55,前者偏向於人文、社會科學的民意調查、市場調查等,它可透過郵寄問卷、面談或電話訪問等方式進行; 後者是以工程、醫學等方面做研究時,為了節省實驗次數所設計的實驗方式, 本節主要介紹抽樣調查,56,(1).簡單隨機抽樣法,簡單隨機抽樣法是所有方法中最公正的, 抽樣時不摻入人為因素, 而且母群體中每一個體被抽中機會均等。,57,簡單隨機抽樣法優點是取樣方便, 很容易就獲得抽樣的對象, 缺點是有時會因抽到樣本資料偏於一方,造成代表性不足,有高估或低估的現象。,58,常用簡單隨機抽樣方式有 (

15、1)抽籤、 (2)查亂數表 (3)利用電腦製造亂數 等方法做為取樣依據,59,(2).系統抽樣法,基本上是只做第一次隨機抽樣後, 就採取依固定間隔數抽出一樣本。 例如:母體有15個樣本,我們預計 抽出5個樣本,所以每隔3個即抽出一樣本,60,它的優點是只要抽出第一個種子號碼,就可依間隔數依序列出所有樣本數, 此種抽樣法比簡單隨機抽樣法來的方便。 但是系統抽樣法會造成統計上 所謂的抽樣偏差,61,(3).分層隨機抽樣法,母體可依某一衡量標準分成數個 不重疊的子群體,稱為層(或稱群、組)。 將母體分層後,再從每一層中 利用簡單隨機取樣,這樣的抽樣過程,稱之為分層隨機抽樣法,62,分層隨機抽樣法顧名

16、思義是,先分層再從每一層中各做隨機抽樣, 它是4種抽樣法最被推薦使用的, 最大問題是如何找到某種“特性”做分層, 基本上同層內的性質要相近,63,(4).部落抽樣法,最常用在抽樣對象分離很遠, 而且很難蒐集到樣本的時候, 也就是部落抽樣是以地理位置為考量。 常會把母體分成幾個部落, 再從這幾個部落抽出數個部落進行普查。,64,假設每一部落都是母體的縮影, 因此部落與部落間的差異性要小, 部落抽樣法優點較省時間、金錢、人力, 而缺點是當抽到的部落與 母體差異太大時,會造成抽樣誤差,,65,例1.8、中正國中二年級甲班學生,老師想了解全班平均身高(參數)是多少?,66,結論:,本題以分層隨機抽樣法

17、較佳, 因為採部落抽樣法(系統抽樣法也一樣) 如抽到第一行,則算出的樣本(7位同學)平均身高比母體(49位同學)的平均身高 有偏低的現象, 反之如抽到第7行,則有偏高的現象, 分層隨機抽樣法較能避免偏於一方,67,統計之應用,( 1)主計處每個月做國內失業率與 失業人數的調查。 ( 2)衛生署每年調查一次人們 花在醫療方面的費用。,68,(3)國宅局用抽查方式,了解住屋供需問題。 (4)社會局調查人民對成人補習教育的興趣。,69,( 5)建設局用抽查方式,獲知哪些人 常利用公園或其他公共設備。 ( 6)電視公司做收視率調查, 了解觀看某節目的比例。,70,( 7)廠商做顧客滿意度調查, 了解顧

18、客對產品的意見。 ( 8)交通管理局用抽查方式 獲得人們乘車的習慣。,71,( 9)雜誌社利用抽查方式 了解訂戶所喜愛的內容。 (10)教育單位比較電腦輔助教學與 傳統教學效果之差異,72,(11)選舉前民意調查,以便了解選民傾向,做為訂定選舉策略的依據。 (12)驗證薪資是否有男高女低的現象?,73,(13)了解台灣地區犯罪率是否逐年上升? (14)驗證某種製程上改善策略是否有效? (15)研究廣告費對銷售量是否有影響?,74,(16)稻米的產量受哪些因素 (如水份、肥料、品種、土壤)的影響? (17)了解影響房價有哪些要因? (18)了解失業率與經濟成長率是否有關?,75,圖1.1 數學、

19、社會科學與統計關係圖,76,圖1.2 統計工作流程圖,77,第一章 摘要,1.統計是一門科學,它是用來 對不確定事件做研判與提供決策。 2.統計步驟包括: 資料收集、整理、分析及解釋四部份。,78,3.了解母體、樣本、抽樣、參數、統計量名詞。 4.除了由公民營機構、報章雜誌的 二手資訊外,資料收集方法, 主要來源分為實驗設計與抽樣調查兩種。,79,5.通常的民意調查、市場調查 所用抽樣方法有4種 (i)簡單隨機抽樣法 (ii)系統抽樣法 (iii)分層隨機抽樣法 (iv)部落抽樣法,80,6.了解各種抽樣法的基本精神, 優、缺點及實施上可能的困難, 特別強調分層隨機抽樣法的重要性及 如何找到“特性”做分層,,81,7.抽樣調查應注意事項:包括問卷設計、工作人員之訓練、抽樣法、小規模試驗、敏感問題之處理、樣本數的決定等。,82,8.抽樣方法的錯誤常來自“方便的資料” 如只抽樣讀者文摘的讀者, 或是在某角落訪問過往的行人 或電視節目的Call in電話 或電腦網路等資料等 都不是隨機抽樣的資料, 有可能造成方法偏差,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1