一章统计的认识.ppt_三一文库31doc.com

资源描述

《一章统计的认识.ppt》由会员分享，可在线阅读，更多相关《一章统计的认识.ppt（82页珍藏版）》请在三一文库上搜索。

1、1,第一章統計的認識,統計學陳順宇教授著成功大學統計系,2,統計提供決策,日常生活中我們常遇到不確定的情形，等待我們下決定，如果決策錯誤可能造成莫大的損失，因此如何做決策才能使損失降至最低是現代人所必須研究的課題,3,正確的統計方法收集資料外，也要能對一大堆數據經分析後說出它的“內涵”,4,1.1 統計的意義,現代是資訊發達的時代，擁有資訊就擁有權力，統計讓數字說話，就是將資料變成資訊、再由資訊提供決策，讓企業提昇品質，使企業更具有競爭力。,1.1,5,數字(資料)是雜亂無章的，必須經過整理，簡化成統計圖表或統計量(資訊) 才能看出資料的意義，才能解釋現象，做為

2、預測或做計劃依據。下圖說明統計如何提供決策,6,統計提供決策,7,統計是一門科學,收集資料、整理資料、分析資料解釋意義等規則與程序所組合而成,8,1.3 近期統計之發展,1. 大型企業的出現 2. 研發、品管的要求 3. 電腦科技的衝擊 4. 科技研究的需要 5. 民意調查,9,企業與統計之關係,1. 品質管制 2. 預測統計 3. 人事管理 4. 生產計劃 5. 市場研究 6. 年度報告,10,1.母體,在一研究中，所有可能的個人或物品或感興趣的測量所成的集合；,11,具有某種共同特性,也就是母體是具有某種共同特性之所有個體所成的集合，每個個體都擁有研究者想要的某種共同特徵。

3、,12,母體資料,母體內的個體(人或物)稱為受測者 (或稱為受測單位) ，量測(或收集)每位受測者所得資料稱為母體資料,13,例1.1、2002年台北市長選舉,選前做民意調查，則所有台北市合格選民所成的集合為母體，這些選民的共同特徵是都可以投票，每位台北市合格選民為受測者，訪問每位選民要投給那位候選人所得資料為母體資料,14,例1.2、台灣地區電視收視率調查,台灣地區所有有電視的家庭所成集合為母體，有電視的家庭為受測者，訪問所有家庭他們正在看那一個電視台所得資料為母體資料,15,例1.3、調查台灣地區90年度申報所得平均是多少？,台灣地區所有所得申報戶所成集合為母體，

4、受測者為申報戶所有申報戶的所得為母體資料,16,例1.5、調查大華公司某種產品的不良率,此公司所有這種產品所成集合為母體；若此公司生產20000件產品，則這20000件產品所成集合即為母體，每個產品為受測者，測量每個產品是良品或不良品所得資料為母體資料,17,例1.6、台南市政府想了解全市成年人(約50萬人) 身高、體重、性別與教育程度等,全體成年市民所成的集合即為母體，所有台南市成年人為受測者，母體資料為這50萬人的身高、體重、性別與教育程度等,18,樣本,由於母體太龐大，要得到所有人(或物)的資料有時是很困難的，只能收集部份人(或物)，這部份人(或物)所成的集合稱

5、為樣本(Sample)，,19,即樣本是由母體所選出一個 “部份集合” ，測量(或收集) 樣本中每個受測者所得資料為樣本資料,20,例1.7、(例1.1續),由台北市選民抽出1050位，訪問他們要投給哪位候選人，這1050人所成集合為樣本，樣本資料為訪問這1050位要投給那位候選人所得的資料,21,例1.8、(例1.5續),大華公司品保部門想調查生產產品的不良率，如果將所有產品一一檢查是良品或不良品(普查)非常耗時不經濟，通常我們並不是要完全無誤，只是“概估”即可。,22,如果從所有10000件產品中抽出30個，則這30個產品所成之集合即為樣本，記錄這30個產品是否為

6、良品即為樣本資料,23,例1.9、(例1.6續),台南市政府從全體成年市民中隨機抽樣50位，這50位市民所成之集合即為樣本。將這50位市民的性別、身高、體重、年齡與教育程度等資料，列表如下：,24,台南市抽樣50位市民資料,25,此資料成矩陣型式，有5行50列，除第一行編號(或員工姓名)外，其他4行每行為一個變數(Variable)，共有4個變數每一列為一筆資料(Case)，共有50列，即有50筆資料,26,3.抽樣,常用的抽樣方法有簡單隨機抽樣法、系統抽樣法、分層隨機抽樣法，及部落抽樣法等四種，當然也可由這四個抽樣方法混合使用,27,4.普查,是要對母體的每一份子都

7、獲得資料，也就是100%的抽樣。台灣地區常用的普查有工商普查、戶口普查、農業普查等。,28,普查雖可得到全部母體的資料，但有時由於訪查員的失誤，造成資料不可靠，反而比抽樣所提供資訊不好。而且普查耗時、耗成本、耗人力，除非不得已，很少用此種方法,29,5.參數,是研究者想了解的母體某特性值，通常我們關心的參數有母體平均數、標準差或最大值等，,30,例如品管人員想知道某生產線其產品不良率是多少，則不良率就是參數，一般參數是未知的定數。參數它在某個時段是一定數，但很可能誰也不知道它是多少，它也許永遠是個謎,31,例1.10、(例1.5續),如果我們想知道某產品的不良率是多

8、少？不良品所佔的比例即為參數。如全部產品20000件中，不良品有2400件，則參數 (即不良率)為,32,例1.11、(例1.6續),台南市政府人事部門關心全體成年市民(單位:公分)平均身高，因此參數為成年市民(50萬)的平均身高。,33,若第1位市民、第2位市民到第500000位市民的身高，分別為175、168、. 、155。一般母體平均數以表示，如台南市身高母體平均數為,34,例1.12、(例1.11續) 500000位市民的身高,母體變異數為母體標準差為,35,6.統計量,是由抽樣樣本所計算出的一個量 (或一組量)，用來對母體參數做推論。如做為參數估計用的統計量就稱為估計量

9、(Estimator)，例如母體平均數的估計量最常用的是樣本平均數，母體不良率p的估計量最常用的是樣本不良率,36,例1.13、(例1.5續),若從大華公司生產線上隨機抽出 30件產品，結果有3件不良品，樣本的不良率為 3/30 = 0.1，它與真正不良率(參數) p= 0.12的相差為 0.02這個數值就稱為估計誤差(Estimate Error)，好的統計方法(包括抽樣與實驗) 就是想辦法使誤差愈小愈好,37,例1.14、(例1.11續),若從台南市成年市民中抽樣50位，得50位的身高如表1.1 算出50位平均身高，則稱為樣本平均身高，樣本平均身高與母體平均身高的相差為

10、為估計誤差,38,7.統計推論,是由一組樣本資料算出統計量以便對母體的參數做評估。一般統計推論包括估計(Estimation)、預測(Prediction)及檢定(Testing),39,1.6 資料的分類,數值資料如能適當使用，就能獲得好的決策，反之，如果不當的使用不好的資料將導致錯誤的結論。一般而言，統計資料分析方法的採用，決定於資料本身的形態。,40,下面依收集 (1)時間順序、 (2)收集方法、 (3)資料性質對資料做分類,41,1.依收集時間順序分類,a.橫向資料：收集的是某一時段的資料，如1995年某公司的員工身高、年收入等資料。這種資料為橫向資料。,42,b.

11、縱向資料：收集的是不同時段的資料，如台鐵從民國70年到83年每年的營運狀況或每年發生交通事故的件數等資料。這種資料為縱向資料或稱之為時間數列資料。,43,2.依收集方法分類,a.觀察資料：問卷訪談所得資料或是公司內部現成之資料，而人文社會科學與商業經濟等的資料也大都是觀察資料。,44,b.實驗設計資料：產業有時為了研究發展探討影響某種結果(或稱品質特性)因素而做實驗。控制各種因素的水準，實驗後量測出品質特性的大小，此為實驗設計的資料。,45,3.依資料性質分類,a.連續型資料：如量測身高、體重、產品之容量、重量、長度等資料，它是可以計量的，而且理論上可以到小數點

12、以下幾位數據。這種資料稱為連續型資料Continuous Data)。,46,b.離散型資料：性別、宗教信仰、教育程度等分類變數是“離散型資料“(Discrete Data)，,47,請看下列兩組數據的差別：,第一組 3 5 5 8 7 6 9 12 第二組 3.52 5.63 83.62 7.96 55.33,48,次序資料,第一組數據都是整數，它是計數的，為離散型資料。離散型資料除了上述計數的形式外，,49,如教育程度或是問卷中分別以 1表示非常贊成、 2表示贊成、 3表示沒意見、 4表示反對、 5表示非常反對，,50,這1、2、3、4、5數據也是離散型，但他們之間有次序概念，

13、稱為次序(Ordinal)資料。,51,名目資料,再如比賽的名次冠軍、亞軍、季軍、殿軍也是次序的資料。至於一般分類(Category)資料，性別男生、女生它們之間無大小之分宗教信仰佛教、基督教、天主教、道教、回教、其他等，也是沒有次序，稱為名目(Nominal)資料,52,第二組數據有小數點,是量測所得資料，為連續型資料。如身高、體重、售價、營業額、雨量、離婚率、失業率、用水量等，都是連續型資料。,53,連續型資料應是小數點以下很多位數，但為了簡捷，常只取小數點後一、兩位數，甚至到整數部份，如我們常說身高172公分、體重65公斤等，但它們仍是連續型資料,54,1.7 資料收集

14、,資料收集方式就如上所述，基本上分兩大類，一種是以問卷為主的抽樣調查，一種是以做實驗為主的實驗設計，,55,前者偏向於人文、社會科學的民意調查、市場調查等，它可透過郵寄問卷、面談或電話訪問等方式進行；後者是以工程、醫學等方面做研究時，為了節省實驗次數所設計的實驗方式，本節主要介紹抽樣調查,56,(1).簡單隨機抽樣法,簡單隨機抽樣法是所有方法中最公正的，抽樣時不摻入人為因素，而且母群體中每一個體被抽中機會均等。,57,簡單隨機抽樣法優點是取樣方便，很容易就獲得抽樣的對象，缺點是有時會因抽到樣本資料偏於一方，造成代表性不足，有高估或低估的現象。,58,常用簡單隨機抽樣方式有 (

15、1)抽籤、 (2)查亂數表 (3)利用電腦製造亂數等方法做為取樣依據,59,(2).系統抽樣法,基本上是只做第一次隨機抽樣後，就採取依固定間隔數抽出一樣本。例如：母體有15個樣本，我們預計抽出5個樣本，所以每隔3個即抽出一樣本,60,它的優點是只要抽出第一個種子號碼，就可依間隔數依序列出所有樣本數，此種抽樣法比簡單隨機抽樣法來的方便。但是系統抽樣法會造成統計上所謂的抽樣偏差,61,(3).分層隨機抽樣法,母體可依某一衡量標準分成數個不重疊的子群體，稱為層(或稱群、組)。將母體分層後，再從每一層中利用簡單隨機取樣，這樣的抽樣過程，稱之為分層隨機抽樣法,62,分層隨機抽樣法顧名

16、思義是,先分層再從每一層中各做隨機抽樣，它是4種抽樣法最被推薦使用的，最大問題是如何找到某種“特性”做分層，基本上同層內的性質要相近,63,(4).部落抽樣法,最常用在抽樣對象分離很遠，而且很難蒐集到樣本的時候，也就是部落抽樣是以地理位置為考量。常會把母體分成幾個部落，再從這幾個部落抽出數個部落進行普查。,64,假設每一部落都是母體的縮影，因此部落與部落間的差異性要小，部落抽樣法優點較省時間、金錢、人力，而缺點是當抽到的部落與母體差異太大時，會造成抽樣誤差，,65,例1.8、中正國中二年級甲班學生，老師想了解全班平均身高(參數)是多少？,66,結論：,本題以分層隨機抽樣法

17、較佳，因為採部落抽樣法(系統抽樣法也一樣) 如抽到第一行，則算出的樣本(7位同學)平均身高比母體(49位同學)的平均身高有偏低的現象，反之如抽到第7行，則有偏高的現象，分層隨機抽樣法較能避免偏於一方,67,統計之應用,( 1)主計處每個月做國內失業率與失業人數的調查。 ( 2)衛生署每年調查一次人們花在醫療方面的費用。,68,(3)國宅局用抽查方式，了解住屋供需問題。 (4)社會局調查人民對成人補習教育的興趣。,69,( 5)建設局用抽查方式，獲知哪些人常利用公園或其他公共設備。 ( 6)電視公司做收視率調查，了解觀看某節目的比例。,70,( 7)廠商做顧客滿意度調查，了解顧

18、客對產品的意見。 ( 8)交通管理局用抽查方式獲得人們乘車的習慣。,71,( 9)雜誌社利用抽查方式了解訂戶所喜愛的內容。 (10)教育單位比較電腦輔助教學與傳統教學效果之差異,72,(11)選舉前民意調查，以便了解選民傾向，做為訂定選舉策略的依據。 (12)驗證薪資是否有男高女低的現象？,73,(13)了解台灣地區犯罪率是否逐年上升？ (14)驗證某種製程上改善策略是否有效？ (15)研究廣告費對銷售量是否有影響？,74,(16)稻米的產量受哪些因素 (如水份、肥料、品種、土壤)的影響？ (17)了解影響房價有哪些要因？ (18)了解失業率與經濟成長率是否有關？,75,圖1.1 數學、

19、社會科學與統計關係圖,76,圖1.2 統計工作流程圖,77,第一章摘要,1.統計是一門科學，它是用來對不確定事件做研判與提供決策。 2.統計步驟包括：資料收集、整理、分析及解釋四部份。,78,3.了解母體、樣本、抽樣、參數、統計量名詞。 4.除了由公民營機構、報章雜誌的二手資訊外，資料收集方法，主要來源分為實驗設計與抽樣調查兩種。,79,5.通常的民意調查、市場調查所用抽樣方法有4種 (i)簡單隨機抽樣法 (ii)系統抽樣法 (iii)分層隨機抽樣法 (iv)部落抽樣法,80,6.了解各種抽樣法的基本精神，優、缺點及實施上可能的困難，特別強調分層隨機抽樣法的重要性及如何找到“特性”做分層，,81,7.抽樣調查應注意事項：包括問卷設計、工作人員之訓練、抽樣法、小規模試驗、敏感問題之處理、樣本數的決定等。,82,8.抽樣方法的錯誤常來自“方便的資料” 如只抽樣讀者文摘的讀者，或是在某角落訪問過往的行人或電視節目的Call in電話或電腦網路等資料等都不是隨機抽樣的資料，有可能造成方法偏差,

展开阅读全文