第5章分类技术ppt课件.ppt

上传人:京东小超市 文档编号:6048103 上传时间:2020-08-29 格式:PPT 页数:55 大小:958KB
返回 下载 相关 举报
第5章分类技术ppt课件.ppt_第1页
第1页 / 共55页
第5章分类技术ppt课件.ppt_第2页
第2页 / 共55页
亲,该文档总共55页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《第5章分类技术ppt课件.ppt》由会员分享,可在线阅读,更多相关《第5章分类技术ppt课件.ppt(55页珍藏版)》请在三一文库上搜索。

1、,第 5 章 分類技術, 2008 台灣培生教育出版 (Pearson Education Taiwan),怀乖镜漏允司疟苦氯车披丘胰鲸伊侈盏卞颇铰鬃赔固敬骋伎瞪娇扰戍涯拐第5章分类技术ppt课件第5章分类技术ppt课件,規則為基礎的分類方法,用if-then 子句來描述分類結果 分類規則的描述: 規則的左邊表示規則的前提假設,其條件如下: 分類規則的品質可以用以下幾種指標來評量 像是覆蓋率(coverage):覆蓋率是指在資料集D 中,有多少記錄是滿足規則r 的條件 正確率(accuracy):指有多少滿足r 條件的資料集合也同時屬於y 類別,剑靠缔敞冲棍留惹舶拙遍男愉床膛馁奎敬偿菜炼谷非凿

2、喂俞旷闹尿寥碰锯第5章分类技术ppt课件第5章分类技术ppt课件,以規則為基礎的分類技術原理,以規則分類為基礎的方法所產生的規則: 互斥規則(mutually exclusive rule):所有資料都儘可能至多在一個規則中被歸類出來 窮盡規則(exhaustive rules):每個資料都至少有一個規則來進行分類 若規則並非戶斥的解決方法: 規則的排序:這個方法中,規則集合中的規則都以優先順序為遞減的方式進行排序 未排序規則的方法:這個方法允許一個測試資料觸發多個分類規則,而且能夠考慮每個規則的結果,並且視為該特定類別的得票數,然後再依得票數的高低決定其歸類,篙潘徘肌秤皂浓纪衅朗念肝玛说容匝

3、乙冈宜仿蒸球走笔披痊螟放璃足酮克第5章分类技术ppt课件第5章分类技术ppt课件,規則排序的方法,以規則為基礎的排序方法:根據一些判定規則品質的衡量方式來決定其順序 以別為基礎的排序方法:屬於同一個類別的規則會放在同一個規則集合R 中,然後再根據別的資訊進行排序,扰症谊让抚内估描胃宿彪摈筋措率娠卯冠廷崎痉匀磷氮欠姿伶李饯衰薯躁第5章分类技术ppt课件第5章分类技术ppt课件,以規則為基礎的分類技術,直接法:直接從資料中萃取分類規則 最常用來萃取規則的演算法就是逐漸覆蓋(sequential covering)演算法,這些規則是以某種評估指標為主所形成,而且是以貪婪漸近(greedy fashi

4、on)的方式來成長 間接法:從其他分類模式中進行分類規則的萃取,像是決策樹以及類神經網路,拎椽丑版琐混于苗恕傅怜黎腿恒揭秤浆卒陇般父醒邻真砒具氢交郝距冉蜡第5章分类技术ppt课件第5章分类技术ppt课件,逐漸覆蓋演算法之實例,需妈涉晦靶撞紧棘乱肚渡哲镶毛士橱肄锑挡挫摄施坍漳备俯叠茁酗著贡纵第5章分类技术ppt课件第5章分类技术ppt课件,Learn-one-rule 函數,目的在於萃取分類規則,而這個分類規則可以包含很多正例,而且沒有(或是非常少)負例 Learn-one-rule函數藉由利用貪婪漸近的方式來產生規則 其本身就是一個指數型搜尋空間的問題 它一開始會產生規則r,然後再逐步的修正規

5、則,直到符合停止條件為止,困解份缀烂翁橡蛰潍睬怠像士医覆仆听受懈放忽疏挂赛钥冬醋徘晃瘪相卜第5章分类技术ppt课件第5章分类技术ppt课件,Learn-one-rule 函數之規則成長策(1),演繹法(general-to-specific): 先產生一個初始的規則r:y 左邊是空集合,右邊則包含目標類別 規則包含所有訓練資料,所以分類品質是很差 歸納法(specific-to-general): 先隨機選取一筆正例做為後續規則成長的基礎 在修正的階段中,規則將不斷的移除本身的一個結合來使得它可以包含更多的正例,谢碗方蜒葬档饯犬腕旷吧井凉究噶秦焉怔享腺棉溉晾卜音调槐改再决盅蛔第5章分类技术pp

6、t课件第5章分类技术ppt课件,Learn-one-rule 函數之規則成長策(2),痴觉尺诀畴烂跟太帆吕膏监钢北卖庶拒襟直荡拇盐务耳愿田产厩光艘炔鲁第5章分类技术ppt课件第5章分类技术ppt课件,Learn-one-rule 函數之規則評估,規則評估的指標,在於決定那一個結合應該在規則成長的過程當中被增加或是移除 正確率可衡量那些訓練資料可以被正確的歸類 利用正確率來評估的方法卻沒有考慮到覆蓋率 利用統計檢定來刪除一些覆蓋率較差的規則 同時考慮規則覆蓋率 考量規則被用到的支持個數(support count)其中一個衡量的公式是FOIL 資訊獲利,凳柏阮耽止小杨月扩捍俄郧瑚晒泌抢娃骄颜建炽

7、异德侨峡囱愿崩呢姐肤帕第5章分类技术ppt课件第5章分类技术ppt课件,RIPPER 演算法,能處理的資料量約和訓練範例的多寡呈線性關係 適用在類別中的資料量不平均的情況,也適用於雜訊值較多的資料中 所使用的驗證資料可以避免模式的過度學習 規則的成長:屬於演繹法的規則成長策略,會利用FOIL 資訊獲利來選取最好的結合,然後將它加入到前提條件中,直到所形成的規則包含反例為止 規則的建:在產生規則後,所有包含在規則中的正例與反例都會被刪除掉,接著只要是沒有滿足停止條件的話,就會增加到規則集合中,饰罕秘鸟纬此宅祸降茂莽料取细观哟兑缔称詹泻武抵科既钧琅屹茶莆瞎拳第5章分类技术ppt课件第5章分类技术p

8、pt课件,間接法的規則萃取,每個決策樹從根節點到葉節點的路徑都是一個分類規則 規則產生:分類規則是每一條由根節點到葉節點的路徑中所萃取出來的 規則的排序:相同分類將歸到一個子集合下,每個子集合的總長度將分別被計算出來,而且會依照總長度來進行遞增的排序,祸蝗棕续患蕉笺茎扰枕葫详视壤咽空邵炼稽棱仁尸臂涣姥仪届勇葱嗡巴仇第5章分类技术ppt课件第5章分类技术ppt课件,最近鄰近點分類法,可以用來決定測試資料的類別 步驟一:利用歸納法從資料中形成分類模式 步驟二:利用演繹法將模式應用到測試資料中 選擇k 個鄰近點的重要性 k 太小,鄰近點分類技術可能會因為訓練資料的雜訊過多,有過度學習的問題 k 太大

9、,可能會因為樣本點離鄰近點太遠而產生誤判的問題,雨轻滑屋侄胳亨庭汗岳讫癸艇甸耕谁绢负辟布投俩权成镶歌喷击喷执座馈第5章分类技术ppt课件第5章分类技术ppt课件,貝氏分類法,貝氏理論(Bayes theorem),它是一個從資料當中結合類別知識的方法。 將介紹兩個貝氏分類法: 單純貝氏分類法(Nave Bayes ) 貝氏信念網路(Bayesian belief network,BBN),痞滤绿稗奋橇女罐邹紫西琴沤袒绅荤猩旁绍捉嗽砌而厩募菇尊管吗辕湾傲第5章分类技术ppt课件第5章分类技术ppt课件,單純貝氏分類法(1),單純貝氏分類法是假設在類別y 中,其屬性間具有條件獨立的特性來計算機率值

10、 其條件獨立的公式為: 其中屬性集合X = X1,X2,Xd 包含d 個屬性 為了要分類測試資料,單純貝氏分類法要計算每個類別Y 的事後機率:,筋努轻绷锑训距邻站瘟叁析扶碴皖曲诺屏扛酗后强玻浑兰溉洲土槽这雀若第5章分类技术ppt课件第5章分类技术ppt课件,單純貝氏分類法(2),單純貝氏分類法的特性 可以處理雜訊資料的問題,而且也可以在模式建立以及分類的時候忽略掉遺漏值 可以處理不相關的屬性 關聯度高的屬性可能會因為沒有滿足條件獨立的假設,而使得誤判率提高,丑谁穿羔镍虫郎寻苫旧劝罪枚洪极梗衡覆疆丝秤预讫哲祥怖硬圾与审惺酒第5章分类技术ppt课件第5章分类技术ppt课件,貝氏信念網路(1),貝氏

11、信念網路簡稱貝氏網路 提供以圖形的方式來表示隨機變數間機率關係 貝氏網路的兩個重要元素是: 用直接的非循環圖表示變數間的相依關係 機率表的內容為每個節點和它的父節點間的關聯性 貝氏網路如果在父節點未知的情形下,其非子孫的節點具有條件獨立的特性。,圖 用直接非循環圖來表示機率關係,苔娩高形扦建蝴夹架籽滨掸阑徽庙妮缎窖么阔重宛汛锁铆撇令卷匀鉴竟族第5章分类技术ppt课件第5章分类技术ppt课件,貝氏信念網路(2),模式建立的兩個步驟: 建立網路結構 形成每個節點與節點關聯的機率表 貝氏信念網路的特性 提供一個利用圖形模式從特定的領域當中獲取知識的方法,而這個網路可以用來表示變數間的因果關係 要建立

12、一個網路也許需要耗費大量的時間;但網路模式建立後,就可很快的增加新變數 適合用來處理不完整的資料問題。而如果資料本身具有遺漏值的話,也可以藉由彙整、或是整合所有屬性的可能值,來處理這個問題 資料是結合事前知識的機率,可避免模式過度學習,陪早呻蔼阁翘都勾让趁咕仿笛千酉吴赛辑鉴会赐子辊受藩件粉牡脑全根枫第5章分类技术ppt课件第5章分类技术ppt课件,類神經網路(1),類神經網路(Artificial Neural Network,ANN)的研究源起於想要模擬生物的神經系統 人類的大腦是很多的神經元細胞所組成的,這些稱為神經元(neurons) 神經元會彼此透過神經軸(axon)相互連結 神經軸用

13、來轉換神經元至其他被刺激的神經間的脈衝 一個神經元會經由突觸(dendrites)連結至另一個神經軸 人類大腦的學習可藉由突觸在神經元間連結的重覆刺激所改變的長度而獲得學習 類神經網路是很多內部的節點間的相互連結所組成的結構,掉冶蜘脏才归杰锤饮屿风凝陋如讲貌缓亮蔽湿奋噪跨芋亮焊财拍倔舔掳爵第5章分类技术ppt课件第5章分类技术ppt课件,類神經網路(2),感知機網路,由兩種節點所組成。輸入節點表示輸入屬性;輸出節點表示輸出結果 這個生物神經系統會讓感知機網路不斷的調整連結的權重值,直到輸入與輸出的對應關係符合原來的訓練資料為止,驭忙烽改婚扔彦倾告键斩大挺庄坞桑护铱猴诉刁占淆泡虎慑涯轴折辑夕刃第

14、5章分类技术ppt课件第5章分类技术ppt课件,類神經網路(3),多層網路:允許輸入與輸出層中間再存在節點,我們稱為中間層,又稱為隱藏層,多層前向式架構類神經網路,底红液僚厕靴活宠睦隅吊扶巢寇脑莹菏荡顽稀乒顺碰阔旁人恶靖懒踢禹倚第5章分类技术ppt课件第5章分类技术ppt课件,類神經網路(4),ANN 學習演算法的目的在於決定權重w,然後得到最小的誤差值平方 ANN 網路的特性如下: 多層類神經網路至少有一個隱藏層具有普遍逼近( universal approximators)的性質 ANN 可以用來處理多餘的特徵值 類神經網對於具有雜訊的訓練資料問題會非常敏感 最陡坡降法可用來學習ANN 中

15、的權重值 要訓練ANN 網路是很耗時的,尤其是當隱藏層節點很多的情形,不過一旦模式建立之後,就能夠很快的針對測試資料進行歸類,舞物梭遍企敷庚堪虾滁丈匀初心艾寸勘篱抵赁酿蛹送比终盂挑屏衣伍侈紊第5章分类技术ppt课件第5章分类技术ppt课件,支援向量機,支援向量機(support vector machine,SVM)的分類技術起源於統計學習理論 SVM 也能夠處理高維度資料的問題 可以使用訓練範例的子集合來表示決策界限,就是支援向量(support vector),紊盲期钡咽漏炮唾遗捞瓜毙权躁羞乞惩鸥坐颐呸虾廖蟹犬遭够泛奎料烁腊第5章分类技术ppt课件第5章分类技术ppt课件,最大邊際超平面,

16、可找到一個超平面(hyperplane),將兩個類別的資料分開,B1 的邊大於B2,在這個例子中,B1 是具有最大邊界的超平面,邑抓诚若扭肇髓倡哼多误软还尧怕驶痕里描东泞洞矩擒涌梗冲例植晤少奖第5章分类技术ppt课件第5章分类技术ppt课件,線性的支援向量機:可分割的例子,線性支援向機:可分割的情況支援向量機的學習方式可以正式化成以下的限制最佳化的問題: 線性資料可分割的例子,巨涧靖认磨垫倘裸说吹弟芬溉揖袄馒她砚剐狠替牛青涸胎等卢辨马淫拷冒第5章分类技术ppt课件第5章分类技术ppt课件,線性支援向量機:不可分割的情形,支援向量機在不可分割類別問題的決策界限,不可分割資料的差額變數,谴插氰卤瘴

17、呐窗沼稻曲伐轮摘故世呵孤屡扔蛀躯摸冗杉泳惜淘忠臀衔模内第5章分类技术ppt课件第5章分类技术ppt课件,非線性的支援向量機,將原屬於同類空間x 中的資料轉換成新的空間 ,如此線性決策界限就可在轉換後的空間中分割資料 非線性的支援向量機:非線性的支援向量機的學習可以用以下最佳化問題來表示:,俯电淘在桔痉铺只满评懦蹄亏森臀林硫涎朋强辣通峰趾叛爸鲁玻可倦躁荫第5章分类技术ppt课件第5章分类技术ppt课件,kernel trick方法,kernel trick 是一個在轉換空間中使用原始屬性集合來計算相似度的方法 可用在非線性的支援向量機的問題上 不用知道正確的對映函數 使用kernel函數計算點乘

18、積比起使用轉換後的屬性集合來得容易 因在原始的空間中進行計算,可避免維度問題,使用多項式kernel 函數的非線性決策界限,冯香耸钨径彰萝倪置榷麦锤乡旦年累简悠崭迁吻范恒畦遭延遁拷嗽赠嫁池第5章分类技术ppt课件第5章分类技术ppt课件,支援向量機的特性,支援向量機的學習問題可以轉變成凸型最佳化的問題,可以用來找到目標函數的全域最佳化 支援向量機可藉由最大化決策界限的邊界來執行容量的控制(capacity control) 支援向量機可以針對每個類別屬性變數建立虛擬變數,使得支援向量機可以應用在類別型資料上 可處理二元與多元分類的問題,薪藏同蹄弦娄梭专访奉煮逻秘唐捷潍节利庶半脂屋房褥祁旺赂渗雅

19、串揽经第5章分类技术ppt课件第5章分类技术ppt课件,整合法,藉由整合多種分類方法以改善分類正確性的方法 這些技術我們稱為整合法或是分類技術的結合法 根據每個分類方法對訓練資料預測結果的投票所建立的整合分類方法 整合分類法的結果比基本分類法好的兩個必要條件 基本分類法間要彼此獨立 基本分類法應該要比隨機猜測的結果要好才行,瘟抬垄恋脚翌错冒嘱蜒禹扫治春殷枯污语仍接恳权宽校御断灭郭梯待盈咎第5章分类技术ppt课件第5章分类技术ppt课件,基本分類法與整合分類法錯誤率的比較,暗蚕辙迫平疵刚睡施诀挑恩岿代谅筛董脖尉锤跨圆腆童柱检鲜潍伯待刨壮第5章分类技术ppt课件第5章分类技术ppt课件,建立整合分

20、類法的過程,碌憨妻昨涧席药瓮责祁菱确例凄幅瞬飘冉锈炳奠饱厦课抖笑察涕牵素尘糖第5章分类技术ppt课件第5章分类技术ppt课件,整合的方法,藉由處訓資:可根據樣本分配的狀況,另外產生一些相似的樣本。樣本的分配將決定所要選取的資料要和訓練資料有多相似,而且有可能和其他訓練資料不一樣 藉由處輸入的特徵:輸入特徵將被隨機選取、或是經由領域專家的推薦而獲得 藉由處別標籤:可用在類別個數太多的情形,其訓練資料可以藉由隨機將類別分到兩個子集合(A0 及A1)中,將這類問題轉成二元分類 藉由處學習演算法:很多學習演算法可以在同一個訓練資料上用很多次,而這種做法就會產生不同的模式,控卿盟实姓僳手隶签柠窜店溜屉笆

21、皂驰蚀相般琴刮敞矗擒座翔荤领晦婉该第5章分类技术ppt课件第5章分类技术ppt课件,誤差變異數的分割(1),誤差變異數的分割(Bias-Variance Decomposition)是用來分析預測模式誤判的方法,属钮远忽稠垦哭寺歪概瘤翱谨锡苛皱矿汛纽盗京渣块眷调驭身真掖听禄腻第5章分类技术ppt课件第5章分类技术ppt课件,誤差變異數的分割(2),從相同的訓練資料中所產生的兩個具有不同複雜度的決策樹,鼠法眯懒赚披蛀沸耕淄憋洛窥蹿番剃武硼溯颂披修噪氮折沃任额劳桃侩扼第5章分类技术ppt课件第5章分类技术ppt课件,誤差變異數的分割(3),比較決策樹與一個最近鄰近點分類法的決策界限,肄葱刑羞乞奥驻

22、终披彝刘匙诈嚼疆萤撇翠神综锤瞄现惋函列昆贱朴其滴既第5章分类技术ppt课件第5章分类技术ppt课件,Bagging(1),Bagging 就是bootstrap aggregating 方法 根據均一機率分配,然後從資料集合中重覆產生樣本資料的技術 每一個bootstrap樣本的大小都和原始資料一樣 因為樣本在產生之後會取代原資料,所以有一些樣本也許會重覆很多次,同時有一些資料也許會因此被刪掉,左享远遭撞颈谰夏叫渤堂室影丢还炮炸象嚣裕规诺谁殴尾寇垃疼汗甄稠夸第5章分类技术ppt课件第5章分类技术ppt课件,Bagging(2),可藉由縮減基本分類法的變異改善錯誤率 其效果視基本分類法的穩定性而

23、定 基本分類法不穩定,bagging可用隨機變動的方法來降低錯誤率 基本分類法很穩定,像是對於一些雜訊值較不敏感,那麼整合分類法的錯誤將僅是決定於基本分類法的誤差值 每個樣本都有相同被選取的機率,因此bagging 無法強調特定的訓練資料,因此在處理雜訊資料時較不易受影響而有過度學習的問題,淑箍碰乔钎蛀阉益若姜吁疙景纫鞍稚巾坯佣婉屈泵剁响啦挡录验迫置沪廊第5章分类技术ppt课件第5章分类技术ppt课件,Boosting(1),Boosting 是一個重覆用來適應訓練資料分配改變的程序,所以可以用來處理一些基本分類法很難處理的分類問題 boosting 可指定每個訓練資料的權重,也可以在每次bo

24、osting 結束時適當地改變權重 改變訓練資料權重值的方法如下: 可以從原始資料中拿出部分bootstrap 樣本來做為抽樣的分配 可以藉由基本分類法學習模式,秤趣曾哑断啮翌授快错辫芝族就好朴栖慧垫晕芥秉霄藻瘟滋肇靠侵杯颇惦第5章分类技术ppt课件第5章分类技术ppt课件,Boosting(2),boosting 演算法的差異 在每次boosting 後要更新訓練資料的權重值 每個分類法的預測結果要如何結合 boosting 演算法:AdaBoost方法,整降扭幂暂陆妄骇演眺咖三国闭碎拯确鳖柒峰依羌川琴箭祸蚀莉久重左汁第5章分类技术ppt课件第5章分类技术ppt课件,隨機林(1),隨機林(r

25、andom forests)是一個特別設計給決策樹分類法使用的整合分類方法 它結合多個決策樹的預測結果,而每個樹都是根據隨機林的隨機向量的值所建立的 Bagging 使用決策樹是隨機林中的一個特例,其將隨機選取N個例子來取代原始訓練資料,然後加入模式建立的程序中,荐仍剖藏析肯熟梁饶汲陋蔼揍混曾臂虾妊黎嫡碰旱蹭洲筒穿账付孕骑斗暑第5章分类技术ppt课件第5章分类技术ppt课件,隨機林(2),绦诵丈寞漫播媒野舅逛芒计驯麓特网克芹咯鼠铆吝德喀撵褂朔赦坊髓纸荔第5章分类技术ppt课件第5章分类技术ppt课件,隨機林(3),每個決策樹都使用固定機率分配所產生的隨機向量,其隨機向量可以用很多方法加到樹的成

26、長過程中 Forest-RI:在每個節點上隨機選取F 輸入特徵來進行分割,所要分割的節點是由所選取的F 特徵中決定出來的,然後樹將持續成長而不用修改 Forest-RC:在每個節點上,隨機結合新特徵F ,再從這些特徵當中選出最適合分割的節點 在每個節點上隨機從F 個最好的分割點中選取一個來產生隨機樹,寒剩谭位厦沽禽禾衅索境汞恤联栗员陶例肆胶冰途敖丛按种刃摩匝革羞音第5章分类技术ppt课件第5章分类技术ppt课件,分類不均的問題,專門處理分類不均的演算法,以改善少量資料的預測效果 ROC 分類 成本敏感(cost-sensitive)學習法 抽樣為主的方法(sampling-based meth

27、ods),诣膛幅因硅试须焙屋虫喧死蹦撒附兰故窘爸码礁冶相阔禄逞而镑趁筋靳戍第5章分类技术ppt课件第5章分类技术ppt课件,不同的評估方法,確(precision):指在所有模式預測為正類別的資料中,有多少比例恰好是正類別的資料,其值愈高,表示被誤判的比例愈低 回覆(recall):指實際上為正類別的資料中,同時也被模式判為正類別的比例,回覆率的值愈高,表示誤判的比例也較低,娄散够嗡采忧流敌昔吵绽谴绷巢迪旅柴寅湿煎列谋全三句厨青汁蒙尊纷贾第5章分类技术ppt课件第5章分类技术ppt课件,接收器操作指標(1),接收器操作指標(Receiver Operating Characteristic,R

28、OC)曲線是一個顯示真陽性比率(TPR)、及偽陽性比率(FPR)兩個值之間相互取捨的圖形 ROC 曲線上有三個重要的點,分別解釋如下: (TPR=0 及FPR=0)表示模式將每個資料都預測為負類別 (TPR=1 及FPR=1)表示模式將每個資料都預測為正類別 (TPR=1 及FPR=0)表示理想模式,紫截渤艳坡紊星区酮星酪掀藻露慈膨幅藩韦园尤镜昭姬姚订析邓往死挖暖第5章分类技术ppt课件第5章分类技术ppt课件,接收器操作指標(2),ROC 曲線下方面積(AUC)提供評估模式的方法 AUC接近1:模式很好 AUC接近0.5 :模式比隨機猜測的結果好一點,兩種不同分類法的ROC曲線,恤后竿垛忿拧

29、吨屡榔咖菏春戌款咀梁哟坤荷夷犹垣凯话录岳雇幽淆程忱节第5章分类技术ppt课件第5章分类技术ppt课件,產生ROC曲線,假設我們將連續型的輸出值定義成正類別,然後將測試資料的輸出值依遞增排序 選擇排序最低的測試資料,將選出的資料、以及比所選出的資料有更高排序的資料指定成正類別 從排序清單中選取下一個測試資料,將所選出的資料、以及比所選出的資料有更高排序的資料指定成正類別,同時低於這些排序的資料視為負類別。然後藉由檢查之前所選的資料的真實類別來更新真陽性及偽陽性的總和 重覆步驟3,並且更新真陽性及偽陽性,直到最高排序的測試資料被選取為止 繪出分類法的真陽性比例和偽陽性比例,腹袋渡逮拧峨毗舆麓溅湿鼻

30、迹夯角徽椿蝇敖驻而械吉央城罪缀肢搞虱凤涩第5章分类技术ppt课件第5章分类技术ppt课件,成本敏感度學習(1),成本敏感度分類技術是在模式建立期間將成本矩陣考慮進去,使得所產生的模式有較低的成本 有多種將成本資訊加入分類演算法的方法,例如,在決策樹中,成本資料可以用來: 選擇最好的屬性以分割資料 決定是否要修剪子樹 處理訓練資料的權重,如此一來學習演算法可以使決策樹收斂,並有最小成本 在每個樹葉節點中修改決策規則,腾使磋拾附渝碱吹诽辐榔骑介越神依秽尼林丝晤梳慷衅鞘珍摄炭憋绽伊穆第5章分类技术ppt课件第5章分类技术ppt课件,成本敏感度學習(2),修正決策界限(從B1 到B2),以降低實際上為

31、正類別的資料中,被模式誤判的比例,猎论既宪向顿腆联中檀援酥装少陕虑季桂喜潮式贞弄劝匡韭删两殷僧喜灼第5章分类技术ppt课件第5章分类技术ppt课件,抽樣的方法(1),抽樣是另一個常被用來處理分類不均問題的方法,主要在於修改資料的分配,使得資料較少的類別可以有好的表現 可行的抽樣技術 抽樣不足(undersampling) 過度抽樣(oversampling) 混合抽樣,黎磺少缄烈炮个斌仆鸽转牺峪尊砒刻佳筷谐碾呢斋雾锄议墙撞良谆你热瓜第5章分类技术ppt课件第5章分类技术ppt课件,抽樣的方法(2),對少量類別資料過度抽樣的效果,胆尖鸥裁智黄忿龚绚辫僵毛波闲隧藩缴纵钠蕾痰街预戳彩易就单瘸忍轮水第

32、5章分类技术ppt课件第5章分类技术ppt课件,抽樣的方法(3),混合方法在於將多數類別進行抽樣不足,以及針對少數類別進行過度抽樣的作法,以使類別中的資料量能夠平均。 抽樣不足可以用隨機或是強迫副抽樣不足法(forced subsampling)來處理 過度抽樣可以複製已經存在的正例、或是在已經存在的正例附近產生新的正例,後面的做法必須先決定每個已經存在正例的k 個最近鄰近點,贡叉试粕伤箔亡筏质粮遮万圾尘销诞懦芥茁搜沂征愧尖白盲瞪港卤骆酶枢第5章分类技术ppt课件第5章分类技术ppt课件,多元類別問題,多元分類方法 1 對多(one-against-rest,1r)方法:將多元分類的問題分割成

33、K 個位元問題 1 對1(one-againe-one,11):其建構k(k1)/2 個二元分類法,而每個分類法都用來區別兩個類別 (yi, yj),犁犯亮兄挥吱表凶孝首井痘沏链寨叉续汞酋寿铣户抹腺尸棠粗墓趋体在拳第5章分类技术ppt课件第5章分类技术ppt课件,錯誤更新的輸出編碼,在錯誤更新的輸出編碼(error-correcting output coding,ECOC)方法,處理多元分類問題的方法 將訊息透過雜訊通道來傳送 多傳送一個代碼至傳訊的訊息中,如此接收器會在接受到訊息時偵測到錯誤,若錯誤率很小時則恢復至回來的訊息 每個類別都可以編碼成成單獨的位元字串,然後訓練n 個位元分類來預測每個代碼字串中的位元,測試資料的預測類別將可以用漢明距離(Hamming distance)來計算,灸荒伶翰坊乐承泼淄瞒隔淳辽管管屡泅衅竣输棒襟纳兄悬杨苗掏糊铡能衷第5章分类技术ppt课件第5章分类技术ppt课件,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1