课件资料探勘DataMining.ppt

上传人:本田雅阁 文档编号:2612818 上传时间:2019-04-18 格式:PPT 页数:69 大小:1.68MB
返回 下载 相关 举报
课件资料探勘DataMining.ppt_第1页
第1页 / 共69页
课件资料探勘DataMining.ppt_第2页
第2页 / 共69页
课件资料探勘DataMining.ppt_第3页
第3页 / 共69页
亲,该文档总共69页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《课件资料探勘DataMining.ppt》由会员分享,可在线阅读,更多相关《课件资料探勘DataMining.ppt(69页珍藏版)》请在三一文库上搜索。

1、資料探勘資料探勘 (Data Mining) 1 課程特色課程特色 理論與實務並重理論與實務並重 深入淺出,減少繁雜的學理性探討,深入淺出,減少繁雜的學理性探討, 著重觀念及實際應用著重觀念及實際應用 以以SQL 2005及自行開發之及自行開發之 DMAS 2.0作作 為實務講解工具為實務講解工具 提供教學資源網站提供教學資源網站 (http:/rss.cis.nctu.edu.tw/data-mining) 2 內容概要內容概要 PART I:基本與進階之資料探勘技術:基本與進階之資料探勘技術 PART II:資料探勘之深入應用:資料探勘之深入應用 PART III:軟體工具和專案實作:軟體

2、工具和專案實作 中英對照表中英對照表 P.S. 書中標示書中標示 *及及*的章節表示選擇性授的章節表示選擇性授 課單元,如授課時數有限時,可略過課單元,如授課時數有限時,可略過 。 3 授課計畫授課計畫 (1) PART I 基本與進階之資料探勘技術基本與進階之資料探勘技術 (38hr40hr) 第一章第一章 簡介簡介 (4hr) 第二章資料倉儲第二章資料倉儲 (6hr) 第三章第三章 資料前置處理資料前置處理 (3hr) 第四章第四章 資料精簡資料精簡 (3hr) 第五章第五章 資料分類法資料分類法 (6hr) 第六章第六章 資料群集分析資料群集分析 (6hr) 第七章第七章 關連法則探勘關

3、連法則探勘 (6hr) 第八章第八章 時間序列分析時間序列分析 (4hr6hr) 4 授課計畫授課計畫 (2) PART II 資料探勘之深入應用資料探勘之深入應用 (3hr11hr) 第九章第九章 網頁資料探勘網頁資料探勘 (3hr) 第十章第十章 網路入侵偵測系統網路入侵偵測系統(0hr4hr) 第十一章第十一章 數位學習數位學習 (0hr4hr) PART III軟體工具和專案實作軟體工具和專案實作 (4hr7hr) 第十二章第十二章 工具介紹工具介紹 (3hr6hr) 第十三章第十三章 案例探討案例探討 -圖書借閱圖書借閱 (1hr) 5 第一章第一章 簡簡 介介 6 奇奇電視購物您好

4、, 敝姓陳,很高興為您 服務。 陳小姐妳好, 我想要 先生,請先告訴我您 的身分證號碼 喔!我的身分證 號碼是 A123456789 王先生您好,先跟您核對一下個 人資料:您住在民生路二段34號 5樓,您家電話是21234567,您 的公司電話是29876543,您的行 動電話是0915123456。是嗎? 沒錯!你怎麼知 道得這麼詳細? 王先生,因為我們已經連 線到神機妙算客服系統 喔!我想要訂購 一台室內跑步機 送給我老婆當生 日禮物 王先生,室內跑步機不適 合您太太喔。 為什麼? 根據您太太的醫療紀錄, 她有膝關節疼痛的毛病, 不適合做跑步運動 那妳能不能推 薦其他的禮物? 您可以試試看

5、我們新推出 的全方位按摩椅,不必做 激烈運動也能達到全身運 動的效果,而且您自己也 可以使用喔! 喔 妳怎麼知道 我剛好想買按摩椅呢? 因為根據google的使用紀 錄,您上星期用按摩椅 這個關鍵字搜尋了24次 喔!可是我怕按摩椅 太大,我的臥室會放 不下 您所住的房子臥室有五坪 大,而您只購買過一張雙 人床和一座四尺寬的衣櫃 ,剩下來的空間放這台按 摩椅應該沒問題喔! 喔!那這台按摩椅要 賣多少錢呢? 今天我們剛好有做特惠, 原價一萬元,現在只賣五 千元 請問妳們有 收信用卡嗎? 對不起,要請您用現金付 款,因為您的兩張信用卡 都已經刷爆了,現在還欠 銀行六萬七千八百三十五 元 喔!那我先去

6、領錢 ,妳們趕快把按摩 椅送過來吧! 對不起,您今天提領 的現金已經超過提款 機的每日提款限額囉 喔?我手邊的現金 應該還夠,妳們快 把按摩椅送過來吧 我們要先安排司機送貨路 線,最快大約要三小時才 能送到,如果您等不及, 可以自己開車過來載 什麼?! 您不是剛買了一輛 Discovery休旅車,車號是 KG-3838,用這台車載按 摩椅剛剛好 啊?好吧!那我自 己過去載好了 好的!我立刻請庫房幫您 備貨。不過,王先生,要 請您開慢一點,因為您今 年總共已經被開了13張超 速罰單了! 7 運用探勘技術從大量資料中挖掘出資運用探勘技術從大量資料中挖掘出資 料之間的料之間的 關連性關連性 以及以及

7、 隱藏的知識隱藏的知識 ,要,要 實現實現 神機妙算客服系統神機妙算客服系統所提供的所提供的 個人化服務,並非遙不可及個人化服務,並非遙不可及! 企業現階段急需運用資料探勘技術,企業現階段急需運用資料探勘技術, 輔助決策者在對的時刻做對的決策!輔助決策者在對的時刻做對的決策! 學術界積極培養資料探勘技術應用人學術界積極培養資料探勘技術應用人 才為當務之急!才為當務之急! 8 第一章第一章 資料探勘簡介資料探勘簡介 緣起緣起 何謂資料探勘何謂資料探勘 資料探勘的演進資料探勘的演進 資料探勘與其他系統的比較資料探勘與其他系統的比較 知識發現的過程知識發現的過程 資料探勘常用的技術資料探勘常用的技術

8、 資料探勘的模型資料探勘的模型 資料探勘的應用資料探勘的應用 資料探勘的工具資料探勘的工具 資料探勘未來的發展與挑戰資料探勘未來的發展與挑戰 9 資料探勘的目的資料探勘的目的 從大量資料中挖掘從大量資料中挖掘有價值的資訊有價值的資訊 , 供管供管 理人員做為決策參考,開創新商業契理人員做為決策參考,開創新商業契 機機 成功經驗成功經驗 美國超級市場美國超級市場 (Wal-Mart) 銷售資料分析發現,尿布和啤酒常會一起購銷售資料分析發現,尿布和啤酒常會一起購 買,於是將商品放在一起促銷,得到意想不買,於是將商品放在一起促銷,得到意想不 到的業績成長到的業績成長 美國銀行美國銀行 (Bank o

9、f America) 從客戶資料中,找出既有客戶申請貸款的時從客戶資料中,找出既有客戶申請貸款的時 機,機, 規劃全新行銷方案;該方案推出後,接受率規劃全新行銷方案;該方案推出後,接受率 立即立即 成長兩倍以上成長兩倍以上 10 資料探勘的應用資料探勘的應用 以類似以類似 PC-Home之線上之線上 購物商店為例購物商店為例 可獲取之資料可獲取之資料 顧客居住地區、年齡、性別、個人資料、顧客居住地區、年齡、性別、個人資料、 交易紀錄交易紀錄 可進行之資料探勘應用可進行之資料探勘應用: 建立個人化行銷模式建立個人化行銷模式 找出潛在的客戶名單找出潛在的客戶名單 了解顧客族群的屬性了解顧客族群的屬

10、性 預測目前哪些顧客可能流失預測目前哪些顧客可能流失 11 資料探勘的興起資料探勘的興起 歸功三項技術的成熟歸功三項技術的成熟 大量資料的收集技術大量資料的收集技術: 網路發達、關聯式資料庫網路發達、關聯式資料庫(relational database) 應用廣泛、整合技術成熟應用廣泛、整合技術成熟 高效能的多處理器電腦架構高效能的多處理器電腦架構 平行處理架構,使大量資料處理能在可容忍平行處理架構,使大量資料處理能在可容忍 的時間內完成的時間內完成 資料探勘演算法的成熟資料探勘演算法的成熟 包括統計學包括統計學 (statistics)、人工智慧人工智慧 (artificial intell

11、igence) 、機器學習機器學習 (machine learning) 、 基因演算法基因演算法 ( genetic algorithms ) 等等等等 12 資料探勘的功能資料探勘的功能 預測未來的趨勢預測未來的趨勢 股市行情預測股市行情預測 天氣預測天氣預測 地震預測地震預測 消費行為預測消費行為預測 商品出貨量預測商品出貨量預測 等等等等 找出未知的樣式找出未知的樣式 找出會購買筆記型電腦的顧客特徵找出會購買筆記型電腦的顧客特徵 依消費習性相近的顧客進行群組依消費習性相近的顧客進行群組 推薦鑑別消費者可能會同時購買的商品組推薦鑑別消費者可能會同時購買的商品組 合合等等等等 13 第一章

12、第一章 資料探勘簡介資料探勘簡介 緣起緣起 何謂資料探勘 資料探勘的演進資料探勘的演進 資料探勘與其他系統的比較資料探勘與其他系統的比較 知識發現的過程知識發現的過程 資料探勘常用的技術資料探勘常用的技術 資料探勘的模型資料探勘的模型 資料探勘的應用資料探勘的應用 資料探勘的工具資料探勘的工具 資料探勘未來的發展與挑戰資料探勘未來的發展與挑戰 14 何謂資料探勘何謂資料探勘 (1) 學者曾對資料探勘做過的定義學者曾對資料探勘做過的定義 Frawley 資料庫中挖掘潛在、明確、而且非常有用資訊的資料庫中挖掘潛在、明確、而且非常有用資訊的 過程過程 Grupe & Owrang 從已存在的資料庫當

13、中挖掘出專家仍未知的新事從已存在的資料庫當中挖掘出專家仍未知的新事 實實 Fayyad 定義知識發掘定義知識發掘 (Knowledge Discovery) 為從大量資為從大量資 料中選取合適的資料,進行資料處理、轉換等工料中選取合適的資料,進行資料處理、轉換等工 作,再進行資料探勘與結果評估的一系列過程作,再進行資料探勘與結果評估的一系列過程 Berry & Linoff 使用自動或半自動的方法,對大量資料分析,找使用自動或半自動的方法,對大量資料分析,找 出有意義的關係或法則。出有意義的關係或法則。 15 何謂資料探勘何謂資料探勘 (2) 資料探勘資料探勘 =資料庫之知識發掘資料庫之知識發

14、掘(Knowledge Discovery in Databases,簡稱,簡稱 KDD) 從大型資料庫裡頭所儲存的資料當中去萃從大型資料庫裡頭所儲存的資料當中去萃 取出一些有趣的知識取出一些有趣的知識 知識知識 指的就是一些規則指的就是一些規則 大型資料庫包括大型資料庫包括 線上作業的資料庫線上作業的資料庫 (On-line Database) 及資料倉儲及資料倉儲 (Data Warehouse)等等等等 知識範例知識範例 如果顧客的年齡是在三十歲到四十歲之間,如果顧客的年齡是在三十歲到四十歲之間, 而且年收入是在四十萬到六十萬之間,那麼此而且年收入是在四十萬到六十萬之間,那麼此 顧客很有

15、可能會購買筆記型電腦。顧客很有可能會購買筆記型電腦。 16 第一章第一章 資料探勘簡介資料探勘簡介 緣起緣起 何謂資料探勘何謂資料探勘 資料探勘的演進資料探勘的演進 資料探勘與其他系統的比較資料探勘與其他系統的比較 知識發現的過程知識發現的過程 資料探勘常用的技術資料探勘常用的技術 資料探勘的模型資料探勘的模型 資料探勘的應用資料探勘的應用 資料探勘的工具資料探勘的工具 資料探勘未來的發展與挑戰資料探勘未來的發展與挑戰 17 資料探勘歷史資料探勘歷史 演進步驟目標企業問題應用技術系統供應商系統特性 檔案系統 (1960年代) “2002年12月筆記型 電腦的銷售明細為 何?” 電腦、磁帶、磁碟

16、IBM, CDC傳遞歷史性 的靜態資料 資料庫系統 (1970年代) “IBM X31筆記型電 腦目前的售價是多 少?” 階層式資料庫(hierarchical database)、網路式資料庫 (network database)、關聯式 資料庫(relational database)、 結構化查詢語言(SQL) 、開 放性資料庫連結協定 (ODBC) Oracle, Sybase, Informix, IBM, Microsoft 傳遞即時性 的單層次動 態資料 資料倉儲系統 (1990年代) “去年北部地區筆記 型電腦的總銷售量是 多少?其中台北市的 銷售量是多少?” 線上分析處理 (

17、OLAP)、多 維度資料模 (multidimensional data model)、資料倉儲 (data warehouse) Pilot, Comshare, Arbor, Cognos, Microstrategy, Microsoft 傳遞歷史性 的多層次動 態資料 資料探勘系統 (現代) “明年筆記型電腦的 預估銷售量為何? 為 什麼?” 進階演算法、多處理器電腦 系統、大量資料儲存技術、 人工智慧 Pilot, Lockheed, IBM, SGI 傳遞預知 的、鑑往知 來的資訊 18 資料探勘的演進資料探勘的演進 資料庫資料庫 資料倉儲資料倉儲 資料探勘資料探勘 資料資料 資訊

18、資訊 知識知識 資料操作員資料操作員 資料分析師資料分析師 管理決策者管理決策者 專家系統專家系統 知識庫系統知識庫系統 決策支援系決策支援系 統統 19 第一章第一章 資料探勘簡介資料探勘簡介 緣起緣起 何謂資料探勘何謂資料探勘 資料探勘的演進資料探勘的演進 資料探勘與其他系統的比較資料探勘與其他系統的比較 知識發現的過程知識發現的過程 資料探勘常用的技術資料探勘常用的技術 資料探勘的模型資料探勘的模型 資料探勘的應用資料探勘的應用 資料探勘的工具資料探勘的工具 資料探勘未來的發展與挑戰資料探勘未來的發展與挑戰 20 與決策支援系統的不同點與決策支援系統的不同點 決策支援系統決策支援系統 (

19、Decision Support System,DSS) 依決策模型或推論規則依決策模型或推論規則、提供建議提供建議 可以來自於領域專家可以來自於領域專家(Domain Expert)的的經驗法經驗法 則則 可運用知識工程可運用知識工程 (Knowledge Engineering)的的技術技術 自專家腦中擷取自專家腦中擷取 可以用資料探勘技術所分析歸納出來的隱藏規可以用資料探勘技術所分析歸納出來的隱藏規 則則 資料探勘系統資料探勘系統 自動化的資料分析與預測自動化的資料分析與預測 21 與線上分析的不同點與線上分析的不同點 線上分析線上分析 (On-Line Analytical Proce

20、ssing,簡稱 OLAP) 對對制式化制式化 、關連性低關連性低 的資料分析,的資料分析, 統計數據統計數據 供決策人供決策人 員參考員參考 讓零售業瞭解不同產品、銷售區域對於成本及營業毛利讓零售業瞭解不同產品、銷售區域對於成本及營業毛利 之影響,之影響, 但無法了解顧客的購買行為模式但無法了解顧客的購買行為模式 線上分析處理資料探勘 多少人曾購買筆記型電腦?哪些顧客可能會購買筆記型電腦? 上個月有多少顧客沒有進入網站瀏覽 商品? 哪些顧客較有可能在未來三個月內不 上站瀏覽商品? 顧客的平均單月消費總金額是多少?哪些顧客下個月的消費有可能會超過 一萬元? 哪些顧客訂單超過三天未付款?哪些顧客

21、較有可能延遲付款? 電子報的點閱率多少?電子報行銷方式對那些會員較有效? 去年的銷售業績統計報表明年預期之銷售業績額度。 22 與統計分析的不同點與統計分析的不同點(1) 統計分析統計分析(Statistical Analysis) 以假設以假設(Hypothesis)及驗證及驗證(Verification)為基礎為基礎 對對較少資料較少資料 ,資料間的關連性或統計學上不同,資料間的關連性或統計學上不同 標的分析標的分析 由具由具 專業專家專業專家 對統計結果加以檢測對統計結果加以檢測 資料探勘資料探勘 以發現以發現(Discovery)為基礎,著重樣式辨為基礎,著重樣式辨 認認 供不具專業背

22、景的使用者(高層決策人員)使供不具專業背景的使用者(高層決策人員)使 用用 23 與統計分析的不同點與統計分析的不同點(2) 範例範例 統計分析統計分析 女性和男性消費者個別在本月的消費總額女性和男性消費者個別在本月的消費總額 不同網域的消費者在本月的消費總額不同網域的消費者在本月的消費總額 不同年齡層的消費者在本月的消費總額等不同年齡層的消費者在本月的消費總額等 資料探勘資料探勘 找出如下的規則:找出如下的規則: IF 住在台北住在台北 AND 性別是男性性別是男性 AND 年齡介於年齡介於 37到到42歲之間歲之間 THEN 購買筆記型電腦的可能性是購買筆記型電腦的可能性是 85% 24

23、第一章第一章 資料探勘簡介資料探勘簡介 緣起緣起 何謂資料探勘何謂資料探勘 資料探勘的演進資料探勘的演進 資料探勘與其他系統的比較資料探勘與其他系統的比較 知識發現的過程 資料探勘常用的技術資料探勘常用的技術 資料探勘的模型資料探勘的模型 資料探勘的應用資料探勘的應用 資料探勘的工具資料探勘的工具 資料探勘未來的發展與挑戰資料探勘未來的發展與挑戰 25 知識發現的過程知識發現的過程 資料前置處理資料前置處理 資料倉儲建資料倉儲建 立立 資料探資料探 勘勘 樣式評樣式評 估估 結果展示結果展示 知識庫知識庫 使用者使用者 多維度資料庫多維度資料庫 資料庫資料庫 原始資原始資 料料 資料收集資料收

24、集 資料庫資料庫 26 資料收集資料收集 知識發現的第一個步驟知識發現的第一個步驟 原始資料來源原始資料來源 資料庫系統資料庫系統 Excel表格表格 文字檔文字檔 網際網路網際網路 問卷調查問卷調查 等等等等 27 資料前置處理資料前置處理 原因原因 真實的資料非常雜亂,且收集資料的真實的資料非常雜亂,且收集資料的 工具並沒有做精確的檢查,導致收集工具並沒有做精確的檢查,導致收集 到的資料,並不見得全都可用到的資料,並不見得全都可用 資料探勘有資料探勘有 80%時間花費在前置作業時間花費在前置作業 包含資料的淨化包含資料的淨化 、格式轉換、表格的連格式轉換、表格的連 結等前置作業結等前置作業

25、 28 資料倉儲的建立資料倉儲的建立 決策支援系統的基礎決策支援系統的基礎 含整合資料、詳細資料含整合資料、詳細資料、總合性總合性 (summarized)資料資料 、歷史性資料歷史性資料 、描述資描述資 料料、綱要資料綱要資料 線上分析處理線上分析處理(On-Line Analytical Processing,OLAP) 統計統計 、分析功能分析功能 可由關聯式資料庫建構可由關聯式資料庫建構 Sybase、Oracle、Redbrick等等 OLAP 提供多維度結構提供多維度結構 (multidimensional structures) 使用者依據不同維度,例如產品、地區使用者依據不同維

26、度,例如產品、地區、其它更透徹的其它更透徹的 觀察角度做統計觀察角度做統計 29 資料探勘資料探勘 用統計與模型化的方法用統計與模型化的方法 資料倉儲所提供的資訊,供資料探勘資料倉儲所提供的資訊,供資料探勘 做進步挖掘做進步挖掘 ,而萃取隱藏知識後,而萃取隱藏知識後, 再轉到知識庫再轉到知識庫 資料探勘是資料探勘是 知識發現知識發現 的一部分的一部分 知識發現的過程會影響資料探勘的成功知識發現的過程會影響資料探勘的成功 30 樣式評估樣式評估 樣式評估樣式評估(pattern evaluation) 評估所挖掘的知識是不是真的有用評估所挖掘的知識是不是真的有用 ? 過濾沒用的資訊,最後剩下有價

27、值的知識過濾沒用的資訊,最後剩下有價值的知識 供給使用者供給使用者 範例範例 天氣好,旅遊人數就多;天氣差,旅遊天氣好,旅遊人數就多;天氣差,旅遊 人數就少,這樣的探勘結果我們可能認人數就少,這樣的探勘結果我們可能認 為它為它 “有趣有趣 ”的程度並不高,因為它是屬於一的程度並不高,因為它是屬於一 般常識般常識 31 結果展示結果展示 複雜的探勘結果要讓使用者看懂並不容複雜的探勘結果要讓使用者看懂並不容 易易 需要圖形化介面,把有趣的知識做好的呈需要圖形化介面,把有趣的知識做好的呈 現現 例如:例如: Microsoft SQL Server 2005的圖形化的圖形化 介面非常豐富介面非常豐富

28、 用類似油表的燈號,讓使用者看到現在的預算用類似油表的燈號,讓使用者看到現在的預算 消耗量是加滿油的狀態、還是沒有油的狀態消耗量是加滿油的狀態、還是沒有油的狀態 32 第一章第一章 資料探勘簡介資料探勘簡介 緣起緣起 何謂資料探勘何謂資料探勘 資料探勘的演進資料探勘的演進 資料探勘與其他系統的比較資料探勘與其他系統的比較 知識發現的過程知識發現的過程 資料探勘常用的技術 資料探勘的模型資料探勘的模型 資料探勘的應用資料探勘的應用 資料探勘的工具資料探勘的工具 資料探勘未來的發展與挑戰資料探勘未來的發展與挑戰 33 資料探勘常用的技術資料探勘常用的技術 傳統技術傳統技術 以統計分析為代表以統計分

29、析為代表 包括敘述統計、機率論、迴歸分析、類別資包括敘述統計、機率論、迴歸分析、類別資 料分析料分析 用高等統計學含括的變因分析用高等統計學含括的變因分析 (factor analysis)精精 簡變數簡變數 用區隔分析用區隔分析 (discriminated analysis) 來做分類來做分類 用群集分析用群集分析 (cluster analysis) 對象對象 大多是變數繁多且筆數龐大的資料大多是變數繁多且筆數龐大的資料 34 資料探勘常用的技術資料探勘常用的技術(續續) 改良技術改良技術 類神經網路類神經網路(artificial neural network) 決策樹決策樹(deci

30、sion tree) 基因演算法基因演算法(genetic algorithms) 規則推論法規則推論法(rules induction) 模糊理論模糊理論(fuzzy logic) 35 類神經網路類神經網路 何謂類神經網路何謂類神經網路 模仿生物神經網路,用大量人工神經元模仿生物神經網路,用大量人工神經元(neuron)模擬模擬 高速的運算功能,有記憶、學習、容錯能力高速的運算功能,有記憶、學習、容錯能力 運算方法運算方法 用許多參數建立一個模式,過程中需要提供資料給網用許多參數建立一個模式,過程中需要提供資料給網 路,能夠產生路,能夠產生一組一組最佳結果的加權值最佳結果的加權值(weig

31、hts) 訓練方法回溯訓練方法回溯 (back-propagation) 特性特性 預測根據不明確預測根據不明確 對於測試資料可以做相當正確的預測,但對於真實資對於測試資料可以做相當正確的預測,但對於真實資 料的預測,準確性差料的預測,準確性差 36 類神經網路類神經網路 運算範例運算範例 n維的輸入向量維的輸入向量 x,透過矩陣相乘透過矩陣相乘 (scalar product)和非線性函數映射的方法,對應和非線性函數映射的方法,對應 到變數到變數 y mk - f 權重加權重加 總總 輸入向量輸入向量 x 輸出輸出 y 活化函數活化函數 (Activation Function) 權重向量權

32、重向量 w w0 w1 wn x0 x1 xn 37 決策樹決策樹 何謂決策樹何謂決策樹 用樹狀結構產生規則用樹狀結構產生規則 內部節點內部節點(internal node)某項屬性的測試某項屬性的測試 分支分支(brache)被測試屬性當中一個可能的被測試屬性當中一個可能的 值值 葉節點葉節點(leaf node)布林函數布林函數 運算方法運算方法 樹的每個節點都是判斷式,判斷所輸入資料樹的每個節點都是判斷式,判斷所輸入資料 是否等於某個屬性值,構成樹狀結構是否等於某個屬性值,構成樹狀結構 特性特性 適用於所有的分類問題適用於所有的分類問題 不一定較準確,但容易了解不一定較準確,但容易了解

33、38 決策樹範例決策樹範例 -購買筆記型電腦購買筆記型電腦 39 基因演算法基因演算法 1960 年代年代 John Von Neumann 提出一個自我複製提出一個自我複製 (self-reproducing) 的理的理 論,奠定了基因演算法的基礎論,奠定了基因演算法的基礎 美國密西根大學教授美國密西根大學教授John Holland 延續此觀念,於延續此觀念,於 1970 年發展出簡單基因演算年發展出簡單基因演算 法(法( Simple Genetic Algorithms 簡稱簡稱 SGA),使),使 基因演算法的架構有了初步的雛型基因演算法的架構有了初步的雛型 40 基因演算法基因演算

34、法 (續續) 基因演算法基因演算法(最佳化空間搜尋法最佳化空間搜尋法) 適合解決最佳化問題適合解決最佳化問題 物競天擇物競天擇 、適者生存,不適者淘汰適者生存,不適者淘汰 運算方法運算方法 選擇選擇(selection)、複製、複製 (reproduction)、交配交配 (crossover)、突變突變(mutation)進行演化,求最佳進行演化,求最佳 解解 特性特性 高度的問題獨立性高度的問題獨立性 不容易陷入局部最佳化不容易陷入局部最佳化(local optimum),而向,而向 整體最佳解收斂整體最佳解收斂(global optimum) 41 透過適應函數 Fitness func

35、tion 對每 一個個體進行評估,並賦予每一個 個體一個適應值Fitness value 選擇 Selection 複製 Reproduction 交配 Crossover 突變 Mutation 群體 Population 基因演算法範例基因演算法範例 42 規則推論法規則推論法 規則推論法規則推論法 最直接也最為一般使用者所瞭解方法最直接也最為一般使用者所瞭解方法 瞭解資料庫中資料之特性規律,稱之為規則瞭解資料庫中資料之特性規律,稱之為規則 (Rule) 運算方法運算方法 一連串如果一連串如果 ./則則.(If / Then)之邏輯規則對資之邏輯規則對資 料進行細分的技術料進行細分的技術

36、特性特性 實際運用時,如何界定規則為有效是最大的問題實際運用時,如何界定規則為有效是最大的問題 通常需先將資料中發生數太少的項目先剔除,以通常需先將資料中發生數太少的項目先剔除,以 避免產生無意義的邏輯規則避免產生無意義的邏輯規則 43 規則推論法範例規則推論法範例 -購買筆記型電購買筆記型電 腦腦 以購買筆記型電腦為例以購買筆記型電腦為例: IF 婚姻狀態=單身 AND 年齡=30歲 THEN 購買筆記型電腦=是 IF 婚姻狀態=已婚 AND 收入=低 THEN 購買筆記型電腦=否 IF 婚姻狀態=已婚 AND 收入=中 THEN 購買筆記型電腦=否 IF 婚姻狀態=已婚 AND 收入=高

37、THEN購買筆記型電腦=是 44 模糊理論模糊理論 模糊理論模糊理論 嘗試用人類思維去簡化問題複雜度嘗試用人類思維去簡化問題複雜度 美國加州大學美國加州大學 L. A. Zadeh(扎德)教授提出扎德)教授提出 模模 糊集合糊集合 (Fuzzy Sets) 運算方法運算方法 人類主觀表現的概念作大略的定量化處人類主觀表現的概念作大略的定量化處 理理 傳統必須依靠數學模型來達成控制傳統必須依靠數學模型來達成控制 特性特性 和人類主觀感覺有關係,人們無法清楚了解他和人類主觀感覺有關係,人們無法清楚了解他 人的感受人的感受 ,只能從語意做大概判斷,達到彼此只能從語意做大概判斷,達到彼此 溝通目的溝通

38、目的 45 模糊理論運算範例模糊理論運算範例 傳統電腦決策傳統電腦決策 不是對不是對 (1)就是錯就是錯 (0) 例如例如 168公分以下算矮,那公分以下算矮,那168公分以上就算高公分以上就算高 何謂模糊何謂模糊 在對在對 (1)與錯與錯 (0)之間,再多加幾各等級之間,再多加幾各等級 幾乎對幾乎對 (0.8) 可能對可能對 (0.6) 可能錯可能錯 (0.4) 幾乎錯幾乎錯 (0.2) 168公分算不算高公分算不算高 ? 身高cm 矮 隸屬度 中 高 160170180 46 迴歸分析迴歸分析 迴歸分析迴歸分析 分析多個獨立變數分析多個獨立變數(independent variable)

39、對於對於 某個依變數某個依變數(dependent variable)的影響的影響 ,主要主要 功能如下功能如下 利用獨立變數利用獨立變數 解釋依變數解釋依變數 利用獨立變數利用獨立變數 預測依變數預測依變數 利用依變數利用依變數 控制獨立變數控制獨立變數 分分析必須做下列假設析必須做下列假設 各母體各母體(population)之間必須要是獨立的之間必須要是獨立的 每個母體必須要符合常態分配每個母體必須要符合常態分配 樣本是從母體當中隨機的被抽取出來樣本是從母體當中隨機的被抽取出來 47 迴歸分析範例迴歸分析範例 原始迴歸係數:原始迴歸係數: 適於預測之用。適於預測之用。 當資料為原始分數時

40、當資料為原始分數時 ,則預測方程式為:,則預測方程式為: Y = ab1X1b2X2biXi (a:截矩截矩 b:斜率)斜率) 範例範例 設客戶年齡為獨立變設客戶年齡為獨立變 數數X1,客戶年收入為客戶年收入為 獨立變數獨立變數 X2,筆記型,筆記型 電腦售價為依變數電腦售價為依變數Y ,分析客戶年齡、客,分析客戶年齡、客 戶年收入與客戶所購戶年收入與客戶所購 買的筆記型電腦售價買的筆記型電腦售價 三者之歷史數據,建三者之歷史數據,建 立出一個迴歸分析模立出一個迴歸分析模 型型 Y = 542 X1 + 0.026 X2 48 第一章第一章 資料探勘簡介資料探勘簡介 緣起緣起 何謂資料探勘何謂

41、資料探勘 資料探勘的演進資料探勘的演進 資料探勘與其他系統的比較資料探勘與其他系統的比較 知識發現的過程知識發現的過程 資料探勘常用的技術資料探勘常用的技術 資料探勘的模型 資料探勘的應用資料探勘的應用 資料探勘的工具資料探勘的工具 資料探勘未來的發展與挑戰資料探勘未來的發展與挑戰 49 資料探勘的模型資料探勘的模型 主要有以下四種主要有以下四種 資料分類資料分類 (data classification) 資料關連資料關連 (data association) 資料分群資料分群 (data clustering) 循序樣式探勘循序樣式探勘 (sequential pattern mining

42、) 50 資料分類資料分類 何謂分類何謂分類(classification) 監督式學習監督式學習 (supervised learning) 分析資料的屬性,分門別類加以定義,分析資料的屬性,分門別類加以定義, 以建立類組以建立類組(class) 適用領域適用領域 顧客分類、疾病因素分析顧客分類、疾病因素分析等等 範例範例 將信用卡申請者的風險屬性,區分為高將信用卡申請者的風險屬性,區分為高 度風險、中度風險度風險、中度風險、低度風險申請者低度風險申請者 51 資料關連資料關連 資料關連資料關連 探討資料項目間的關係,找出某一事件或資探討資料項目間的關係,找出某一事件或資 料中會同時出現的項

43、目料中會同時出現的項目 也叫做關連法則探勘也叫做關連法則探勘 適用領域適用領域 購物籃分析購物籃分析(market basket analyses) 幫助零售業者瞭解客戶的消費行為幫助零售業者瞭解客戶的消費行為 範例範例 如果顧客買如果顧客買 NB,同時購買隨身碟的機率是,同時購買隨身碟的機率是80% 如果買全麥麵包及低脂優酪乳,那麼顧客同時也如果買全麥麵包及低脂優酪乳,那麼顧客同時也 買低脂牛奶的機率是買低脂牛奶的機率是85% 52 資料分群 資料分群資料分群(Clustering) 非監督式學習非監督式學習(unsupervised learning) 從大從大 量資料中找出案例間相似性量

44、資料中找出案例間相似性,案例中每個案例中每個 屬性都可視為一個維度,如果案例有屬性都可視為一個維度,如果案例有n個屬性個屬性 ,就可將每個案例都各投射到,就可將每個案例都各投射到n維空間上的一維空間上的一 點點 適用領域適用領域 顧客分群、群組推薦顧客分群、群組推薦等等等等 範例範例 一群住在附近的人,駕駛相同的汽車,使用相同家電,一群住在附近的人,駕駛相同的汽車,使用相同家電, 並且食用相同的食物。而另一群從事相同行業的人並且食用相同的食物。而另一群從事相同行業的人,家家 庭成員人數接近,年收入接近,出國次數也很接近。透庭成員人數接近,年收入接近,出國次數也很接近。透 過觀察資料為何被群集在

45、一起的,可以更了解資料間的過觀察資料為何被群集在一起的,可以更了解資料間的 關係,以及這些關係將會如何影響預言的結果關係,以及這些關係將會如何影響預言的結果 53 循序樣式探勘循序樣式探勘 循序樣式探勘循序樣式探勘 分析序列狀態轉變,從相關的序列當中分析序列狀態轉變,從相關的序列當中 預測未來的狀態預測未來的狀態 與關連法則所不同的是循序樣式探勘中相關的與關連法則所不同的是循序樣式探勘中相關的 項目項目 (item)是以時間區分是以時間區分 適用領域適用領域 股市行情預測、行為預測股市行情預測、行為預測等等等等 舉例舉例 在通訊品質不佳的無線網路環境中,此在通訊品質不佳的無線網路環境中,此 舉

46、尚可提供客戶在離開無線網路涵蓋區舉尚可提供客戶在離開無線網路涵蓋區 時,仍能離線瀏覽網頁的功能時,仍能離線瀏覽網頁的功能 54 第一章第一章 資料探勘簡介資料探勘簡介 緣起緣起 何謂資料探勘何謂資料探勘 資料探勘的演進資料探勘的演進 資料探勘與其他系統的比較資料探勘與其他系統的比較 知識發現的過程知識發現的過程 資料探勘常用的技術資料探勘常用的技術 資料探勘的模型資料探勘的模型 資料探勘的應用 資料探勘的工具資料探勘的工具 資料探勘未來的發展與挑戰資料探勘未來的發展與挑戰 55 資料探勘的應用實例資料探勘的應用實例 (1) 成功案例成功案例 LTV鋼鐵公司鋼鐵公司(全美第三大全美第三大 ) 偵

47、測品質問題,使不良品減少偵測品質問題,使不良品減少99% 美國匯豐銀行美國匯豐銀行(HSBC-Bank-USA) 在顧客資料中進行探勘,用生活方式區隔進在顧客資料中進行探勘,用生活方式區隔進 行行銷,對行銷資源做最佳化規劃,銷售量行行銷,對行銷資源做最佳化規劃,銷售量 提高了提高了 50% Jubii(丹麥最受歡迎的入口網站丹麥最受歡迎的入口網站) 運用資料探勘探索哪一種瀏覽路徑最有可能促成交運用資料探勘探索哪一種瀏覽路徑最有可能促成交 易易?,改善網站設計,使得瀏覽率提升,改善網站設計,使得瀏覽率提升30%50%,媒,媒 體銷售業績成長體銷售業績成長 10%15% 56 資料探勘的應用實例資料探勘的應用實例(2) 金融保險業金融保險業 信用評等、客製化金融服務、客戶資產管理、呆信用評等、客製化金融服務、客戶資產管理、呆 帳分析、保險潛在客戶名單分析、直效行銷、帳分析、保險潛在客戶名單分析、直效行銷、分分 析購買行為、偵測信用卡詐騙行為、股匯市行情析購買行為、偵測信用卡詐騙行為、股匯市行情 預測預測 零售製造業零售製造業 分店設點區位分析、銷售產品組合、庫存管理、分店設點區位分析、銷售產品組合、庫存管理、 即時輔助購買決策、連續銷售、促銷商品組合、即

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1