人工智慧02_大數據分析與機器學習概論

Description
1. 人工智慧 教師:陳志華博士 2. 報告大綱-大數據分析與機器學習概論 問題定義 資料收集 ◦ 資料來源、資料取得、資料類型…

Please download to get full document.

View again

of 94
All materials on our website are shared by users. If you have any questions about copyright issues, please report us to resolve them. We are always happy to assist you.
Information
Category:

Engineering

Publish on:

Views: 0 | Pages: 94

Extension: PDF | Download: 0

Share
Transcript
  • 1. 人工智慧 教師:陳志華博士
  • 2. 報告大綱-大數據分析與機器學習概論 問題定義 資料收集 ◦ 資料來源、資料取得、資料類型 資料前處理 ◦ 向量空間模型轉換 ◦ 遺漏值處理、資料正規化、屬性選擇 資料分析 ◦ 監督式學習─預測(估計)、分類、樣式探勘 ◦ 非監督式學習─降維、分群 驗證與衡量指標 2
  • 3. 問題定義 AI可以解決什麼問題? ◦ 圍棋? ◦ 無人車? ◦ 外送機器人? ◦ 個人語音助理? 3
  • 4. 問題定義 「無人車」應用要解決的AI問題有哪些? ◦ 前車距離偵測:擷取攝影機畫面,進行「影像辨識」,識別「前方物件」,以及與前方物件的 「距離」;也就是至少1個分類問題、1個估計問題 ◦ 車側間距偵測:擷取攝影機畫面,進行「影像辨識」,識別「車側物件」,以及與車側物件的 「距離」 ;也就是至少1個分類問題、1個估計問題 ◦ 車道偏離偵測:擷取攝影機畫面,進行「影像辨識」,識別「分隔線」,以及偵測車輛「是否」 壓到分隔線;也就是至少2個分類問題 ◦ … 「個人語音助理」要解決的AI問題有哪些? ◦ 語音轉文字:擷取使用者語音,進行「語音辨識」,識別語句的每個「字詞」;也就是至少1個 分類問題 ◦ 語義分析:擷取使用者語句字詞,識別詢問的「問題」;也就是至少1個分類問題 ◦ … 4
  • 5. 資料收集-資料來源 自行收集資料 ◦ 智慧型手機 ◦ 感測設備 開放資料 ◦ 政府資料開放平臺 ◦ 各縣市政府資料開放平臺 ◦ 各部會資料開放平臺 ◦ 公共運輸整合資訊流通服務平台 ◦ 行政院主計總處統計資訊網 ◦ 臺灣證券交易所 ◦ 爾灣加州大學機器學習知識庫(UC Irvine Machine Learning Repository) 5
  • 6. 資料收集-資料來源 自行收集資料-智慧型手機 ◦ 全球定位系統(Global Positioning System, GPS) ◦ 重力感測器(Gravity Sensor, G-Sensor),亦稱為加速度計(Accelerometer) ◦ 陀螺儀(Gyro Meter) ◦ 照相機(Camera) ◦ 細胞網路(Cellular Network)通訊模組 ◦ 無線區域網路(WiFi)通訊模組 ◦ 藍牙(Bluetooth)通訊模組 ◦ 近場通訊(Near-field communication, NFC)通訊模組 雲端伺服器 車載設備 Cell1 AP1 Cell2 RoadAP2 運用無線網路模組收集網路訊號 運用G-Sensor 收集加速度 6
  • 7. 駕駛者 OBD 心率監測 手錶 智慧型手機 3 腦波儀 2 先進駕駛 輔助系統 1 4 資料收集-資料來源 自行收集資料-感測設備 ◦ 車上診斷系統(On-Board Diagnostics, OBD) ◦ 腦波儀 ◦ 心率計 ◦ 照度計 ◦ 亮度感測器 ◦ 溫度感測器 ◦ 溼度感測器 ◦ 血壓計 ◦ 血糖計 ◦ 攝影機 ◦ 先進駕駛輔助系統(Advanced Driver Assistance Systems, ADAS) 運用感測設備收集駕駛行為和生理資訊 7
  • 8. 資料收集-資料來源 開放資料-政府資料開放平臺 ◦ 網址:https://data.gov.tw/ 資料集服務分類 ◦ 生育保健、就醫、出生及收養 ◦ 求學及進修、服兵役、求職及就業 ◦ 開創事業 ◦ 婚姻、購屋及遷徙、生活安全及品質 ◦ 投資理財、退休、老年安養、生命禮儀 ◦ 休閒旅遊、交通及通訊、公共資訊 ◦ 選舉及投票 8
  • 9. 資料收集-資料來源 開放資料-高雄市政府資料開放平臺 ◦ 網址:https://data.kcg.gov.tw/ 資料集服務分類 ◦ 生育保健、就醫 ◦ 求學及進修、服兵役、求職及就業 ◦ 購屋及遷徙、生活安全及品質 ◦ 老年安養、生命禮儀 ◦ 休閒旅遊、交通及通訊、公共資訊 9
  • 10. 資料收集-資料來源 開放資料-臺北市政府資料開放平臺 ◦ 網址:http://data.taipei/ 資料集服務分類 ◦ 生育保健、就醫 ◦ 求學及進修、服兵役、求職及就業 ◦ 開創事業 ◦ 購屋及遷徙、生活安全及品質 ◦ 投資理財、老年安養、生命禮儀 ◦ 休閒旅遊、交通及通訊、公共資訊 10
  • 11. 資料收集-資料來源 開放資料-新北市政府資料開放平臺 ◦ 網址:http://data.ntpc.gov.tw/ 資料集服務分類 ◦ 教育、資訊、水利 ◦ 民政、社福、消防 ◦ 財稅、族群、交通 ◦ 統計、勞動、地政 ◦ 醫療、經濟、環保 ◦ 工務、文化、城鄉 ◦ 治安、農業、觀光 11
  • 12. 資料收集-資料來源 開放資料-桃園市政府資料開放平臺 ◦ 網址:https://data.tycg.gov.tw/ 資料集服務分類 ◦ 生育保健、就醫、出生及收養 ◦ 求學及進修、服兵役、求職及就業 ◦ 開創事業 ◦ 婚姻、購屋及遷徙、生活安全及品質 ◦ 老年安養、生命禮儀 ◦ 休閒旅遊、交通及通訊、公共資訊 12
  • 13. 資料收集-資料來源 開放資料-臺中市政府資料開放平臺 ◦ 網址:http://data.taichung.gov.tw 資料集服務分類 ◦ 生育保健、就醫、出生及收養 ◦ 求學及進修、服兵役、求職及就業 ◦ 開創事業 ◦ 購屋及遷徙、生活安全及品質 ◦ 投資理財、老年安養、生命禮儀 ◦ 休閒旅遊、交通及通訊、公共資訊 ◦ 選舉及投票 13
  • 14. 資料收集-資料來源 開放資料-臺南政府資料開放平臺 ◦ 網址:http://data.tainan.gov.tw 資料集服務分類 ◦ 公共安全/防救災/環保 ◦ 戶籍/地政 ◦ 健康/照護/社福 ◦ 統計數據 ◦ 商業/就業 ◦ 交通 ◦ 教育 ◦ 觀光景點/活動 ◦ 文化藝術 ◦ 臺南市政府重大事件專區、其他行政 14
  • 15. 資料收集-資料來源 開放資料-新竹縣政府資料開放平臺 ◦ 網址:https://data.hsinchu.gov.tw/ 資料集服務分類 ◦ 生育保健、就醫 ◦ 求學及進修、求職及就業 ◦ 生活安全及品質 ◦ 退休、老年安養 ◦ 休閒旅遊、交通及通訊、公共資訊 ◦ 選舉及投票 ◦ 其他 15
  • 16. 資料收集-資料來源 開放資料-新竹市政府資料開放平臺 ◦ 網址:http://opendata.hccg.gov.tw/ 資料集服務分類 ◦ 生育保健、就醫、出生及收養 ◦ 求學及進修、服兵役、求職及就業 ◦ 開創事業 ◦ 婚姻、購屋及遷徙、生活安全及品質 ◦ 投資理財、老年安養、生命禮儀 ◦ 休閒旅遊、交通及通訊、公共資訊 ◦ 選舉及投票 16
  • 17. 資料收集-資料來源 開放資料-南投縣政府資料開放平臺 ◦ 網址:http://data.nantou.gov.tw/ 資料集服務分類 ◦ 衛生醫療及社福、生活安全及救災 ◦ 教育、地政及人口、求職及就業 ◦ 公共設施與資訊、文化藝術、觀光旅遊 ◦ 環境品質 ◦ 地方財政 ◦ 統計資訊 ◦ 其他行政資訊 17
  • 18. 資料收集-資料來源 開放資料-屏東縣政府開放資料專區 ◦ 網址: https://www.pthg.gov.tw/Cus_OpenData_D efault.aspx?n=481C53E05C1D2D97 資料集服務分類 ◦ 土地/建築、工務/水利、公共安全及救災 ◦ 生活資訊、交通/通訊、行政資訊 ◦ 其他公共資訊、社會褔利、政府統計 ◦ 財政/稅務、教育/文化、場地設施 ◦ 衛生/醫療、環境保護、觀光旅遊 18
  • 19. 資料收集-資料來源 開放資料-宜蘭縣政府資料開放平臺 ◦ 網址:http://opendata.e-land.gov.tw/ 資料集服務分類 ◦ 生育保健、就醫 ◦ 求學及進修、求職及就業 ◦ 購屋及遷徙、生活安全及品質 ◦ 投資理財、老年安養、生命禮儀 ◦ 休閒旅遊、交通及通訊、公共資訊 19
  • 20. 資料收集-資料來源 開放資料-臺東縣政府資料開放平臺 ◦ 網址:http://www.taitung.gov.tw/opendata/ 資料集服務分類 ◦ 食 ◦ 住 ◦ 行 ◦ 育 ◦ 樂 ◦ 健康 ◦ 就業 ◦ 文化 ◦ 經濟發展 ◦ 社會褔利 20
  • 21. 資料收集-資料來源 開放資料-澎湖縣政府資料開放平臺 ◦ 網址:http://opendata.penghu.gov.tw/ 資料集服務分類 ◦ 生育保健、就醫 ◦ 求學及進修、求職及就業 ◦ 生活安全及品質 ◦ 休閒旅遊、交通及通訊、公共資訊 21
  • 22. 資料收集-資料來源 開放資料-氣象資料開放平臺 ◦ 網址:http://opendata.cwb.gov.tw/ 資料集服務分類 ◦ 預報 ◦ 觀測 ◦ 地震海嘯 ◦ 氣候 ◦ 天氣警特報 ◦ 數值預報 ◦ 天文 22
  • 23. 資料收集-資料來源 開放資料-農業委員會資料開放平臺 ◦ 網址:https://data.coa.gov.tw/ 資料集服務分類 ◦ 安全飲食、地理圖資、農業旅遊 ◦ 農糧、漁業、畜牧 ◦ 農民輔導、農業金融、動植物防疫檢疫 ◦ 水土保持、農村再生、造林生產 ◦ 森林經營、農業科技、主計 ◦ 農業法規、農田水利、其他 23
  • 24. 資料收集-資料來源 開放資料-食品藥物開放資料平臺 ◦ 網址: https://data.fda.gov.tw/ 資料集服務分類 ◦ 食品 ◦ 藥品 ◦ 管制藥品 ◦ 醫療器材 ◦ 化粧品 ◦ 研究檢驗 ◦ 實驗室認證 ◦ 風險管理 ◦ 公務統計 ◦ 其他 24
  • 25. 資料收集-資料來源 開放資料-內政資料開放平臺 ◦ 網址:http://data.moi.gov.tw/ 資料集服務分類 ◦ 政府資訊服務、統計資料 ◦ 兵役、社會參與 ◦ 戶籍與國籍、土地管理 ◦ 入出國及國境管制 ◦ 生態保育、社會治安 ◦ 建物安全、執照證照 ◦ 生養喪葬 ◦ 婚姻 25
  • 26. 資料收集-資料來源 開放資料-健康保險資料開放服務 ◦ 網址: https://data.nhi.gov.tw/ 資料集服務分類 ◦ 主計 ◦ 承保 ◦ 醫務管理 ◦ 醫療品質 ◦ 醫材 ◦ 其他 26
  • 27. 資料收集-資料來源 開放資料-公共運輸整合資訊流通服務 ◦ 網址: https://ptx.transportdata.tw 資料集服務分類 ◦ 公車 ◦ 臺鐵 ◦ 高鐵 ◦ 航空 ◦ 自行車 ◦ 觀光 ◦ 空氣品質 ◦ 基本服務 ◦ 捷運 27
  • 28. 資料收集-資料來源 開放資料-行政院主計總處統計資訊網 ◦ 網址: http://statdb.dgbas.gov.tw/pxweb/dialog/stat file9L.asp 資料集服務分類 ◦ 國民所得統計、家庭收支統計 ◦ 勞工統計、工商業統計 ◦ 營建與不動產統計 ◦ 交通統計、進出口統計、金融統計 ◦ 財政統計、證券統計、景氣指標統計 ◦ 人口統計、警政與消防統計 ◦ 社會保險及福利統計、物價統計 ◦ 教育統計、衛生統計、環保統計 28
  • 29. 資料收集-資料來源 開放資料-臺灣證券交易所 ◦ 網址: http://www.twse.com.tw/zh/page/trading/ex change/FMTQIK.html 資料集服務分類 ◦ 盤後資訊 ◦ 臺灣跨市場指數 ◦ TWSE自行編製指數 ◦ 與FTSE合作編製指數 ◦ 與銳聯合作編製指數 ◦ 與S&PDJI合作編製指數 ◦ 升降幅度/首五日無漲跌幅 ◦ 當日沖銷交易標的及統計 ◦ 融資融券與可借券賣出額度 29
  • 30. 資料收集-資料來源 開放資料-UCI機器學習知識庫 ◦ 網址:https://data.gov.tw/ 資料集服務分類 ◦ 生命科學(Life Sciences) ◦ 物理科學(Physical Sciences) ◦ 計算機科學/工程(CS / Engineering) ◦ 社會科學(Social Sciences) ◦ 商業(Business) ◦ 遊戲(Game) ◦ 其他(Other) 30
  • 31. 資料收集-資料取得 ◦ 智慧型手機 ◦ 以「無線網路訊號」為例 ◦ 政府資料開放平臺 ◦ 以「各站點進出站人數」為例 ◦ 爾灣加州大學機器學習知識庫(UC Irvine Machine Learning Repository) ◦ 以「Liver Disorders Data Set」為例 31
  • 32. 資料收集-資料取得 ◦ 智慧型手機-無線網路訊號 ◦ 開啟教學課程網中的附件「無線網路訊 號.xlsx」 ◦ 內容主要收集「GPS訊號」和「無線網 路訊號」,依此讓機器學習無線網路訊 號集合所對應的經緯度座標 ◦ 開啟「GPS訊號」工作表 ◦ 主要包含3個欄位 ◦ Record ID:為資料序號,每秒鐘給予一個ID ◦ 經度 ◦ 緯度 ◦ 交通方式 32
  • 33. 資料收集-資料取得 ◦ 智慧型手機-無線網路訊號 ◦ 開啟教學課程網中的附件「無線網路訊 號.xlsx」 ◦ 內容主要收集「GPS訊號」和「無線網 路訊號」,依此讓機器學習無線網路訊 號集合所對應的經緯度座標 ◦ 開啟「GPS訊號」工作表 ◦ 主要包含3個欄位 ◦ Record ID:為資料序號,每秒鐘給予一個ID ◦ LAC:位置區碼(Location Area Code) ◦ CID:細胞碼(Cell ID) ◦ LAC & CID:位置區碼+細胞碼為同一個電信業者 的網路中唯一的基地台識別碼 ◦ Signal:訊號強度 33
  • 34. 資料收集-資料取得 政府資料開放平臺-各站點進出站人數 開啟政府資料開放平臺網站 輸入「各站點進出站人數」,並點擊 Enter鍵,搜尋目標 34
  • 35. 資料收集-資料取得 政府資料開放平臺-各站點進出站人數 點擊「每日各站點進出站人數」,進入 資料集 35
  • 36. 資料收集-資料取得 政府資料開放平臺-各站點進出站人數 瀏覽相關說明 ◦ 主要欄位說明 ◦ BOARD_DATE(乘車日) ◦ TKT_BEG(站碼) ◦ STOP_NAME(站名) ◦ 進站、出站 ◦ 資料資源:CSV ◦ 更新頻率:每半年 ◦ 授權方式:政府資料開放授權條款-第1版 ◦ 計費方式:免費 ◦ 詮釋資料更新時間:2018/03/01 16:38 點擊「CSV」下載資料 36
  • 37. 資料收集-資料取得 政府資料開放平臺-各站點進出站人數 用Microsoft Excel開啟CSV檔 依欄位說明資料,瀏覽和解讀資料內容 ◦ 在2005年01月01日,馬蘭站整天進站人 數0位,出站人數1位 ◦ 在2005年01月01日,台東站整天進站人 數1422位,出站人數1273位 ◦ … 37
  • 38. 資料收集-資料取得 UCI機器學習知識庫-Liver Disorders 開啟UCI機器學習知識庫網站 輸入「Liver Disorders」,並點擊Enter 鍵,搜尋目標 38
  • 39. 資料收集-資料取得 UCI機器學習知識庫-Liver Disorders 點擊「UCI Machine Learning Repository: Liver Disorders Data Set」,進入資料集 39
  • 40. 資料收集-資料取得 UCI機器學習知識庫-Liver Disorders 瀏覽相關說明 ◦ 資料集特性:多變量 ◦ 資料筆數:345 ◦ 資料特性:類別、數值 ◦ 資料屬性數量:7 ◦ 資料提供日期:1990/05/15 點擊「Data Folder」進入資料集 40
  • 41. 資料收集-資料取得 UCI機器學習知識庫-Liver Disorders 於「bupa.data」點擊滑鼠右鍵,點擊 「另存連結為」,將該檔案另存為CSV 檔 於「bupa.names」點擊滑鼠右鍵,點擊 「另存連結為」,將該檔案另存為文字 檔 41
  • 42. 資料收集-資料取得 UCI機器學習知識庫-Liver Disorders 資料屬性數量共有7個 項次 欄位 異常原因 Alcohol(+) 1 Mean corpuscular volume (MCV) 酒精、B12及葉酸缺乏、 溶血 ↑, MCV > 100 (Macrocytic) 2 Alkaline phosphotase (ALK-P) 腸道、膽道、肝、腎、骨 頭、懷孕 ↑ 3 Alamine aminotransferase (GPT) 肝 ↑ 4 Aspartate aminotransferase (GOT) 肝、全身肌肉、心 ↑, GOT > 2 x GPT 5 Gamma-glutamyl transpeptidase (rGT) 酒精、藥物、膽道 ↑ 6 Drinks number of half-pint equivalents of alcoholic beverages 7 Selector field used to split data into two sets (1: 無肝炎、2: 有肝炎) 42
  • 43. 資料收集-資料取得 UCI機器學習知識庫-Liver Disorders 用Microsoft Excel開啟CSV檔,並且插 入第1列,將欄位名稱填入 依欄位說明資料,瀏覽和解讀資料內容 ◦ 第1位患者,MCV值為85、 ALK-P值為 92、 GPT值為45、 GOT值為27、 rGT值 為31、平均每天喝0品脫的酒,無肝炎 ◦ 第2位患者,MCV值為85、 ALK-P值為 64、 GPT值為59、 GOT值為32、 rGT值 為23、平均每天喝0品脫的酒,有肝炎 ◦ … 43
  • 44. 資料收集-資料類型 以結構分類 ◦ 結構化資料 ◦ 半結構化資料 ◦ 非結構化資料 以測量尺度分類 ◦ 名目尺度 ◦ 順序尺度 ◦ 區間尺度 ◦ 比例尺度 44
  • 45. 資料收集-資料類型 結構化資料 ◦ 能夠用資料或統一的結構加以表示,具有欄位名稱、欄位值,並且每一筆筆資料的欄位是統一的, 可用二維表結構表示 ◦ 例如:關聯式資料庫、逗號分隔值(Comma-Separated Values, CSV)檔 半結構化資料 ◦ 半結構化雖然能夠具有資料結構,包含欄位名稱、欄位值,但每一筆資料的欄位可能是不一樣的 ◦ 例如:可延伸標記式語言(Extensible Markup Language, XML)、 JavaScript物件標記(JavaScript Object Notation, JSON) 非結構化資料 ◦ 不具資料結構,不包含欄位名稱、欄位值 ◦ 例如:文章、圖檔、聲音檔、影片檔 需將半結構化資料和非 結構化資料轉換為結構 化資料,機器才能學習 45
  • 46. 資料收集-資料類型 JSON結構 ◦ { ◦ tag1: { ◦ tag2: 值, ◦ tag3: 值, ◦ tag4: { ◦ tag5: 值 ◦ } ◦ } XML結構 ◦ <?xml version="1.0" encoding="UTF-8"?> ◦ <tab1> ◦ <tag2>值</tag2> ◦ <tag3>值</tag3> ◦ <tag4> ◦ <tag5>值</tag5> ◦ </tag4> ◦ </tag1> XML結構 JSON結構 46
  • 47. 資料收集-資料類型 政府資料開放平臺-宜蘭縣各鄉鎮市環保志工隊名單 網址:https://data.gov.tw/dataset/76427 資料內容(CSV格式) 資料內容(XML格式) 資料內容(JSON格式) 47
  • 48. 資料收集-資料類型 名目尺度 ◦ 僅做為區分類別,其本身沒有大小、順序與比例的關係 ◦ 例如:性別、顏色、地區 順序尺度 ◦ 依資料的重要性、強弱、好壞等程度區分,個別給與大小不相等的數值,其數值具有順序意義 ◦ 例如:學歷、評分等級 區間尺度 ◦ 將資料予以量化,且滿足度量公設(資料間的差距可以計算),其數字大小不但有意義且可以比較大小 ◦ 例如:溫度、年度 比例尺度 ◦ 比例尺度具有等距尺度的全部特徵,而且有「零點」 ◦ 例如:距離、長度、重量 48
  • 49. 資料前處理-向量空間模型轉換 向量空間模型(Vector Space Model, VSM)轉換 ◦ 「無線網路訊號」資料(名目尺度向量空間模型轉換) ◦ 「各站點進出站人數」資料(依目標需求調整) ◦ 「圖檔」資料 49
  • 50. 資料前處理-向量空間模型轉換 「無線網路訊號」資料 ◦ 開啟教學課程網中的附件「無線網路訊 號.xlsx」 ◦ 開啟「GPS訊號」工作表 ◦ 由於「交通方式」為名目尺度資料,需 轉換為比例尺度 50
  • 51. 資料前處理-向量空間模型轉換 「無線網路訊號」資料 ◦ 由於「交通方式」只有「騎車」、「走 路」兩種 ◦ 新增兩個資料屬性,分別為「騎車」、 「走路」 ◦ 若「交通方式」為「騎車」,則在「騎 車」欄位設定為1;反之為0 ◦ 若「交通方式」為「走路」,則在「走 路」欄位設定為1;反之為0 ◦ 並且可以移除「交通方式」資料屬性 51
  • 52. 「無線網路訊號」資料 ◦ 開啟「無線網路訊號」工作表 ◦ 由於同一個時間點會收到多個來自不同 基地台的訊號強度資料 ◦ 需把同一個時間點的資料合併為一筆 資料前處理-向量空間模型轉換 52
  • 53. 「無線網路訊號」資料 ◦ 點擊左上角「插入樞鈕分析表」 ◦ 判斷選取表格或範圍無誤,可點擊「確 定」 資料前處理-向量空間模型轉換 53
  • 54. 「無線網路訊號」資料 ◦ 將「RecordID」拖曳到「列」,讓每一 筆資料RecordID進行合併 ◦ 將「LAC&CID」拖曳到「欄」,讓每一 欄為每一個基地台資訊 ◦ 將「Signal」拖曳到「值」,呈現每一個 時間點每一個基地台訊號強度 ◦ 並將樞鈕分析結果複製貼到「GPS訊號」 工作表 資料前處理-向量空間模型轉換 54
  • 55. 「無線網路訊號」資料 ◦ 將樞鈕分析結果貼入後畫面 ◦ 每一列為一個時間點 ◦ 同一個時間點的經緯度座標、是否騎車、 是否走路、以及各個基地台的訊號強度, 皆在同一列中呈現 資料前處理-向量空間模型轉換 55
  • 56. 資料前處理-向量空間模型轉換 「各站點進出站人數」資料 ◦ 到「政府資料開放平臺」下載「各站點 進出站人數」資料集 ◦ 用Microsoft Excel開啟CSV檔 56
  • 57. 資料前處理-向量空間模型轉換 「各站點進出站人數」資料 ◦ 點擊上方之「篩選」 ◦ 於「STOP_NAME」設定篩選條件只勾 選「楠梓」 57
  • 58. 資料前處理-向量空間模型轉換 「各站點進出站人數」資料 ◦ 建立新的工作表 ◦ 並且篩選出來的楠梓火車站紀錄複製貼 到新的工作表中 58
  • 59. 資料前處理-向量空間模型轉換 「圖檔」資料 像素(或稱畫素)(Pixel)為組成畫面的基本單位;簡單地說,一個畫面是有多少個「點」所 組成;像素決定解析度(Resolution),畫素愈高解析度越高 數位相機解析度:數位相機主要以「百萬像素」來區分等級;是以影像感測器成像後「長 邊像素 x 寬像畫素」來表示 等級 像素(長邊像素 x 寬像畫素) 長寬比 300萬 2,048 x 1,536=3,145,728 4:3 500萬 2,560 x 1,920=4,915,200 4:3 700萬 3,072 x 2,304=7,077,888 4:3 900萬 3,456 x 2,592 = 8,957,952 4:3 1,200萬 4,000 x 3,000 = 12,000,000 4:3 參考資料來源:http://kcs.kcjh.ptc.edu.tw/~spt/computer/digital-image/Pixe-reaolution.htm 59
  • 60. 資料前處理-向量空間模型轉換 「圖檔」資料 像素值與影像 33 x 25 (1%) 66 x 49 (2%) 98 x 74 (3%) 653 x 490 (20%) 164 x 123 (5%) 3264 x 2448 (100%) 60
  • 61. 資料前處理-向量空間模型轉換 「圖檔」資料 圖檔色彩深度是用「n位元顏色」(n-bit color)來說明的,若色彩深度是n位元,即有2n種顏色選擇 ◦ 1位元:21 = 2種顏色,可顯示黑白 ◦ 8位元:28 = 256種顏色,可顯示灰階 ◦ 24位元:224 = 16,777,216色,真彩,運用紅(Red)、綠(Green)、藍(Blue)三種顏色元素搭配;紅綠藍(RGB) 每個元素各有8位元,即28 = 256種程度變化(值域為0~255) ◦ 32位元:基於24位元,另增加8個位元(即28 = 256種)「透明」程度變化 參考資料來源:https://zh.wikipedia.org/wiki/色彩深度 61
  • 62. 資料前處理-向量空間模型轉換 「圖檔」資料 24位元色彩儲存在電腦裡主要存成1個整數資料型態,編碼方式說明如下: ◦ 第16~23位元為紅色 ◦ 第8~15位元為綠色 ◦ 第0~7位元為藍色 ◦ 顏色(255, 0, 0)的整數值 = 223 + 222 + 221 + 220 + 219 + 218 + 217 + 216 = 16,711,680 ◦ 色彩編碼案例: (R, G, B) 紅 綠 藍 整數值 2的次方數 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 (255, 0, 0) 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 16,711,680 (0, 255, 0) 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 65280 (0, 0, 255) 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 255 (0, 0, 0) 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 (255, 255, 255) 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 16,777,215 62
  • 63. 資料前處理-向量空間模型轉換 黑白 灰階 真彩 「圖檔」資料 圖檔色彩深度和點陣式圖片儲存空間(以600 x 500像素(30萬像素)圖片為例) ◦ 1位元:黑白圖片所需儲存空間為1 bit x 600 x 500 = 300,000 bits = 37,500 Bytes = 約37 KB ◦ 8位元:灰階圖片所需儲存空間為8 bits x 600 x 500 = 2,400,000 bits = 300,000 Bytes = 約293 KB ◦ 24位元:真彩圖片所需儲存空間為3 x 8 bits x 600 x 500 = 7,200,000 bits = 900,000 Bytes = 約879 KB 63
  • 64. 資料前處理-向量空間模型轉換 「圖檔」資料 ◦ 以下方15 x 15大小的圖例為例,則代表一張圖片會以225個資料屬性來表示 ◦ 若資料庫裡有m張圖片,則會以m列 x 225欄的二維表結構來表示 64
  • 65. 資料前處理-遺漏值處理 現實生活中許多資料都可能會發生遺漏值情況,然而必須提供完整的結構化資料給機器學 習,故需針對具有遺漏值的資料進行處理 方式一:刪除遺漏值該筆資料 ◦ 處理作法:若該筆資料任何一個欄位遺漏,直接刪除該筆資料 方式二:以整體的平均作為該遺漏值的填補資料 ◦ 處理作法:若該筆資料只有遺漏少數1~2個欄位,則以計算該欄位整體的平均值,再將平均值填 入遺漏值處 方式三:依各個領域知識填補資料 ◦ 處理作法:以領域知識來填補合適的資料;以無線訊號為例,訊號強度單位為dBm,當然接收到 基地台訊號強度時,訊號強度不低於-150 dBm,而遺漏值代表未接收到該基地訊號,故遺漏值可 設定為-150 65
  • 66. 以「無線網路訊號」資料為例 開啟先前編輯之「無線網路訊號」資料 將遺漏值處填入「-150」 資料前處理-遺漏值處理 66
  • 67. 以「無線網路訊號」資料為例 經遺漏值處理後資料 資料前處理-遺漏值處理 67
  • 68. 資料前處理-資料正規化 由於每個資料屬性的值域不一致,有些值域範圍很大,有些值域範圍很小,為避免值域範 圍的影響,並為符合部分演算法需求,需將資料正規化為0~1之間,下列為常見的正規化 方式: 方式一:參考最大值進行調整 ◦ 正規化作法:正規化後資料 = 原資料 / 最大值 ◦ 還原作法:原資料 = 正規化後資料 x 最大值 方式二:參考最大值和最小值的間距進行調整 ◦ 正規化作法:正規化後資料 = (原資料 – 最小值) / (最大值 – 最小值) ◦ 還原作法:原資料 = 正規化後資料 x (最大值 – 最小值) + 最小值 68
  • 69. 以「無線網路訊號」資料為例 開啟先前編輯之「無線網路訊號」資料 基地台訊號強度的資料中 ◦ 最大值為-65 ◦ 最小值為-150 資料前處理-資料正規化 69
  • 70. 以「無線網路訊號」資料為例 採用「參考最大值和最小值的間距進行 調整」 ◦ 若原資料為-79,則正規化後的結果為 ◦ 正規化後資料 = [(-79) - (-150)] / [(-65) - (-150)] = 0.835294118 依此類推,將基地台訊號強度正規化 資料前處理-資料正規化 70
  • 71. 資料前處理-資料正規化 以「各站點進出站人數」資料為例 開啟先前編輯之「各站點進出站人數」資料 進站和出站的資料中 ◦ 最大值為7457 71
  • 72. 以「各站點進出站人數」資料為例 採用「參考最大值進行調整」 ◦ 若原資料為3945,則正規化後的結果為 ◦ 正規化後資料 = 3945 / 7457 = 0.529033123 依此類推,將進站和出站資料正規化 資料前處理-資料正規化 72
  • 73. 資料前處理-屬性選擇 雖然在大數據環境中有許多資料欄位(屬性),然而並非把所有資料都放到機器中學習,應 該挑選有用的資料,減少不必要的運算資源,以及可以避免一些干擾 常見的可刪除的情況: 相同或相似資料欄位(屬性)可刪除 ◦ 當有兩個資料欄位的值無顯著差異時,則代表這兩個資料欄位可選擇其中一個即可 無作用之資料欄位(屬性)可刪除 ◦ 當有資料欄位值為常數或是 73
  • 74. 監督式學習-相同/相似維度 相同或相似資料欄位可刪除 線性迴歸 ◦ 線性函式 ◦ 計算結果 X Y 估計值 0.1 0.3 0.3 0.2 0.4 0.4 0.3 0.5 0.5 0.4 0.6 0.6 0.5 0.7 0.7 0 0.2 0.4 0.6 0.8 1 0 0.1 0.2 0.3 0.4 0.5 0.6 y x 迴歸線(以紅色表示)為 2.01  xy bxwy  2.01  xy 74
  • 75.   19997.0 00968.0 00969.1 2 1   x xy 監督式學習-相同/相似維度 相同或相似資料欄位可刪除 線性迴歸 ◦ 線性函式 ◦ 計算結果 X1 X2 Y 估計值 0.1 0.1 0.3 0.3 0.2 0.2 0.4 0.4 0.3 0.3 0.5 0.5 0.4 0.4 0.6 0.6 0.5 0.5 0.7 0.7 bxwxwy  2211  當n個inputs參數(即n維資料維度,n個X)且僅有 1個output參數(即1個Y)時,會搭配n個權重值, 再加1個Bias  以此例而言,當X1 = X2時,則權重組合可以有 無限多組解,例如: • w1 = 1.00969, w2 = -0.00968 • w1 = 1, w2 = 0 • w1 = 0, w2 = 1 • w1 = 0.5, w2 = 0.5 X1和X2在表達同一事實, 可以刪除其中1個維度 75
  • 76. 監督式學習-相同/相似維度 如何確認資料相同或相似? 可運用卡方檢定(chi-square test),測試是否有顯著差異 X1 X2 X3 X4 0.1 0.1 0.1 1 0.2 0.2 0.2 1 0.3 0.3 0.3 1 0.4 0.4 0.4 1 0.5 0.5 0.6 1   488.92 05.0,4df 1 2 2        n i i ii E EO   488.90 5 1 ,1 2 ,1,22    i i ii x xx X2與X1比對:   488.902.0 5 1 ,1 2 ,1,32    i i ii x xx X3與X1比對:   488.9333.14 5 1 ,1 2 ,1,42    i i ii x xx X4與X1比對: X2與X1、X3與X1皆無顯著差異, 故X2和X3皆可以考慮刪除 76
  • 77. 2.001 21  xxy 監督式學習-相同/相似維度 無作用之資料欄位(屬性)可刪除 線性迴歸 ◦ 線性函式 ◦ 計算結果 X1 X2 Y 估計值 0.1 1 0.3 0.3 0.2 1 0.4 0.4 0.3 1 0.5 0.5 0.4 1 0.6 0.6 0.5 1 0.7 0.7 bxwxwy  2211  當n個inputs參數(即n維資料維度,n個X)且僅有1 個output參數(即1個Y)時,會搭配n個權重值,再 加1個Bias  以此例而言,當X2為常數,永遠等於1時,則X2 不具參考價值,所以權重為0 X2沒辦法表達任何資訊, 可以刪除X2維度 77
  • 78. 資料分析-預測 線性迴歸(Linear Regression) 邏輯迴歸(Logistic Regression) 神經網路(Neural Network, NN) 卷積神經網路(Convolutional Neural Network, CNN) 遞歸神經網路(Recurrent Neural Network, RNN) K個最近鄰居(K-Nearest Neighbors, KNN) 集成學習(Ensemble Learning) 78
  • 79. 資料分析-預測 以「各站點進出站人數」資料為例 開啟先前編輯之「各站點進出站人數」 資料 79
  • 80. 資料分析-預測 以「各站點進出站人數」資料為例 將進站和出站兩個欄位的資料選取 點擊「插入散佈圖」新增圖表 80
  • 81. 資料分析-預測 以「各站點進出站人數」資料為例 可觀察到進站和出站分佈 在圖表上方點滑鼠右鍵,點擊「加上趨 勢線」 81
  • 82. 資料分析-預測 以「各站點進出站人數」資料為例 調整參數 ◦ 設定趨勢線選項為「線性」 ◦ 勾選「在圖表上顯示公式」 得到線性公式為「y = 0.7442x + 0.0923」 ◦ 其中,x為進站,y為出站 ◦ 可運用此公式進行預測 ◦ 以第一筆資料為例,當x為0.529033123時 ◦ y預測值為0.48600645,與y真值為0.462250235 82
  • 83. 資料分析-分類 線性迴歸(Linear Regression) 邏輯迴歸(Logistic Regression) 神經網路(Neural Network, NN) 卷積神經網路(Convolutional Neural Network, CNN) 遞歸神經網路(Recurrent Neural Network, RNN) 貝氏分類器(Naive Bayes Classifier, NBC) 決策樹(Decision Tree, DT) 支援向量機(Support Vector Machine, SVM) K個最近鄰居(K-Nearest Neighbors, KNN) 集成學習(Ensemble Learning) 83
  • 84. 以「各站點進出站人數」資料為例 開啟先前編輯之「各站點進出站人數」 資料 資料分析-分類 84
  • 85. 以「各站點進出站人數」資料為例 將出站大於0.5的值設定為1,代表「遊 客多」的類別 將出站小於0.5的值設定為0,代表「遊 客小」的類別 以作為後續分類的目標 資料分析-分類 85
  • 86. 以「各站點進出站人數」資料為例 將進站和出站兩個欄位的資料選取 點擊「插入散佈圖」新增圖表 資料分析-分類 86
  • 87. 以「各站點進出站人數」資料為例 可觀察到進站和出站分佈 在圖表上方點滑鼠右鍵,點擊「加上趨 勢線」 資料分析-分類 87
  • 88. 以「各站點進出站人數」資料為例 調整參數 ◦ 設定趨勢線選項為「線性」 ◦ 勾選「在圖表上顯示公式」 得到線性公式為「y = 1.637x - 0.5215」 ◦ 其中,x為進站,y為出站 ◦ 可運用此公式進行預測 ◦ 以第一筆資料為例,當x為0.529033123時 ◦ y預測值為0.344527223 < 0.5,故代表「遊客少」 ◦ 與真值「遊客少」 一致,預測正確 資料分析-分類 88
  • 89. 資料分析-降維 主成份分析(Principal Components Analysis, PCA) 受限波茲曼機(Restricted Boltzmann Machine, RBM) 深度波茲曼機(Deep Boltzmann Machine, DBM) 自動編碼器(Auto-Encoder, AE) 89
  • 90. 資料分析-分群 分割基礎分群(Partition-Based Clustering) 密度基礎分群(Density-Based Clustering) 格網基礎分群(Grid-Based Clustering) 階層基礎分群(Hierarchical-Based Clustering) 以「各站點進出站人數」資料為例,或許可分為兩群 90
  • 91. 驗證與衡量指標 正確率(Accuracy) 查準率(Precision),亦稱為準確率 查全率(Recall),亦稱為召回率 F量測(F-Measure) 各個應用領域常用指標 91
  • 92. 驗證與衡量指標 假設機器學習在分類表現如右 ◦ 共7筆資料,真值中第1類共3筆,第2類共2筆,第3類共2筆 查準率(Precision) ◦ 第1類:共猜了4筆是第1類,其中答對2筆,故2 / 4 = 50% ◦ 第2類:共猜了2筆是第2類,其中答對2筆,故2 / 2 = 100% ◦ 第3類:共猜了1筆是第3類,其中答對0筆,故0 / 1 = 0% 查全率(Recall) ◦ 第1類:真值中第1類共3筆,其中答對2筆,故2 / 3 = 67% ◦ 第2類:真值中第2類共2筆,其中答對2筆,故2 / 2 = 100% ◦ 第3類:真值中第3類共2筆,其中答對0筆,故0 / 2 = 0% 真值 機器學習分類結果 第1類 第1類 第1類 第3類 第1類 第1類 第2類 第2類 第2類 第2類 第3類 第1類 第3類 第1類 92
  • 93. 驗證與衡量指標 假設機器學習在分類表現如右 ◦ 共7筆資料,真值中第1類共3筆,第2類共2筆,第3類共2筆 F量測(F-Measure) ◦ 第1類:第1類查準率為50%,第1類查全率為67% 調和平均數為57% ◦ 第2類:第2類查準率為100%,第2類查全率為100% 調和平均數為100% ◦ 第3類:第2類查準率為0%,第2類查全率為0% 調和平均數為0% 正確率(Accuracy) ◦ 全部7筆,共答對4筆,故4 / 7 = 57% 真值 機器學習分類結果 第1類 第1類 第1類 第3類 第1類 第1類 第2類 第2類 第2類 第2類 第3類 第1類 第3類 第1類 93 F量測算法: 查全率查準率 查全率查準率 查全率查準率 查全率查準率 查全率查準率 量測         22 11 2 F
  • 94. 驗證與衡量指標 94 真值 機器學習分類結果 第1類 第1類 第1類 第3類 第1類 第1類 第2類 第2類 第2類 第2類 第3類 第1類 第3類 第1類 正確答案為 「目標類別」 正確答案為 「非目標類別」 機器答案為 「目標類別」 True Positive (TP) False Positive (FP) (型一(Type I)誤差) 機器答案為 「非目標類別」 False Negative (FN) (型二(Type II)誤差) True Negative (TN) %50 4 2 Precision    FPTP TP %67 3 2 Recall    FNTP TP 以「第1類」為例 正確答案為 「目標類別」 正確答案為 「非目標類別」 機器答案為 「目標類別」 True Positive (TP) 2 False Positive (FP) 2 機器答案為 「非目標類別」 False Negative (FN) 1 True Negative (TN) 2
  • Similar documents
    We Need Your Support
    Thank you for visiting our website and your interest in our free products and services. We are nonprofit website to share and download documents. To the running of this website, we need your help to support us.

    Thanks to everyone for your continued support.

    No, Thanks