Giáo trình khai phá dữ liệu – Tài liệu text

Giáo trình khai phá dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.51 MB, 141 trang )

Bạn đang đọc: Giáo trình khai phá dữ liệu – Tài liệu text

1
KHAI THÁC DỮ LIỆU
& ỨNG DỤNG
(DATA MINING)
GV : ThS. NGUYỄN HOÀNG TÚ ANH
2
NỘI DUNG
 Giới thiệu về môn học
 Giới thiệu về khai thá
c
dữ liệu (DM)
Simpo PDF Merge and Split Unregistered Version –
2
3
GIỚI THIỆU MÔN HỌC
 Tai sao chọn môn học này ?
 Thế mạnh và nền tảng kiến thức :
 TTNT, hệ QTCSDL, thống kê, kinh tế,…
 Sự quan tâm đến kiến thức, vấn đề mới.
 Mục tiêu môn học :
 Cung cấp các khái niệm và kỹ thuật cơ bản củ
a
khai thác dữ liệu (DM)
 Chuyển dữ liệu về dạng phù hợp
 Tìm tri thức từ dữ liệu
 Biểu diễn, đánh giá tri thức
 Ứng dụng của DM
 Các kỹ năng giải quyết vấn đề
4
Thông tin liên lạc
 Giảng viên lý thuyết :

 Th.s. Nguyễn Hoàng Tú Anh

Tel : 8354266 – 508 hoặc 803
 Website môn học :
 /> vào mục Hệ Hoàn chỉnh Đại Học /Khai thác
DL & UD – 05HCA
Simpo PDF Merge and Split Unregistered Version –
3
5
CHƯƠNG TRÌNH
30 tiết lý thuyết
 Tổng quan
 Chuẩn bị dữ liệu
 Tập phổ biến và luật kết hợp
 Chuỗi tuần tự
 Bài toán phân lớp
 Bài toán gom nhóm
 Các nghiên cứu xa hơn
6
HÌNH THỨC KIỂM TRA VÀ
ĐÁNH GIÁ
 Thi lý thuyết : 7 điểm
 Thi viết, đựơc sử dụng tài liệu, KHÔNG sử dụng
laptop, mang theo máy tính : thời gian 120’
 Bài tập giữa kỳ 1.5 điểm
 Bài tập làm cá nhân
 Nộp 1 lần trong học kỳ trên website môn học theo
thông báo của GV
 Bài tập theo nhóm : 1.5 điểm
 Bài tập làm theo nhóm trên lớp. Từ 8 – 12 SV/nhóm

Simpo PDF Merge and Split Unregistered Version –
4
7
HÌNH THỨC KIỂM TRA VÀ
ĐÁNH GIÁ
 Bài tập giữa kỳ 1.5 điểm
 Bài tập làm cá nhân
 Nộp 1 lần trong học kỳ trên website môn học theo thông báo
của GV ( soft + hard copy)
 Lưu ý: khi nộp bài cần tuân theo đầy đủ quy định được thông báo
trên website môn học (về cách tổ chức file bài làm, đặt tên
file…), không nộp qua email, không chấp nhận nộp trễ.
 Các mức đánh giá:
 A – Xuất sắc 100% số điểm
 B – Đạt yêu cầu ~70% số điểm
 C – Không đạt yêu cầu ~30% số điểm
 F – Không nộp, hoặc giống bài của SV khác 0% số điểm
8
HÌNH THỨC KIỂM TRA VÀ
ĐÁNH GIÁ
 Bài tập làm theo nhóm 1.5 điểm
 Bài tập làm theo nhóm trên lớp. Từ 8 -12 SV/nhóm.
 Đanh giá sự tham gia lớp học và sự chuẩn bị bài
 Sau khi thảo luận, các nhóm sẽ trình bày ý kiến, kết quả
trước lớp hoặc sẽ trình bày trên giấy và nộp cho GV ngay
tại lớp.
 Để có thể đạt kết quả tốt, các nhóm cần xem trước bài giảng
để chuẩn bị.
 Các mức đánh giá:
 A – Xuất sắc 100% số điểm

 B – Đạt yêu cầu ~70% số điểm
 C – Không đạt yêu cầu ~30% số điểm
 F – Không làm hoặc giống bài của nhóm khác 0% số điểm
Simpo PDF Merge and Split Unregistered Version –
5
9
Câu hỏi và đề nghị ?
 Rất mong nhận được các ý kiến phản hồi từ các
em.
 Cô cần điều chỉnh nội dung cho phù hợp
với nhu cầu của các em.
 Có thể gửi ý kiến cho Cô bất cứ lúc nào .
 Chia sẻ câu hỏi, thắc mắc với cả lớp – có thể có
những bạn khác cũng quan tâm.
 Bỏ vào càng nhiều công sức, các em sẽ đạt được
kết quả càng cao
 Điểm của các em tỷ lệ thuận với các nỗ lực đã
bỏ ra.
10
TÀI LIỆU THAM KHẢO
 J.Han, M.Kamber, “Data mining : Concepts & Technique”
(ppt) – hoặc ebook tại
địa chỉ
 P.Tan, M. Steinbach, V. Kumar, “Introduction to data
Mining”, 2006, – http://www-
users.cs.umn.edu/~kumar/dmbook/index.php
 Phần mềm WEKA – /> Trang web đầu ngành về KTDL – Kdnuggets :
www.kdnuggets.com
Simpo PDF Merge and Split Unregistered Version –
6

11
NỘI DUNG
 Giới thiệu về môn học
 Giới thiệu về khai thác
dữ liệu (DM)
12
THẾ NÀO LÀ KHAI THÁC DL
 Là quá trình lặp, không phải plug – and – play
 “Khai thác dữ liệu là quá trình không tầm thường
của việc xác định các mẫu tiềm ẩn có tính hợp lệ,
mới lạ, có ích và có thể hiểu được tối đa trong
CSDL” – U.Fayyad, …(1996)
 Một vài ví dụ minh họa ứng dụng KTDL
 FBI – theo dõi tội phạm
 Các công ty điện thoại
 Siêu thị, trung tâm mua sắm (Walmart, Costco)
 Các công ty bảo hiểm
 Ngân hàng, tài chính, chứng khoán
….
Simpo PDF Merge and Split Unregistered Version –
7
13
THẾ NÀO LÀ KHAI THÁC DL
 Tại sao cần Khai thác dữ liệu (KTDL)?
 Những đối tượng nào sử dụng KTDL ?
 Sử dụng KTDL ở đâu và khi nào?
 Sử dụng KTDL như thế nào ?
 Tại sao cần nghiên cứu KTDL?
 Lịch sử phát triển KTDL ?
….

Xem bài 1 : Tổng quan.
Lưu ý : Hạn chót đăng ký nhóm : 16/5/2007
14
Simpo PDF Merge and Split Unregistered Version –
1
KHAI THÁC DỮ LIỆU
& ỨNG DỤNG
(DATA MINING)
GV : ThS. NGUYỄN HOÀNG TÚ ANH
2
BÀI 1
TỔNG QUAN
3
NỘI DUNG
1. Tại sao cần khai thác dữ liệu ?
2. Khai thác dữ liệu (KTDL) là gì ?
3. Qui trình KDD
4. Các nhiệm vụ chính của KTDL
5. Các kỹ thuật KTDL
6. Các vấn đề của KTDL
4
SỰ CẦN THIẾT CỦA KTDL –
Khía cạnh thương mại
 Khối lượng lớn dữ liệu
được thu thập và lưu trữ
o Web data, e-commerce
o Hóa đơn mua hàng tại siêu thị
/ trung tâm mua sắm
o Giao dịch ngân hàng /
thẻ tin dụng

 Máy tính mạnh hơn, rẻ hơn
 Áp lực cạnh tranh rất mạnh
o Cung cấp các dịch vụ đa dạng, chất lượng tốt ( CRM –
Customer Relationship Management)
Simpo PDF Merge and Split Unregistered Version –
2
5
SỰ CẦN THIẾT CỦA KTDL –
Khía cạnh Khoa học
 Dữ liệu được thu thập
và lưu trữ với tốc độ cao(GB/h)
o Thiết bị remote sensor trên vệ tinh
o Kính thiên văn quan sát bầu trời
o Microarray tạo dữ liệu biểu diễn gien
o Thử nghiệm khoa học tạo hàng TB
 Các kỹ thuật truyền thống khơng đủ
khả năng làm việc với dữ liệu thơ
 KTDL có thể giúp các nhà khoa học
o Phân loại và phân đoạn dữ liệu
o Xây dựng giả thuyết
6
SỰ CẦN THIẾT CỦA KTDL
 DL chứa rất nhiều thơng tin giá
trị, có lợi cho qui trình ra quyết
định
 Khơng thể phân tích DL = tay
• Con người cần hàng tuần lễ để
khám phá ra thơng tin có ích
• Phần lớn dữ liệu chưa bao giờ
được phân tích cả

• “Hố sâu giữa khả năng sinh ra DL
và khả năng sử dụng DL” –
Usama Fayyad
10
6
-10
12
bytes:
Không bao giờ có
thể nhìn thấy một
cách đầy đủ tập
dữ liệu hoặc đưa
vào bộ nhớ của
máy tính
7
SỰ CẦN THIẾT CỦA KTDL
0
500,000
1,000,000
1,500,000
2,000,000
2,500,000
3,000,000
3,500,000
4,000,000
1995 1996 1997 1998 1999
Hố sâu dữ liệu
Số DL thu thập (TB) từ năm 1995
Số DL được
phân tích

8
SỰ RA ĐỜI CỦA KTDL
Simpo PDF Merge and Split Unregistered Version –
3
9
SỰ DỤNG KTDL KHI NÀO?
 Dữ liệu q nhiều
 Dữ liệu lớn (chiều và kích thước)
 Dữ liệu ảnh ( kích thước)
 Dữ liệu gene (số chiều)
 Có ít tri thức về dữ liệu
10
LĨNH VỰC ỨNG DỤNG KTDL
Thông tin thương mại
-Phân tích thò trường và
mua bán
-Phân tích đầu tư
-Chấp thuận cho vay
-Phát hiện gian lận
…
Thông tin sản xuất
– Điều khiển và lên kế hoạch
– Quản trò mạng
– Phân tích các kết qủa thực
nghiệm
…
Thông tin khoa học
– Thiên văn học
– Cơ sở dữ liệu sinh học
– Khoa học đòa chất: bộ dò tìm động

đất
…
Thông tin cá nhân
11
NỘI DUNG
1. Tại sao cần khai thác dữ liệu ?
2. Khai thác dữ liệu là gì ?
3. Qui trình KDD
4. Các nhiệm vụ chính của KTDL
5. Các kỹ thuật KTDL
6. Các vấn đề của KTDL
12
THẾ NÀO LÀ KTDL
“Khai thác dữ liệu là q trình khơng tầm thường của việc xác
định các mẫu tiềm ẩn có tính hợp lệ, mới lạ, có ích và có
thể hiểu được tối đa trong CSDL” – U.Fayyad, …(1996)
Quá trình không tầm thường
Đa xử lý
Hợp lệ
Chứng minh tính đúng
Của mẫu / Mô hình
Mới lạ
Không biết trước
Có ích
Có thể sử dụng được
Có thể hiểu được
Bởi con người và máy
Simpo PDF Merge and Split Unregistered Version –
4
13

KHAI THÁC DL …
 Thế nào là mẫu ?
 Là mối quan hệ trong dữ liệu ví dụ như :
 Những người mua quần tây thường hay mua
thêm áo sơ mi
 Những người có mức tín dụng tốt thì thường
ít bị tai nạn
 Đàn ông, 37+, thu nhập : 50K-75K, -> chi
khoảng 25$-50$ cho đặt mua hàng qua
catalog
14
KHAI THÁC DL
 What is Data Mining?
– Các tên phổ biến tại khu
vực xác định của Mỹ
(O’Brien, O’Rurke,
O’Reilly… ở vùng Boston )
– Gom nhóm các tài liệu
giống nhau thu được từ
search engine dựa trên nội
dung (VD: rừng nhiệt đới
Amazon, Amazon.com)
 What is not Data
Mining?
– Tìm số điện
thoại trong danh
bạ điện thoại
– Tìm thông tin về
“Amazon” trên
serach engine

15
NỘI DUNG
1. Tại sao cần khai thác dữ liệu ?
2. Khai thác dữ liệu là gì ?
3. Qui trình KDD
4. Các nhiệm vụ chính của KTDL
5. Các kỹ thuật KTDL
6. Các vấn đề của KTDL
16
QUI TRÌNH KHÁM PHÁ TRI THỨC
 KTDL : Một bước
quan trọng trong qui
trình KDD (knowledge
discovery in DB)
Data Cleaning
Data Integration
Databases
Data Warehouse
Task-relevant Data
Selection
Data Mining
Pattern Evaluation
1
2
3
4
5
Simpo PDF Merge and Split Unregistered Version –
5
17

QUI TRÌNH KDD
Dữ liệu được tổ chức theo chức
năng
Tạo ra/chọn lọc
CSDL đích
Chọn llựa kỹ thuật
điển hình và dữ liệu mẫu
Thay thế những
giá trò thiếu
Chuẩn hoá
giá trò
Lựa chọn
nhiệm vụ DM
Biến đổi qua
biểu điễn khác
Khử nhiễu
Dữ liệu
Biến đổi
giá trò
Lựa chọn
phương pháp DM
Tạo các thuộc
Tính dẫn xuất
Trích xuất
Tri thức
Tìm thuộc tính quan
trọng &Miền giá trò
Kiểm tra
tri thức
Tính chế

Tri thức
Phát sinh ra câu hỏi và báo cáo
Các phương pháp cải tiến
kiểu kết hợp và lập dãy
Data warehousing
1
2
3
4
5
18
KIẾN TRÚC HỆ THỐNG DM TIỂU BIỂU
Data
Warehouse
Data cleaning & data integration
Filtering
Databases
Database or data
warehouse server
Data mining engine
Pattern evaluation
Graphical user interface
Knowledge-base
19
NỘI DUNG
1. Tại sao cần khai thác dữ liệu ?
2. Khai thác dữ liệu là gì ?
3. Qui trình KDD
4. Các nhiệm vụ chính của DM
5. Các kỹ thuật DM

6. Các vấn đề của DM
20
CÁC NHIỆM VỤ CHÍNH CỦA DM
Simpo PDF Merge and Split Unregistered Version –
6
21
CÁC NHIỆM VỤ CHÍNH CỦA DM
Phân lớ
ớớ
ớp
Phát hiệ
ệệ
ện sự
ựự
ự thay
đổ
ổổ
ổi/lạ
ạạ
ạc hướ
ớớ
ớng
?
Tóm tắ
ắắ
ắt
Gom cụ
ụụ
ụm
Mô hình hóa

phụ
ụụ
ụ thuộ
ộộ
ộc
Hồ
ồồ
ồi qui
Phát hiện ra mô tả của một
vài lớp đã được xác định và
phân loại dữ liệu vào một
trong các lớp đó.
Ánh xạ từ một mẫu dữ liệu
thành một biến dự đoán
trước có giá trị thực .
Tìm ra một tập xác định
Các nhóm hay các cụm
để mô tả dữ liệu
Phát hiện ra một mô tả
tóm tắt cho một
tập con dữ liệu
Phát hiện ra một mô
hình mà mô tả phụ
thuộc quan trọng nhất
giữa các biến
Phát hiện ra những thay đổi
quan trọng nhất
trong dữ liệu
22
VÍ DỤ PHÂN LỚP

 Công ty Verizon Wireless :
 Công ty cung cấp thiết bị, dịch vụ không dây lớn
nhất ở Mỹ
 Số lượng khách hàng : 30.3 triệu
 90% dân số Mỹ
 Vấn đề :
 Tỷ lệ khách hàng bị mất cao : 2%/tháng ( 600,000
khách hàng rời bỏ/tháng)
 Chi phí thay thế : hàng trăm triệu $/năm
 Chi phí trung bình cho mỗi khách hàng mới : 320$
23
VÍ DỤ PHÂN LỚP
 Giải pháp thông thường :
 Chào mời, khuyến mãi tất cả khách hàng trước khi hết hợp đồng
 Chí phí quá tốn kém, lãng phí
 Giải pháp của KTDL :
 Xây dựng mô hình dự đoán
 Dùng mô hình dự đoán để xác định các khách hàng có
khả năng rời bỏ
 Sau đó :
 Khuyến mãi, chào mời ( VD: một điện thoại mới) cho
những khách hàng có nhiều khả năng rời bỏ nhất
 Phát triển kế họach mới nhằm đáp ứng nhu cầu của khách
hàng
 Kết quả : giảm tỷ lệ mất khách hàng dưới 1.5 %/ tháng
24
VÍ DỤ PHÂN LỚP
Simpo PDF Merge and Split Unregistered Version –
7
25

Bài tập theo nhóm
 Thời gian thảo luận : 15’
 Thảo luận tình huống KTDL trong nhóm và sẽ gọi 01
người đại diện cho nhóm trình bày
 Thời gian trình bày : tối đa 5’
 Trình bày tình huống
 Hướng giải quyết và lợi ích
 Tình huống 1 : Thị trường bán lẻ
 Nhóm : 3C, 4, G7, Miner2A, MyLove, Hoa
 Dạng DL nào được thu thập
 Kiểu tri thức nào ta cần biết về khách hàng
 Có cần biết khách hàng mua các mặt hàng gì
 Có cần phân loại khách hàng
26
Bài tập theo nhóm
 Thời gian : 15’
 Thảo luận tình huống KTDL trong nhóm và sẽ gọi 01
người đại diện cho nhóm trình bày
 Thời gian trình bày : tối đa 5’
 Trình bày tình huống
 Hướng giải quyết và lợi ích
 Tình huống 2 : Quảng cáo sản phẩm
 Nhóm : K07, WOI, GIT, DataMiner, Tuấn Anh, Tran
 Gửi tờ quảng cáo sản phẩm đến tất cả các khách hàng
 Hay chỉ gửi cho 1 nhóm có chọn lọc
 Dự kiến khả năng phản hồi của khách hàng so với chi phí
gửi quảng cáo
27
PHÂN LỚP: ỨNG DỤNG 1
 Phát hiện gian lận :

Xem thêm: Lịch sử Internet – Wikipedia tiếng Việt

 Mục đích : Dự đoán các trường hợp gian lận trong giao
dịch thẻ tín dụng
 Hướng giải quyết :
 Dùng các giao dịch thẻ tín dụng và thông tin của chủ
thẻ như thuộc tính
 Khách hàng mua cái gì, lúc nào, số lần dùng thẻ
 Gán nhãn giao dịch cũ là gian lận hay hợp lý, đúng – tạo
thành thuộc tính lớp
 Xây dựng mô hình cho lớp các giao dịch
 Dùng mô hình để khám phá gian lận trên các giao dịch thẻ
tín dụng
28
PHÂN LỚP: ỨNG DỤNG 2
 Quảng cáo :
 Mục đích : Giảm chí phí thư tín bằng cách tập trung vào
nhóm khách hàng có nhiều khả năng mua sản phẩm điện
thoại di động mới
 Hướng giải quyết :
 Sử dụng dữ liệu cho sản phẩm tương tự trước đây
 Dùng quyết định {mua, không mua} làm thuộc tính lớp
 Thu thập thông tin cá nhân, cách sống và quan hệ của tất
cả các khách hàng
 Dùng các thông tin trên như là dữ liệu đầu vào để xây
dựng mô hình phân lớp
Simpo PDF Merge and Split Unregistered Version –
8
29
PHÂN LỚP: ỨNG DỤNG 3
 Nghiên cứu thiên văn :
 Mục đích : Dự báo loại đối tượng ( ngôi sao hay thiên hà),

đặc biệt các đối tượng khó thấy dựa trên hình ảnh của kính
thiên văn
 3000 ảnh : 23040 X 23040 pixel/ảnh
 Hướng giải quyết :
 Phân đoạn ảnh
 Xác định thuộc tính(đặc trưng) ảnh : 40 đặc trưng/ảnh
 Xây dựng mô hình dựa trên các đặc trưng
 Kết quả : Đã tìm thấy 16 chuẩn tinh đỏ – đối tượng ở
rất xa khó có thể thấy được
30
Early
Intermediate
Late
Kích thước dữ liệu:
• 72 million stars, 20 million galaxies
• Object Catalog: 9 GB
• Image Database: 150 GB
Class:
• Các giai đoạn hình
thành
Thuộc tính:
• Đặc trưng ảnh
• Đặc điểm sóng ánh
sáng,
Nguồn:
PHÂN LỚP Thiên hà
31
GOM CỤM : Minh họa
 Gom cụm dựa trên khoảng cách Euclide trong
không gian 3-D

Intracluster distances
are minimized
Intracluster distances
are minimized
Intercluster distances
are maximized
Intercluster distances
are maximized
32
GOM CỤM : ỨNG DỤNG 1
 Gom nhóm khách hàng :
 Mục đích : Chia khách hàng thành các nhóm/cụm riêng
biệt để có thể áp dụng các biện pháp quảng cáo khác nhau
 Hướng giải quyết :
 Thu thập thông tin cá nhân, cách sống của tất cả các
khách hàng
 Xác định các cụm/nhóm khách hàng giống nhau
 Kiểm tra chất lượng của các cụm thông qua việc quan
sát đặc trưng mua hàng của khách hàng trong cùng
một cụm so với khách hàng khác cụm
Simpo PDF Merge and Split Unregistered Version –
9
33
GOM CỤM : ỨNG DỤNG 2
 Gom cụm tài liệu :
 Mục đích : Tìm nhóm tài liệu giống nhau dựa trên các từ
quan trọng
 Hướng giải quyết :
 Xác định độ phổ biến của từ trong tài liệu. Xây dựng
độ đo tương tự dựa trên độ phổ biến của các từ để gom

cụm.
 Lợi ích : Trong lĩnh vực truy vấn thông tin ( IR), có
thể dùng các cụm để liên kết tài liệu mới với các tài
liệu đã gom cụm
34
Minh họa gom cụm tài liệu
3024 bài báo của LA Times
Độ đo tương tự : bao nhiêu từ thường được
dùng trong các văn bản này.
35
Gom cụm DL cổ phiếu S&P 500
Quan sát sự biến động của giá cổ phiếu hàng ngày
Dữ liệu : Cổ phiếu – {UP/DOWN}
Độ đo tương tự : các sự kiện thường giống nhau trong
cùng một ngày
Discovered Clusters Industry Group
1
Applied-Matl-DOW N,Bay-Net work-Down,3-COM-DOWN,
Cabletron-Sys-DOWN,CISCO-DOWN,HP-DOWN,
DSC-Comm-DOW N,INTEL-DOWN ,LSI-Logic-DOWN,
Micron-Tech-DOWN,Te xas-Inst-Down,Te llabs-Inc-Down,
Natl-Se miconduct-DOWN,Orac l-DOWN,SGI-DOW N,
Sun-DOWN
Technology1-DOWN
2
Apple-Comp-DOW N,Autodesk-DOWN,DEC-DOWN,
ADV-Micro-Device -DOWN,Andrew-Corp-DOWN,
Computer-Assoc-DOWN,Circuit-City-DOWN,
Compaq-DOWN, EMC-Corp-DOWN, Gen-Inst-DOWN,
Motorola-DOWN,Micros oft-DOWN,Scientific-Atl-DOWN

Technology2-DOWN
3
Fannie-Mae-DOWN,Fed-Ho me-Loan -DOW N,
MBNA-Corp-DOWN,Morgan-Stanley-DOWN
Financial-DOWN
4
Baker-Hughes -UP,Dresser-Inds-UP,Halliburton-HLD-UP,
Louisiana-Land-UP,Phillips-Petro-UP,Unocal-UP,
Schlumberger-UP
Oil-UP
36
KHAI THÁC LUẬT KẾT HỢP
 Itemset X={x
1
, …, x
k
}
 Tìm mối quan hệ giữa
các thuộc tính thường
xuất hiện đồng thời
A 

 C (50%, 66.7%)
C 

 A (50%, 100%)
Customer
buys diaper
Customer
buys both

Customer
buys beer
B, E, F40
A, D30
A, C20
A, B, C10
Items boughtTransaction-id
Buy diapers
on
Friday night
Buy beer
Then
Simpo PDF Merge and Split Unregistered Version –
10
37
Khai thác LKH : ỨNG DỤNG 1
 Quảng cáo và khuyến mãi :
 Giả sử tìm được luật :
{Bia, } 

 {Khoai tây chiên}
 Khoai tây chiên là hệ quả : quyết định nên làm
gì để quảng cáo cho nó
 Bia là tiền đề : dùng để xem loại sản phẩm nào
bị ảnh hưởng nếu không bán bia nữa
 Bia và khoai tây chiên cùng xuất hiện : loại sản
phẩm nào nên bán kèm với bia để khuyến khích
mua khoai tây chiên
38
Khai thác LKH : ỨNG DỤNG 2

 Quản lý quầy hàng siêu thị:
 Mục đích : Xác định những mặt hàng được nhiều
khách hàng mua chung
 Hướng giải quyết :
 Xử lý dữ liệu bán hàng để tìm mối liên hệ
giữa các mặt hàng
 Luật cổ điển : Nếu khách hàng mua tã giấy
và sữa thì có khả năng mua bia.
39
Khai thác LKH : ỨNG DỤNG 3
 Quản lý hàng hóa:
 Mục đích : Công ty bảo trì thiết bị tiêu dùng muốn
đoán trước nguyên nhân sửa chữa các sản phẩm tiêu
dùng và trang bị các xe bảo trì các bộ phận cần thiết
để giảm thiểu số lần đến nhà khách hàng
 Hướng giải quyết :
 Xử lý dữ liệu trên các dụng cụ và bộ phận đã
yêu cầu trong các lần sửa trước để tìm các mẫu
đồng xuất hiện
40
HỒI QUI
 Dự đoán giá trị của bíến dựa trên giá trị của
các biến khác
 Ví dụ :
 Dự báo khối lượng bán hàng của sản phẩm
mới dựa trên chi phí quảng cáo
 Dự đóan tốc độ gió như một hàm của nhiệt độ,
độ ẩm, áp suất không khí, …
 Dự đoán chỉ số thị trường chứng khoán
Simpo PDF Merge and Split Unregistered Version –

11
41
Phát hiện sự Lạc hướng/
Bất bình thường
 Xác định sự lệch hướng rõ
rệt so với hành vi thông
thường
 Ứng dụng :
 Phát hiện gian lận
thẻ tín dụng
 Phát hiện xâm
nhập mạng trái phép
42
NỘI DUNG
1. Tại sao cần khai thác dữ liệu ?
2. Khai thác dữ liệu là gì ?
3. Qui trình KDD
4. Các nhiệm vụ chính của KTDL
5. Các kỹ thuật KTDL
6. Các vấn đề của KTDL
43
KTDL – KẾT HỢP PHƯƠNG PHÁP
Data Mining
Database
Technology
Statistics
Machine
Learning
Pattern
Recognition

Algorithm
Other
Disciplines
Visualization
44
MỘT SỐ KỸ THUẬT KTDL
 Cây quyết định, Luật qui nạp
 Phát hiện luật kết hợp
 Giải thuật di truyền
 Mạng Nơ ron, tập mờ
 Hồi qui tuyến tính, phi tuyến tính
 Tập thô (Rough Sets)
 Thống kê
 Mạng Bayes
 …
Simpo PDF Merge and Split Unregistered Version –
12
45
NỘI DUNG
1. Tại sao cần khai thác dữ liệu (DM) ?
2. DM là gì ?
3. Qui trình KDD
4. Các nhiệm vụ chính của KTDL
5. Các kỹ thuật KTDL
6. Các vấn đề của KTDL
46
NHỮNG VẤN ĐỀ CỦA KTDL
 Tính có ích
 Tính hiệu quả
 Ứng dụng

 Lý thuyết
47
NHỮNG VẤN ĐỀ CỦA KTDL
 Tính có ích
Độ đo tính có ích ?
Trực quan và tương tác
 Tính hiệu quả
Phát triển thuật toán DM
nhanh
Thi hành có phương pháp :
khai thác song song, phân
tán, tăng cường
Tích hợp vào hệ thống sản
phẩm : DBMS, DW
Các tậ
ậậ
ập dữ
ữữ
ữ liệ
ệệ
ệu cự
ựự
ực lớ
ớớ
ớ
n
Và có số
ốố
ố chiề
ềề

ều lớ
ớớ
ớn
(Tính hiệ
ệệ
ệu qủ
ủủ
ủa, tí
nh co
dãn)
Xử
ửử
ử lý các kiể
ểể
ểu dữ
ữữ
ữ liệ
ệệ
ệu
khác nhau vớ
ớớ
ới mứ
ứứ
ức
độ
ộộ
ộ quả
ảả
ản trị
ịị

ị khác
nhau
48
NHỮNG VẤN ĐỀ CỦA KTDL
 Ứng dụng
DL bị nhiễu, thiếu
DL phức tạp, không đồng
nhất
Bảo toàn tính riêng tư
 Lý thuyết
Biểu diễn tri thức
Ngôn ngữ và đại số DM
Tối ưu hóa câu truy vấn
DM
Các nguồ
ồồ
ồn dữ
ữữ
ữ liệ
ệệ
ệu
khác nhau (Các
CSDL Phân tán và
thuầ
ầầ
ần nhấ
ấấ
ất, dữ
ữữ
ữ liệ

ệệ
ệu
không đồ
ồồ
ồng bộ
ộộ
ộ, có
nhiễ
ễễ
ễu và bị
ịị
ị mấ
ấấ
ất
mát,v.v….)
Simpo PDF Merge and Split Unregistered Version –
13
49
TẠI SAO CẦN NGHIÊN CỨU KTDL
Thảo luận và tự đưa ra câu trả lời
50
TÓM TẮT
 Khám phá mẫu có ích, chưa biết từ khối
lượng lớn DL
 Qui trình KDD
Thu thập và tiền xử lý DL -> KTDL -> Đánh
giá mẫu -> Biểu diễn tri thức
 Khai thác trên nhiều loại DL, thông tin
 Các loại mẫu cần khai thác
Luật kết hợp, mẫu tuần tự, phân lớp, gom

nhóm, mẫu hiếm, mẫu cá biệt, sai lệch
51
TÀI LIỆU THAM KHẢO
 G. Piatetsky-Shapiro, U. Fayyad, and P. Smith.
From data mining to knowledge discovery: An
overview. U.M. Fayyad, et al. (eds.), Advances
in Knowledge Discovery and Data Mining, 1-
35. AAAI/MIT Press, 1996
 />1_d%E1%BB%AF_li%E1%BB%87u : bách
khoa toàn thư mở wikipedia
 Một số slide dùng trong bài được lấy từ các
slide của các cuốn sách về KTDL.
52
Sự phát triển của KTDL
 1989 IJCAI Workshop on Knowledge Discovery in Databases
 Knowledge Discovery in Databases (G. Piatetsky-Shapiro and W.
Frawley, 1991)
 1991-1994 Workshops on Knowledge Discovery in Databases
Advances in Knowledge Discovery and Data Mining (U. Fayyad,
G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996)
 1995-1998 International Conferences on Knowledge Discovery in
Databases and Data Mining (KDD’95-98)
 Journal of Data Mining and Knowledge Discovery (1997)
 ACM SIGKDD conferences từ 1998 và SIGKDD Explorations
 Nhiều hội nghị khác về KTDL
 PAKDD (1997), PKDD (1997), SIAM-Data Mining (2001), (IEEE)
ICDM (2001), …
 ACM Transactions on KDD từ 2007
Simpo PDF Merge and Split Unregistered Version –
14

53
BÀI TẬP
1. Thế nào là khai thác dữ liệu ?
2. Các kiểu dữ liệu, thông tin nào có khả năng
được sử dụng trong qui trình KDD?
3. Cho ví dụ về việc áp dụng KTDL đem đến
thành công trong kinh doanh (ngoài các ví
dụ có trong bài giảng). Loại nhiệm vụ nào
của KTDL được sử dụng ? Họ có thể thay
bằng phương pháp truy vấn DL hay phân
tích thống kê đơn giản không ?
54
Q & A
Simpo PDF Merge and Split Unregistered Version –
1
KHAI THÁC DỮ LIỆU
& ỨNG DỤNG
(DATA MINING)
GV : ThS. NGUYỄN HOÀNG TÚ ANH
2
BÀI 2
CHUẨN BỊ DỮ LIỆU
3
NỘI DUNG
1. Tại sao cần chuẩn bị dữ liệu ?
2. Làm sạch dữ liệu ( data cleaning)
3. Chọn lọc dữ liệu (data selection)
4. Rút gọn dữ liệu ( data reduction)
5. Mã hoá dữ liệu
4

CÁC KIỂU DỮ LIỆU
 Dữ liệu dạng thuộc tính –
giá trị (Attribute-value data)
 Các kiểu dữ liệu
 số (numeric), phi số
(categorical)
 Tĩnh, động (thời gian)
 Các dạng dữ liệu khác
 DL phân tán
 DL văn bản
 DL web, siêu DL
 Hình ảnh, audio/video

Simpo PDF Merge and Split Unregistered Version –
2
5
CHUẨN BỊ DỮ LIỆU
 Dữ liệu trong thực tế có chất lượng xấu
DL thiếu, không đầy đủ : thiếu giá trị của thuộc
tính, thiếu các thuộc tính quan tâm, hoặc chỉ chứa
DL tích hợp
o VD : tuổi, cân nặng = “”
DL b tp, nhiu (noise) : chứa lỗi hoặc các sai
biệt
o VD : Lương =“-100 000”
DL mâu thuẫn : có sự không thống nhất trong mã
hoặc trong tên
o VD : Tuổi =42, Ngày sinh = 03/07/1997; US=USA?
6
Tại sao DL có chất lượng xấu ?

 Bài tập theo nhóm : 20’ : thảo luận và viết
tổng hợp
Tình huống : Bạn là người quản lý thông tin của
công ty điện tử X (gồm rất nhiều chi nhánh trên
toàn quốc). Bạn cần phân tích DL bán hàng của
tất cả các chi nhánh.
Sau khi thu thập DL từ các chi nhánh, bạn có
thể gặp những vấn đề gì, ví dụ và tại sao ?
Tại sao DL trong thực tế thường có chất lượng
xấu?
Np bn tng hp ý kin cho GV ( ghi rõ tên
nhóm nh qui đnh ). Vit ngn gn, súc tích .
7
Qui định trình bày bài nộp
Bài tập nộp theo nhóm
 Ngày nộp :
 Tên nhóm : (chỉ ghi tên các thành viên có
mặt)
 Thành viên 1:
 Thành viên 2:
 ….
 Thành viên 12:
 Nội dung :
8
CHUẨN BỊ DỮ LIỆU
 “DL không chất lượng, không cho kết quả
khai thác tốt”
Quyết định đúng đắn phải dựa trên các DL
chính xác
o VD : việc trùng lắp hoặc thiếu DL có thể

dẫn tới việc thống kê không chính xác,
thậm chí làm lạc lối.
Nhà kho DL cần sự tích hợp đồng nhất các
DL chất lượng
Simpo PDF Merge and Split Unregistered Version –
3
9
CHUẨN BỊ DỮ LIỆU
 Các bước của quá trình chuẩn bị DL ?
Làm sạch DL
o Điền các giá trị thiếu, khử DL nhiễu, xác định và loại
bỏ DL sai biệt, DL nhiễu và giải quyết DL mâu thuẫn
Chọn lọc/ Tích hợp DL
o Tổng hợp, tích hợp DL từ nhiều CSDL, tập tin khác
nhau .
Biến đổi DL/ Mã hoá DL
o Chuẩn hoá và tổng hợp (aggregation) .
Rút gọn DL
o Giảm kích thước DL nhưng đảm bảo kết quả phân
tích .
10
CHUẨN BỊ DỮ LIỆU
11
NỘI DUNG
1. Tại sao cần chuẩn bị dữ liệu ?
2. Làm sạch dữ liệu ( data cleaning)
3. Chọn lọc dữ liệu (data selection)
4. Rút gọn dữ liệu ( data reduction)
5. Mã hoá dữ liệu
12

Xem thêm: 5 dấu hiệu thai phát triển tốt và 10 dấu hiệu thai yếu bạn cần biết

LÀM SẠCH DỮ LIỆU
 Làm sạch DL là vấn đề quan trọng bậc
nhất của nhà kho DL
 Các nhiệm vụ của công đoạn làm
sạch DL
Điền các giá trị còn thiếu
Xác định các sai biệt và khử DL tạp,
nhiễu
Sửa chữa các DL mâu thuẫn
Simpo PDF Merge and Split Unregistered Version –
4
13
ĐIỀN DỮ LIỆU THIẾU
 Bỏ qua các mẫu tin có giá trị thiếu
Thường dùng khi thiếu nhãn của lớp ( trong phân
lớp)
Dễ, nhưng không hiệu quả, đặc biệt khi tỷ lệ giá
trị thiếu của thuộc tính cao.
 Điền các giá trị thiếu bằng tay : vô vị +
không khả thi
 Điền các giá trị thiếu tự động :
Thay thế bằng hằng số chung: VD : “không biết”.
Có thể thành lớp mới trong DL
14
ĐIỀN DỮ LIỆU THIẾU
 Điền các giá trị thiếu tự động :
Thay thế bằng giá trị trung bình của
thuộc tính
Thay thế bằng giá trị trung bình của
thuộc tính trong một lớp

Thay thế bằng giá trị có nhiều khả năng
nhất : suy ra từ công thức Bayesian,
cây quyết định hoặc thuật giải
EM (Expectation Maximization)
15
ĐIỀN DỮ LIỆU THIẾU
 Tình huống:
Thu thập DL về sinh viên thuộc các
trường của ĐHQG Tp.HCM ( Vd : để
phân tích mức sống SV)
Các thuộc tính nào có thể có trong
CSDL ?
Ví dụ thuộc tính bị thiếu giá trị là thuộc
tính “Tiền thuê nhà”
Cách giải quyết?
16
DỮ LIỆU NHIỄU
 Các phương pháp cơ bản khử
nhiễu :
Phương pháp chia giỏ (Binning) :
o Sắp xếp và chia DL vào các giỏ có cùng độ sâu (equal-
depth)
o Khử nhiễu bằng giá trị TB, trung tuyến, biên giỏ,…
Gom nhóm ( Clustering) :
o Phát hiện và loại bỏ các khác biệt
Phương pháp hồi qui ( Regression) :
o Đưa DL vào hàm hồi qui
Kết hợp sự kiểm tra giữa máy tính và con người
(Computer/human inspection)
o Phát hiện giá trị nghi ngờ và kiểm tra bởi con người

Simpo PDF Merge and Split Unregistered Version –
 Th.s. Nguyễn Hoàng Tú AnhTel : 8354266 – 508 hoặc 803  Website môn học :  / >  vào mục Hệ Hoàn chỉnh Đại Học / Khai thácDL và UD – 05HCAS impo PDF Merge and Split Unregistered Version – CHƯƠNG TRÌNH30 tiết kim chỉ nan  Tổng quan  Chuẩn bị dữ liệu  Tập thông dụng và luật phối hợp  Chuỗi tuần tự  Bài toán phân lớp  Bài toán gom nhóm  Các nghiên cứu và điều tra xa hơnHÌNH THỨC KIỂM TRA VÀĐÁNH GIÁ  Thi triết lý : 7 điểm  Thi viết, được sử dụng tài liệu, KHÔNG sử dụnglaptop, mang theo máy tính : thời hạn 120 ’  Bài tập giữa kỳ 1.5 điểm  Bài tập làm cá thể  Nộp 1 lần trong học kỳ trên website môn học theothông báo của GV  Bài tập theo nhóm : 1.5 điểm  Bài tập làm theo nhóm trên lớp. Từ 8 – 12 SV / nhómSimpo PDF Merge and Split Unregistered Version – HÌNH THỨC KIỂM TRA VÀĐÁNH GIÁ  Bài tập giữa kỳ 1.5 điểm  Bài tập làm cá thể  Nộp 1 lần trong học kỳ trên website môn học theo thông báocủa GV ( soft + hard copy )  Lưu ý : khi nộp bài cần tuân theo rất đầy đủ lao lý được thông báotrên website môn học ( về cách tổ chức triển khai file bài làm, đặt tênfile … ), không nộp qua email, không gật đầu nộp trễ.  Các mức nhìn nhận :  A – Xuất sắc 100 % số điểm  B – Đạt nhu yếu ~ 70 % số điểm  C – Không đạt nhu yếu ~ 30 % số điểm  F – Không nộp, hoặc giống bài của SV khác 0 % số điểmHÌNH THỨC KIỂM TRA VÀĐÁNH GIÁ  Bài tập làm theo nhóm 1.5 điểm  Bài tập làm theo nhóm trên lớp. Từ 8 – 12 SV / nhóm.  Đanh giá sự tham gia lớp học và sự sẵn sàng chuẩn bị bài  Sau khi bàn luận, những nhóm sẽ trình diễn quan điểm, kết quảtrước lớp hoặc sẽ trình diễn trên giấy và nộp cho GV ngaytại lớp.  Để hoàn toàn có thể đạt hiệu quả tốt, những nhóm cần xem trước bài giảngđể sẵn sàng chuẩn bị.  Các mức nhìn nhận :  A – Xuất sắc 100 % số điểm  B – Đạt nhu yếu ~ 70 % số điểm  C – Không đạt nhu yếu ~ 30 % số điểm  F – Không làm hoặc giống bài của nhóm khác 0 % số điểmSimpo PDF Merge and Split Unregistered Version – Câu hỏi và đề xuất ?  Rất mong nhận được những quan điểm phản hồi từ cácem.  Cô cần kiểm soát và điều chỉnh nội dung cho phù hợpvới nhu yếu của những em.  Có thể gửi quan điểm cho Cô bất kể khi nào.  Chia sẻ câu hỏi, vướng mắc với cả lớp – hoàn toàn có thể cónhững bạn khác cũng chăm sóc.  Bỏ vào càng nhiều công sức của con người, những em sẽ đạt đượckết quả càng cao  Điểm của những em tỷ suất thuận với những nỗ lực đãbỏ ra. 10T ÀI LIỆU THAM KHẢO  J.Han, M.Kamber, “ Data mining : Concepts và Technique ” ( ppt ) – hoặc ebook tạiđịa chỉ  P.Tan, M. Steinbach, V. Kumar, “ Introduction to dataMining ”, 2006, – http://www-users.cs.umn.edu/~kumar/dmbook/index.php Phần mềm WEKA – / >  Trang web đầu ngành về KTDL – Kdnuggets : www.kdnuggets. comSimpo PDF Merge and Split Unregistered Version – 11N ỘI DUNG  Giới thiệu về môn học  Giới thiệu về khai thácdữ liệu ( DM ) 12TH Ế NÀO LÀ KHAI THÁC DL  Là quy trình lặp, không phải plug – and – play  “ Khai thác dữ liệu là quy trình không tầm thườngcủa việc xác lập những mẫu tiềm ẩn có tính hợp lệ, mới lạ, có ích và hoàn toàn có thể hiểu được tối đa trongCSDL ” – U.Fayyad, … ( 1996 )  Một vài ví dụ minh họa ứng dụng KTDL  FBI – theo dõi tội phạm  Các công ty điện thoại thông minh  Siêu thị, TT shopping ( Walmart, Costco )  Các công ty bảo hiểm  Ngân hàng, kinh tế tài chính, sàn chứng khoán …. Simpo PDF Merge and Split Unregistered Version – 13TH Ế NÀO LÀ KHAI THÁC DL  Tại sao cần Khai thác dữ liệu ( KTDL ) ?  Những đối tượng người dùng nào sử dụng KTDL ?  Sử dụng KTDL ở đâu và khi nào ?  Sử dụng KTDL như thế nào ?  Tại sao cần nghiên cứu và điều tra KTDL ?  Lịch sử tăng trưởng KTDL ? …. Xem bài 1 : Tổng quan. Lưu ý : Hạn chót ĐK nhóm : 16/5/200714 Simpo PDF Merge and Split Unregistered Version – KHAI THÁC DỮ LIỆU và ỨNG DỤNG ( DATA MINING ) GV : ThS. NGUYỄN HOÀNG TÚ ANHBÀI 1T ỔNG QUANNỘI DUNG1. Tại sao cần khai thác dữ liệu ? 2. Khai thác dữ liệu ( KTDL ) là gì ? 3. Quy trình KDD4. Các trách nhiệm chính của KTDL5. Các kỹ thuật KTDL6. Các yếu tố của KTDLSỰ CẦN THIẾT CỦA KTDL – Khía cạnh thương mại  Khối lượng lớn dữ liệuđược tích lũy và lưu trữo Web data, e-commerceo Hóa đơn mua hàng tại nhà hàng / TT mua sắmo Giao dịch ngân hàng nhà nước / thẻ tin dụng  Máy tính mạnh hơn, rẻ hơn  Áp lực cạnh tranh đối đầu rất mạnho Cung cấp những dịch vụ phong phú, chất lượng tốt ( CRM – Customer Relationship Management ) Simpo PDF Merge and Split Unregistered Version – SỰ CẦN THIẾT CỦA KTDL – Khía cạnh Khoa học  Dữ liệu được thu thậpvà tàng trữ với vận tốc cao ( GB / h ) o Thiết bị remote sensor trên vệ tinho Kính thiên văn quan sát bầu trờio Microarray tạo dữ liệu trình diễn gieno Thử nghiệm khoa học tạo hàng TB  Các kỹ thuật truyền thống lịch sử khơng đủkhả năng thao tác với dữ liệu thơ  KTDL hoàn toàn có thể giúp những nhà khoa họco Phân loại và phân đoạn dữ liệuo Xây dựng giả thuyếtSỰ CẦN THIẾT CỦA KTDL  DL chứa rất nhiều thơng tin giátrị, có lợi cho tiến trình ra quyếtđịnh  Khơng thể nghiên cứu và phân tích DL = tay • Con người cần hàng tuần lễ đểkhám phá ra thơng tin có ích • Phần lớn dữ liệu chưa bao giờđược nghiên cứu và phân tích cả • “ Hố sâu giữa năng lực sinh ra DLvà năng lực sử dụng DL ” – Usama Fayyad10-1012bytes : Không khi nào cóthể nhìn thấy mộtcách vừa đủ tậpdữ liệu hoặc đưavào bộ nhớ củamáy tínhSỰ CẦN THIẾT CỦA KTDL500, 0001,000,0001,500,0002,000,0002,500,0003,000,0003,500,0004,000,0001995 1996 1997 1998 1999H ố sâu dữ liệuSố DL tích lũy ( TB ) từ năm 1995S ố DL đượcphân tíchSỰ RA ĐỜI CỦA KTDLSimpo PDF Merge and Split Unregistered Version – SỰ DỤNG KTDL KHI NÀO ?  Dữ liệu q nhiều  Dữ liệu lớn ( chiều và size )  Dữ liệu ảnh ( size )  Dữ liệu gene ( số chiều )  Có ít tri thức về dữ liệu10LĨNH VỰC ỨNG DỤNG KTDLThông tin thương mại-Phân tích thò trường vàmua bán-Phân tích đầu tư-Chấp thuận cho vay-Phát hiện gian lậnThông tin sản xuất – Điều khiển và lên kế hoạch – Quản trò mạng – Phân tích những hiệu quả thựcnghiệmThông tin khoa học – Thiên văn học – Cơ sở dữ liệu sinh học – Khoa học đòa chất : bộ dò tìm độngđấtThông tin cá nhân11NỘI DUNG1. Tại sao cần khai thác dữ liệu ? 2. Khai thác dữ liệu là gì ? 3. Quy trình KDD4. Các trách nhiệm chính của KTDL5. Các kỹ thuật KTDL6. Các yếu tố của KTDL12THẾ NÀO LÀ KTDL “ Khai thác dữ liệu là q trình khơng tầm thường của việc xácđịnh những mẫu tiềm ẩn có tính hợp lệ, mới lạ, có ích và cóthể hiểu được tối đa trong CSDL ” – U.Fayyad, … ( 1996 ) Quá trình không tầm thườngĐa xử lýHợp lệChứng minh tính đúngCủa mẫu / Mô hìnhMới lạKhông biết trướcCó íchCó thể sử dụng đượcCó thể hiểu đượcBởi con người và máySimpo PDF Merge and Split Unregistered Version – 13KHAI THÁC DL …  Thế nào là mẫu ?  Là mối quan hệ trong dữ liệu ví dụ như :  Những người mua quần tây thường hay muathêm áo sơ mi  Những người có mức tín dụng thanh toán tốt thì thườngít bị tai nạn đáng tiếc  Đàn ông, 37 +, thu nhập : 50K-75 K, -> chikhoảng 25 USD – 50 $ cho đặt mua hàng quacatalog14KHAI THÁC DL  What is Data Mining ? – Các tên phổ cập tại khuvực xác lập của Mỹ ( O’Brien, O’Rurke, O’Reilly … ở vùng Boston ) – Gom nhóm những tài liệugiống nhau thu được từsearch engine dựa trên nộidung ( VD : rừng nhiệt đớiAmazon, Amazon. com )  What is not DataMining ? – Tìm số điệnthoại trong danhbạ điện thoại thông minh – Tìm thông tin về “ Amazon ” trênserach engine15NỘI DUNG1. Tại sao cần khai thác dữ liệu ? 2. Khai thác dữ liệu là gì ? 3. Quy trình KDD4. Các trách nhiệm chính của KTDL5. Các kỹ thuật KTDL6. Các yếu tố của KTDL16QUI TRÌNH KHÁM PHÁ TRI THỨC  KTDL : Một bướcquan trọng trong quitrình KDD ( knowledgediscovery in DB ) Data CleaningData IntegrationDatabasesData WarehouseTask-relevant DataSelectionData MiningPattern EvaluationSimpo PDF Merge and Split Unregistered Version – 17QUI TRÌNH KDDDữ liệu được tổ chức triển khai theo chứcnăngTạo ra / chọn lọcCSDL đíchChọn llựa kỹ thuậtđiển hình và dữ liệu mẫuThay thế nhữnggiá trò thiếuChuẩn hoágiá tròLựa chọnnhiệm vụ DMBiến đổi quabiểu điễn khácKhử nhiễuDữ liệuBiến đổigiá tròLựa chọnphương pháp DMTạo những thuộcTính dẫn xuấtTrích xuấtTri thứcTìm thuộc tính quantrọng và Miền giá tròKiểm tratri thứcTính chếTri thứcPhát sinh ra câu hỏi và báo cáoCác chiêu thức cải tiếnkiểu tích hợp và lập dãyData warehousing18KIẾN TRÚC HỆ THỐNG DM TIỂU BIỂUDataWarehouseData cleaning và data integrationFilteringDatabasesDatabase or datawarehouse serverData mining enginePattern evaluationGraphical user interfaceKnowledge-base19NỘI DUNG1. Tại sao cần khai thác dữ liệu ? 2. Khai thác dữ liệu là gì ? 3. Quy trình KDD4. Các trách nhiệm chính của DM5. Các kỹ thuật DM6. Các yếu tố của DM20CÁC NHIỆM VỤ CHÍNH CỦA DMSimpo PDF Merge and Split Unregistered Version – 21C ÁC NHIỆM VỤ CHÍNH CỦA DMPhân lớớớớpPhát hiệệệện sựựựự thayđổổổổi / lạạạạc hướớớớngTóm tắắắắtGom cụụụụmMô hình hóaphụụụụ thuộộộộcHồồồồi quiPhát hiện ra diễn đạt của mộtvài lớp đã được xác lập vàphân loại dữ liệu vào mộttrong những lớp đó. Ánh xạ từ một mẫu dữ liệuthành một biến dự đoántrước có giá trị thực. Tìm ra một tập xác địnhCác nhóm hay những cụmđể diễn đạt dữ liệuPhát hiện ra một mô tảtóm tắt cho mộttập con dữ liệuPhát hiện ra một môhình mà diễn đạt phụthuộc quan trọng nhấtgiữa những biếnPhát hiện ra những thay đổiquan trọng nhấttrong dữ liệu22VÍ DỤ PHÂN LỚP  Công ty Verizon Wireless :  Công ty phân phối thiết bị, dịch vụ không dây lớnnhất ở Mỹ  Số lượng người mua : 30.3 triệu  90 % dân số Mỹ  Vấn đề :  Tỷ lệ người mua bị mất cao : 2 % / tháng ( 600,000 người mua rời bỏ / tháng )  Chi tiêu sửa chữa thay thế : hàng trăm triệu USD / năm  Chi tiêu trung bình cho mỗi người mua mới : 320 USD 23V Í DỤ PHÂN LỚP  Giải pháp thường thì :  Chào mời, khuyễn mãi thêm tổng thể người mua trước khi hết hợp đồng  Chí phí quá tốn kém, tiêu tốn lãng phí  Giải pháp của KTDL :  Xây dựng quy mô Dự kiến  Dùng quy mô Dự kiến để xác lập những người mua cókhả năng rời bỏ  Sau đó :  Khuyến mãi, chào mời ( VD : một điện thoại thông minh mới ) chonhững người mua có nhiều năng lực rời bỏ nhất  Phát triển kế hoạch mới nhằm mục đích phân phối nhu yếu của kháchhàng  Kết quả : giảm tỷ suất mất người mua dưới 1.5 % / tháng24VÍ DỤ PHÂN LỚPSimpo PDF Merge and Split Unregistered Version – 25B ài tập theo nhóm  Thời gian tranh luận : 15 ’  Thảo luận trường hợp KTDL trong nhóm và sẽ gọi 01 người đại diện thay mặt cho nhóm trình diễn  Thời gian trình diễn : tối đa 5 ’  Trình bày trường hợp  Hướng xử lý và quyền lợi  Tình huống 1 : Thị Trường kinh doanh bán lẻ  Nhóm : 3C, 4, G7, Miner2A, MyLove, Hoa  Dạng DL nào được tích lũy  Kiểu tri thức nào ta cần biết về người mua  Có cần biết người mua mua những mẫu sản phẩm gì  Có cần phân loại khách hàng26Bài tập theo nhóm  Thời gian : 15 ’  Thảo luận trường hợp KTDL trong nhóm và sẽ gọi 01 người đại diện thay mặt cho nhóm trình diễn  Thời gian trình diễn : tối đa 5 ’  Trình bày trường hợp  Hướng xử lý và quyền lợi  Tình huống 2 : Quảng cáo loại sản phẩm  Nhóm : K07, WOI, GIT, DataMiner, Tuấn Anh, Tran  Gửi tờ quảng cáo loại sản phẩm đến tổng thể những người mua  Hay chỉ gửi cho 1 nhóm có tinh lọc  Dự kiến năng lực phản hồi của người mua so với chi phígửi quảng cáo27PHÂN LỚP : ỨNG DỤNG 1  Phát hiện gian lận :  Mục đích : Dự đoán những trường hợp gian lận trong giaodịch thẻ tín dụng thanh toán  Hướng xử lý :  Dùng những thanh toán giao dịch thẻ tín dụng thanh toán và thông tin của chủthẻ như thuộc tính  Khách hàng mua cái gì, khi nào, số lần dùng thẻ  Gán nhãn thanh toán giao dịch cũ là gian lận hay hài hòa và hợp lý, đúng – tạothành thuộc tính lớp  Xây dựng quy mô cho lớp những thanh toán giao dịch  Dùng quy mô để mày mò gian lận trên những thanh toán giao dịch thẻtín dụng28PHÂN LỚP : ỨNG DỤNG 2  Quảng cáo :  Mục đích : Giảm chí phí thư tín bằng cách tập trung chuyên sâu vàonhóm người mua có nhiều năng lực mua loại sản phẩm điệnthoại di động mới  Hướng xử lý :  Sử dụng dữ liệu cho mẫu sản phẩm tương tự như trước kia  Dùng quyết định hành động { mua, không mua } làm thuộc tính lớp  Thu thập thông tin cá thể, cách sống và quan hệ của tấtcả những người mua  Dùng những thông tin trên như là dữ liệu nguồn vào để xâydựng quy mô phân lớpSimpo PDF Merge and Split Unregistered Version – 29PH ÂN LỚP : ỨNG DỤNG 3  Nghiên cứu thiên văn :  Mục đích : Dự báo loại đối tượng người dùng ( ngôi sao 5 cánh hay thiên hà ), đặc biệt quan trọng những đối tượng người tiêu dùng khó thấy dựa trên hình ảnh của kínhthiên văn  3000 ảnh : 23040 X 23040 px / ảnh  Hướng xử lý :  Phân đoạn ảnh  Xác định thuộc tính ( đặc trưng ) ảnh : 40 đặc trưng / ảnh  Xây dựng quy mô dựa trên những đặc trưng  Kết quả : Đã tìm thấy 16 chuẩn tinh đỏ – đối tượng người dùng ởrất xa khó hoàn toàn có thể thấy được30EarlyIntermediateLateKích thước dữ liệu : • 72 million stars, 20 million galaxies • Object Catalog : 9 GB • Image Database : 150 GBClass : • Các tiến trình hìnhthànhThuộc tính : • Đặc trưng ảnh • Đặc điểm sóng ánhsáng, Nguồn : PHÂN LỚP Thiên hà31GOM CỤM : Minh họa  Gom cụm dựa trên khoảng cách Euclide trongkhông gian 3 – DIntracluster distancesare minimizedIntracluster distancesare minimizedIntercluster distancesare maximizedIntercluster distancesare maximized32GOM CỤM : ỨNG DỤNG 1  Gom nhóm người mua :  Mục đích : Chia người mua thành những nhóm / cụm riêngbiệt để hoàn toàn có thể vận dụng những giải pháp quảng cáo khác nhau  Hướng xử lý :  Thu thập thông tin cá thể, cách sống của toàn bộ cáckhách hàng  Xác định những cụm / nhóm người mua giống nhau  Kiểm tra chất lượng của những cụm trải qua việc quansát đặc trưng mua hàng của người mua trong cùngmột cụm so với người mua khác cụmSimpo PDF Merge and Split Unregistered Version – 33GOM CỤM : ỨNG DỤNG 2  Gom cụm tài liệu :  Mục đích : Tìm nhóm tài liệu giống nhau dựa trên những từquan trọng  Hướng xử lý :  Xác định độ phổ cập của từ trong tài liệu. Xây dựngđộ đo tựa như dựa trên độ phổ cập của những từ để gomcụm.  Lợi ích : Trong nghành nghề dịch vụ truy vấn thông tin ( IR ), cóthể dùng những cụm để link tài liệu mới với những tàiliệu đã gom cụm34Minh họa gom cụm tài liệu3024 bài báo của LA TimesĐộ đo tương tự như : bao nhiêu từ thường đượcdùng trong những văn bản này. 35G om cụm DL CP S&P 500Q uan sát sự dịch chuyển của giá CP hàng ngàyDữ liệu : Cổ phiếu – { UP / DOWN } Độ đo tương tự như : những sự kiện thường giống nhau trongcùng một ngàyDiscovered Clusters Industry GroupApplied-Matl-DOW N, Bay-Net work-Down, 3 – COM-DOWN, Cabletron-Sys-DOWN, CISCO-DOWN, HP-DOWN, DSC-Comm-DOW N, INTEL-DOWN, LSI-Logic-DOWN, Micron-Tech-DOWN, Te xas-Inst-Down, Te llabs-Inc-Down, Natl-Se miconduct-DOWN, Orac l-DOWN, SGI-DOW N, Sun-DOWNTechnology1-DOWNApple-Comp-DOW N, Autodesk-DOWN, DEC-DOWN, ADV-Micro-Device – DOWN, Andrew-Corp-DOWN, Computer-Assoc-DOWN, Circuit-City-DOWN, Compaq-DOWN, EMC-Corp-DOWN, Gen-Inst-DOWN, Motorola-DOWN, Micros oft-DOWN, Scientific-Atl-DOWNTechnology2-DOWNFannie-Mae-DOWN, Fed-Ho me-Loan – DOW N, MBNA-Corp-DOWN, Morgan-Stanley-DOWNFinancial-DOWNBaker-Hughes – UP, Dresser-Inds-UP, Halliburton-HLD-UP, Louisiana-Land-UP, Phillips-Petro-UP, Unocal-UP, Schlumberger-UPOil-UP36KHAI THÁC LUẬT KẾT HỢP  Itemset X = { x, …, x  Tìm mối quan hệ giữacác thuộc tính thườngxuất hiện đồng thờiA     C ( 50 %, 66.7 % ) C     A ( 50 %, 100 % ) Customerbuys diaperCustomerbuys bothCustomerbuys beerB, E, F40A, D30A, C20A, B, C10Items boughtTransaction-idBuy diapersonFriday nightBuy beerThenSimpo PDF Merge and Split Unregistered Version – 1037K hai thác LKH : ỨNG DỤNG 1  Quảng cáo và khuyến mại :  Giả sử tìm được luật : { Bia, }     { Khoai tây chiên }  Khoai tây chiên là hệ quả : quyết định hành động nên làmgì để quảng cáo cho nó  Bia là tiền đề : dùng để xem loại mẫu sản phẩm nàobị ảnh hưởng tác động nếu không bán bia nữa  Bia và khoai tây chiên cùng Open : loại sảnphẩm nào nên bán kèm với bia để khuyến khíchmua khoai tây chiên38Khai thác LKH : ỨNG DỤNG 2  Quản lý quầy hàng nhà hàng :  Mục đích : Xác định những mẫu sản phẩm được nhiềukhách hàng mua chung  Hướng xử lý :  Xử lý dữ liệu bán hàng để tìm mối liên hệgiữa những loại sản phẩm  Luật cổ xưa : Nếu người mua mua tã giấyvà sữa thì có năng lực mua bia. 39K hai thác LKH : ỨNG DỤNG 3  Quản lý sản phẩm & hàng hóa :  Mục đích : Công ty bảo dưỡng thiết bị tiêu dùng muốnđoán trước nguyên do sửa chữa thay thế những mẫu sản phẩm tiêudùng và trang bị những xe bảo dưỡng những bộ phận cần thiếtđể giảm thiểu số lần đến nhà khách hàng  Hướng xử lý :  Xử lý dữ liệu trên những dụng cụ và bộ phận đãyêu cầu trong những lần sửa trước để tìm những mẫuđồng xuất hiện40HỒI QUY  Dự đoán giá trị của bíến dựa trên giá trị củacác biến khác  Ví dụ :  Dự báo khối lượng bán hàng của sản phẩmmới dựa trên ngân sách quảng cáo  Dự đoán vận tốc gió như một hàm của nhiệt độ, nhiệt độ, áp suất không khí, …  Dự đoán chỉ số thị trường chứng khoánSimpo PDF Merge and Split Unregistered Version – 1141P hát hiện sự Lạc hướng / Bất bình thường  Xác định sự lệch hướng rõrệt so với hành vi thôngthường  Ứng dụng :  Phát hiện gian lậnthẻ tín dụng thanh toán  Phát hiện xâmnhập mạng trái phép42NỘI DUNG1. Tại sao cần khai thác dữ liệu ? 2. Khai thác dữ liệu là gì ? 3. Quy trình KDD4. Các trách nhiệm chính của KTDL5. Các kỹ thuật KTDL6. Các yếu tố của KTDL43KTDL – KẾT HỢP PHƯƠNG PHÁPData MiningDatabaseTechnologyStatisticsMachineLearningPatternRecognitionAlgorithmOtherDisciplinesVisualization44MỘT SỐ KỸ THUẬT KTDL  Cây quyết định hành động, Luật quy nạp  Phát hiện luật tích hợp  Giải thuật di truyền  Mạng Nơ ron, tập mờ  Hồi quy tuyến tính, phi tuyến tính  Tập thô ( Rough Sets )  Thống kê  Mạng Bayes  … Simpo PDF Merge and Split Unregistered Version – 1245N ỘI DUNG1. Tại sao cần khai thác dữ liệu ( DM ) ? 2. DM là gì ? 3. Quy trình KDD4. Các trách nhiệm chính của KTDL5. Các kỹ thuật KTDL6. Các yếu tố của KTDL46NHỮNG VẤN ĐỀ CỦA KTDL  Tính có ích  Tính hiệu suất cao  Ứng dụng  Lý thuyết47NHỮNG VẤN ĐỀ CỦA KTDL  Tính có íchĐộ đo tính có ích ? Trực quan và tương tác  Tính hiệu quảPhát triển thuật toán DMnhanhThi hành có chiêu thức : khai thác song song, phântán, tăng cườngTích hợp vào mạng lưới hệ thống sảnphẩm : DBMS, DWCác tậậậập dữữữữ liệệệệu cựựựực lớớớVà có sốốốố chiềềềều lớớớớn ( Tính hiệệệệu qủủủủa, tính codãn ) Xửửửử lý những kiểểểểu dữữữữ liệệệệukhác nhau vớớớới mứứứứcđộộộộ quảảảản trịịịị khácnhau48NHỮNG VẤN ĐỀ CỦA KTDL  Ứng dụngDL bị nhiễu, thiếuDL phức tạp, không đồngnhấtBảo toàn tính riêng tư  Lý thuyếtBiểu diễn tri thứcNgôn ngữ và đại số DMTối ưu hóa câu truy vấnDMCác nguồồồồn dữữữữ liệệệệukhác nhau ( CácCSDL Phân tán vàthuầầầần nhấấấất, dữữữữ liệệệệukhông đồồồồng bộộộộ, cónhiễễễễu và bịịịị mấấấấtmát, v.v …. ) Simpo PDF Merge and Split Unregistered Version – 1349T ẠI SAO CẦN NGHIÊN CỨU KTDLThảo luận và tự đưa ra câu trả lời50TÓM TẮT  Khám phá mẫu có ích, chưa biết từ khốilượng lớn DL  Quy trình KDDThu thập và tiền giải quyết và xử lý DL -> KTDL -> Đánhgiá mẫu -> Biểu diễn tri thức  Khai thác trên nhiều loại DL, thông tin  Các loại mẫu cần khai thácLuật tích hợp, mẫu tuần tự, phân lớp, gomnhóm, mẫu hiếm, mẫu riêng biệt, sai lệch51TÀI LIỆU THAM KHẢO  G. Piatetsky-Shapiro, U. Fayyad, and P. Smith. From data mining to knowledge discovery : Anoverview. U.M. Fayyad, et al. ( eds. ), Advancesin Knowledge Discovery and Data Mining, 1-35. AAAI / MIT Press, 1996  / > 1 _d % E1 % BB % AF_li % E1 % BB % 87 u : báchkhoa toàn thư mở wikipedia  Một số slide dùng trong bài được lấy từ cácslide của những cuốn sách về KTDL. 52S ự tăng trưởng của KTDL  1989 IJCAI Workshop on Knowledge Discovery in Databases  Knowledge Discovery in Databases ( G. Piatetsky-Shapiro and W.Frawley, 1991 )  1991 – 1994 Workshops on Knowledge Discovery in Databases  Advances in Knowledge Discovery and Data Mining ( U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996 )  1995 – 1998 International Conferences on Knowledge Discovery inDatabases and Data Mining ( KDD ’ 95-98 )  Journal of Data Mining and Knowledge Discovery ( 1997 )  ACM SIGKDD conferences từ 1998 và SIGKDD Explorations  Nhiều hội nghị khác về KTDL  PAKDD ( 1997 ), PKDD ( 1997 ), SIAM-Data Mining ( 2001 ), ( IEEE ) ICDM ( 2001 ), …  ACM Transactions on KDD từ 2007S impo PDF Merge and Split Unregistered Version – 1453B ÀI TẬP1. Thế nào là khai thác dữ liệu ? 2. Các kiểu dữ liệu, thông tin nào có khả năngđược sử dụng trong quy trình tiến độ KDD ? 3. Cho ví dụ về việc vận dụng KTDL đem đếnthành công trong kinh doanh thương mại ( ngoài những vídụ có trong bài giảng ). Loại trách nhiệm nàocủa KTDL được sử dụng ? Họ hoàn toàn có thể thaybằng chiêu thức truy vấn DL hay phântích thống kê đơn thuần không ? 54Q và ASimpo PDF Merge and Split Unregistered Version – KHAI THÁC DỮ LIỆU và ỨNG DỤNG ( DATA MINING ) GV : ThS. NGUYỄN HOÀNG TÚ ANHBÀI 2CHU ẨN BỊ DỮ LIỆUNỘI DUNG1. Tại sao cần sẵn sàng chuẩn bị dữ liệu ? 2. Làm sạch dữ liệu ( data cleaning ) 3. Chọn lọc dữ liệu ( data selection ) 4. Rút gọn dữ liệu ( data reduction ) 5. Mã hóa dữ liệuCÁC KIỂU DỮ LIỆU  Dữ liệu dạng thuộc tính – giá trị ( Attribute-value data )  Các kiểu dữ liệu  số ( numeric ), phi số ( categorical )  Tĩnh, động ( thời hạn )  Các dạng dữ liệu khác  DL phân tán  DL văn bản  DL web, siêu DL  Hình ảnh, audio / videoSimpo PDF Merge and Split Unregistered Version – CHUẨN BỊ DỮ LIỆU  Dữ liệu trong thực tiễn có chất lượng xấuDL thiếu, không rất đầy đủ : thiếu giá trị của thuộctính, thiếu những thuộc tính chăm sóc, hoặc chỉ chứaDL tích hợpo VD : tuổi, cân nặng = “ ” DL b  t  p, nhi  u ( noise ) : chứa lỗi hoặc những saibiệto VD : Lương = “ – 100 000 ” DL xích míc : có sự không thống nhất trong mãhoặc trong têno VD : Tuổi = 42, Ngày sinh = 03/07/1997 ; US = USA ? Tại sao DL có chất lượng xấu ?  Bài tập theo nhóm : 20 ’ : đàm đạo và viếttổng hợpTình huống : Bạn là người quản trị thông tin củacông ty điện tử X ( gồm rất nhiều Trụ sở trêntoàn quốc ). Bạn cần nghiên cứu và phân tích DL bán hàng củatất cả những Trụ sở. Sau khi thu thập DL từ những Trụ sở, bạn cóthể gặp những yếu tố gì, ví dụ và tại sao ? Tại sao DL trong trong thực tiễn thường có chất lượngxấu ? N  p b  n t  ng h  p ý ki  n cho GV ( ghi rõ tênnhóm nh  quy đ  nh ). Vi  t ng  n g  n, súc tích. Quy định trình diễn bài nộpBài tập nộp theo nhóm  Ngày nộp :  Tên nhóm : ( chỉ ghi tên những thành viên cómặt )  Thành viên 1 :  Thành viên 2 :  ….  Thành viên 12 :  Nội dung : CHUẨN BỊ DỮ LIỆU  “ DL không chất lượng, không cho kết quảkhai thác tốt ” Quyết định đúng đắn phải dựa trên những DLchính xáco VD : việc trùng lắp hoặc thiếu DL có thểdẫn tới việc thống kê không đúng mực, thậm chí còn làm lạc lối. Nhà kho DL cần sự tích hợp đồng nhất cácDL chất lượngSimpo PDF Merge and Split Unregistered Version – CHUẨN BỊ DỮ LIỆU  Các bước của quy trình sẵn sàng chuẩn bị DL ? Làm sạch DLo Điền những giá trị thiếu, khử DL nhiễu, xác lập và loạibỏ DL sai biệt, DL nhiễu và xử lý DL mâu thuẫnChọn lọc / Tích hợp DLo Tổng hợp, tích hợp DL từ nhiều CSDL, tập tin khácnhau. Biến đổi DL / Mã hóa DLo Chuẩn hóa và tổng hợp ( aggregation ). Rút gọn DLo Giảm size DL nhưng bảo vệ tác dụng phântích. 10CHU ẨN BỊ DỮ LIỆU11NỘI DUNG1. Tại sao cần sẵn sàng chuẩn bị dữ liệu ? 2. Làm sạch dữ liệu ( data cleaning ) 3. Chọn lọc dữ liệu ( data selection ) 4. Rút gọn dữ liệu ( data reduction ) 5. Mã hóa dữ liệu12LÀM SẠCH DỮ LIỆU  Làm sạch DL là yếu tố quan trọng bậcnhất của nhà kho DL  Các trách nhiệm của quy trình làmsạch DLĐiền những giá trị còn thiếuXác định những sai biệt và khử DL tạp, nhiễuSửa chữa những DL mâu thuẫnSimpo PDF Merge and Split Unregistered Version – 13 ĐIỀN DỮ LIỆU THIẾU  Bỏ qua những mẫu tin có giá trị thiếuThường dùng khi thiếu nhãn của lớp ( trong phânlớp ) Dễ, nhưng không hiệu suất cao, đặc biệt quan trọng khi tỷ suất giátrị thiếu của thuộc tính cao.  Điền những giá trị thiếu bằng tay : vô vị + không khả thi  Điền những giá trị thiếu tự động hóa : Thay thế bằng hằng số chung : VD : “ không biết ”. Có thể thành lớp mới trong DL14ĐIỀN DỮ LIỆU THIẾU  Điền những giá trị thiếu tự động hóa : Thay thế bằng giá trị trung bình củathuộc tínhThay thế bằng giá trị trung bình củathuộc tính trong một lớpThay thế bằng giá trị có nhiều khả năngnhất : suy ra từ công thức Bayesian, cây quyết định hành động hoặc thuật giảiEM ( Expectation Maximization ) 15 ĐIỀN DỮ LIỆU THIẾU  Tình huống : Thu thập DL về sinh viên thuộc cáctrường của ĐHQG Tp. HCM ( Vd : đểphân tích mức sống SV ) Các thuộc tính nào hoàn toàn có thể có trongCSDL ? Ví dụ thuộc tính bị thiếu giá trị là thuộctính “ Tiền thuê nhà ” Cách xử lý ? 16D Ữ LIỆU NHIỄU  Các chiêu thức cơ bản khửnhiễu : Phương pháp chia giỏ ( Binning ) : o Sắp xếp và chia DL vào những giỏ có cùng độ sâu ( equal-depth ) o Khử nhiễu bằng giá trị TB, trung tuyến, biên giỏ, … Gom nhóm ( Clustering ) : o Phát hiện và vô hiệu những khác biệtPhương pháp hồi quy ( Regression ) : o Đưa DL vào hàm hồi quiKết hợp sự kiểm tra giữa máy tính và con người ( Computer / human inspection ) o Phát hiện giá trị hoài nghi và kiểm tra bởi con ngườiSimpo PDF Merge and Split Unregistered Version –

Source: https://thomaygiat.com
Category : Kỹ Thuật Số

Giáo trình khai phá dữ liệu – Tài liệu text

Giáo trình khai phá dữ liệu – Tài liệu text

Giáo trình khai phá dữ liệu

Chuyển vùng quốc tế MobiFone và 4 điều cần biết – MobifoneGo

Cách copy dữ liệu từ ổ cứng này sang ổ cứng khác

Hướng dẫn xử lý dữ liệu từ máy chấm công bằng Excel

Cách nhanh nhất để chuyển đổi từ Android sang iPhone 11 | https://thomaygiat.com

Giải pháp bảo mật thông tin trong các hệ cơ sở dữ liệu phổ biến hiện nay

4 điều bạn cần lưu ý khi sao lưu dữ liệu trên máy tính