BÁO CÁO CHUYÊN ĐỀ HỌC PHẦN KHAI PHÁ DỮ LIỆU ĐỀ TÀI: KHAI PHÁ DỮ LIỆU ĐÁNH GIÁ XE
lOMoARcPSD|17838488 TRƯỜNG ĐẠI HỌC ĐIỆN LỰC KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO CHUYÊN ĐỀ HỌC PHẦN KHAI PHÁ DỮ LIỆU ĐỀ TÀI: KHAI PHÁ DỮ LIỆU ĐÁNH GIÁ XE Sinh viên thực hiện: Giảng viên hướng dẫn: Ngành: Chuyên ngành: Lớp: Phạm Văn Đạt – 19810310664 Nguyễn Thanh Tùng – 19810310181 Đỗ Đăng Tuê ̣ – 19810310346 TS Vũ Văn Định Công nghệ thông tin Công nghệ phần mềm D14CNPM2 Hà Nội, 25/3/2022 PHIẾU CHẤM ĐIỂM Sinh viên thực hiện: lOMoARcPSD|17838488 HỌ TÊN CHỮ KÝ GHI CHÚ Phạm Văn Đạt 19810310664 Nguễn Thanh Tùng 19810310181 Đỗ Đăng Tuê ̣ 19810310346 Giảng viên chấm thi: HỌ TÊN CHỮ KÝ GHI CHÚ Giảng viên chấm thi 1: Giảng viên chấm thi 2: MỤC LỤC PHIẾU CHẤM ĐIỂM CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI Đặt vấn đề .6 Cơ sở hình thành đề tài lOMoARcPSD|17838488 Mục tiêu đề tài .7 Đối tượng phương pháp nghiên cứu Ý nghĩa đề tài Bố cục đề tài CHƯƠNG 2: KHAI PHÁ DỮ LIỆU 2.1 Tổng quan kỹ thuật Khai phá liệu (Data Mining) 2.1.1 Khái niệm Khai phá liệu 2.1.2 Quy trình khai phá liệu 2.1.3 Ứng dụng Khai phá liệu 12 2.2 Tổng quan hệ hỗ trợ định 13 2.3 Bài toán phân lớp khai phá liệu 13 2.3.1 Khái niệm phân lớp 13 2.3.2 Quá trình phân lớp liệu 14 CHƯƠNG 3: XÂY DỰNG MƠ HÌNH DỮ LIỆU SỬ DỤNG NAIVE BAYES 16 3.1 Cơ sở liệu xây dựng mơ hình 16 3.2 Phương pháp Bayes sử dụng khai phá liệu 16 3.2.1 Giới thiệu phương pháp Bayes khai phá liệu 16 3.2.2 Thuật toán Bayes 21 a, Phân loại phần tử 21 b, Sai số Bayes 21 3.3 Thuật tốn Nạve Bayes giải toán khai phá liệu ô tô kém chất lượng 22 lOMoARcPSD|17838488 3.3.1 Lý chọn thuật tốn Nạve Bayes 22 3.3.2 Tập liệu ô tô kém chất lượng 23 CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ .29 4.1 Xây dựng mơ hình Nạve Bayes Weka 29 Kết luận .36 Tài liệu tham khảo .37 LỜI CẢM ƠN Ngày nay, việc ứng dụng công nghệ thông tin trở nên phổ biến hầu hết quan, doanh nghiệp, trường học đặc biệt việc áp dụng giải pháp tin học cơng tác quản lý Trong năm trở lại đây, với tốc độ phát triển vũ bão, CNTT dần làm cho sống người trở nên thú vị đơn giản Vì để bắt kịp với nhịp độ phát triển xã hội, kiến thức học giảng đường vô cùng quan trọng mỗi Sinh viên chúng em lOMoARcPSD|17838488 Chúng em xin chân thành cảm ơn thầy, mơn tận tình giảng dạy chúng em suốt thời gian học tập vừa qua Nhờ có dạy tận tình thầy, để giúp chúng em hồn thành đồ án Chúng em chân thành xin gửi lời cảm ơn đặc biệt đến thầy giáo Vũ Văn Định người tận tình hướng dẫn mơn Khai phá liệu cho chúng em buổi học Cô giúp trang bị cho chúng em kiến thức môn học động lực để tiếp tục đường chinh phục công nghệ Chúng em xin chân thành cảm ơn thầy cô! Sinh viên thực Phạm Văn Đạt Đỗ Đăng Tuê ̣ Nguyễn Thanh Tùng CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI Đặt vấn đề Hiện nay, để đánh giá mức độ an tồn tơ nay, thông thường người mua tham khảo kết đánh giá từ ba tổ chức uy tín hàng đầu NHTSA, IIHS Euro NCAP Các tổ chức đưa thử nghiệm an tồn với dịng xe sử dụng phổ biến, quy chuẩn xếp hạng an tồn tơ tính với mức an tồn cao xe đạt Dự án nhằm phát lOMoARcPSD|17838488 hãng xe kém chất lượng lừa đảo lừa đảo cách sử dụng kỹ thuật khai thác liệu Cơ sở hình thành đề tài Theo nhiều báo cáo, vụ tai nạn ô tô xảy mỗi ngày với nhiều lý khác phần trăm xe chưa đảm bảo an toàn la cao nên cần tổ chức uy tín hàng đầu để đánh giá mơ ̣t cách xác NHTSA Cơ quan An tồn Giao thơng Cao tốc Quốc gia Mỹ, thành lập vào năm 1970 bảo lãnh Chính phủ Mỹ Tổ chức thành lập nhằm cải thiện tình trạng an toàn đường quốc gia thử nghiệm ô tô để kiểm tra mức độ thiệt hại va chạm Sau NHTSA đánh giá mức độ an toàn dựa phần trăm tổn thương người ngồi xe sau xảy va chạm IIHS viết tắt Insurance Institute for Highway Safety, thành lập hiệp hội bảo hiểm lớn tại Mỹ vào năm 1959 Đây quan có chương trình đánh giá an tồn xe tơ uy tín với danh sách xếp hạng “Top Safety Pick+” bao gồm xe xuất sắc vượt qua toàn kiểm tra đạt số điểm ấn tượng Euro NCAP tổ chức đánh giá an tồn tơ thành lập năm 1997 Phịng thí nghiệm Nghiên cứu Giao thơng Bộ Giao thông Anh Quốc Mục tiêu đề tài Các hãng xe chưa đạt chất lượng quảng bá cách rô ̣ng rãi chất lượng xe chưa thực tốt Dự án nhằm phát xe kém chất lượng lừa đảo cách sử dụng kỹ thuật khai thác liệu Tiêu chuẩn W3C xác định đặc điểm sử dụng để phân biệt xe kém chất lượng Những đặc điểm sử dụng để phân loại Bằng cách sử dụng kỹ thuật khai thác liệu, chúng tơi tạo mơ hình phân loại sử dụng để quản lý lOMoARcPSD|17838488 mơ hình hóa liệu Điều giúp đưa dự đoán cho dù xe kém hay đạt chất lượng Đối tượng phương pháp nghiên cứu Đề tài tập chung vào nghiên cứu kỹ thuật phân lớp khai phá dữu liệu(cụ thể nghiên cứu thuật tốn Naive bayes) để áp dụng vào việc phân tích sở liệu xe kém chất lượng Ý nghĩa đề tài Bố cục đề tài Đề tài chia thành phần: Chương 1: Tổng quan đề tài Chương 2: Khai phá liệu Chương 3: Xây dựng mơ hình dữu liệu sử dụng Naive bayes Chương 4: Thực nghiệm đánh giá CHƯƠNG 2: KHAI PHÁ DỮ LIỆU 2.1 Tổng quan kỹ thuật Khai phá liệu (Data Mining) 2.1.1 Khái niệm Khai phá liệu Khai phá liệu (data mining) Là trình tính tốn để tìm mẫu liệu lớn liên quan đến phương pháp tại giao điểm máy học, thống kê hệ thống sở liệu Đây lĩnh vực liên ngành khoa học máy tính Mục tiêu tổng thể trình khai thác liệu trích xuất thơng tin từ liệu chuyển thành cấu trúc dễ hiểu để sử dụng tiếp.Ngồi bước phân tích thơ, cịn liên quan tới sở liệu khía cạnh lOMoARcPSD|17838488 quản lý liệu, xử lý liệu trước, suy xét mơ hình suy luận thống kê, thước đo thú vị, cân nhắc phức tạp, xuất kết cấu trúc phát hiện, hình hóa cập nhật trực tuyến Khai thác liệu bước phân tích q trình “khám phá kiến thức sở liệu” KDD Khai phá liệu bước trình khai thác tri thức (Knowledge Discovery Process), bao gồm: • Xác định vấn đề không gian liệu để giải vấn đề (Problem understanding and data understanding) • Chuẩn bị liệu (Data preparation), bao gồm trình làm sạch liệu (data cleaning), tích hợp liệu (data integration), chọn liệu (data selection), biến đổi liệu (data transformation) • Khai thác liệu (Data mining): xác định nhiệm vụ khai thác liệu lựa chọn kỹ thuật khai thác liệu Kết cho ta nguồn tri thức thơ • Đánh giá (Evaluation): dựa số tiêu chí tiến hành kiểm tra lọc nguồn tri thức thu • Triển khai (Deployment) Q trình khai thác tri thức khơng trình từ bước đến bước cuối cùng mà trình lặp có quay trở lại bước qua 2.1.2 Quy trình khai phá liệu 2.1.2.1 Nghiên cứu lĩnh vực Ta cần nghiên cứu lĩnh vực cần sử dụng Data mining để xác định tri thức ta cần chất lọc, từ định hướng để tránh tốn thời gian cho tri thức không cần thiết 2.1.2.2 Tạo tập tin liễu đầu vào lOMoARcPSD|17838488 Ta xây dựng tập tin để lưu trữ liệu đầu vào để máy tính lưu trữ xử lý 2.1.2.3 Tiền xử lý, làm sạch, mã hóa Ở bước ta tiến hành bỏ bớt liệu rườm rà, không cần thiết, tinh chỉnh lại cấu trúc liệu mã hóa chúng để tiện cho trình xử lý 2.1.2.4 Rút gọn chiều Thơng thường tập liệu có chiều lớn sinh lượng dự liệu khổng lồ,ví dụ với n chiều ta có 2^n nguyên tổ hợp Do, bước quan trọng giúp giảm đáng kể hao tổn tài nguyên trình xử lý tri thức.Thơng thường ta dùng Rough set (http://en.wikipedia.org/wiki/Rough_set) để giảm số chiều 2.1.2.5 Chọn tác vụ khai thác liệu Để đạt mục đích ta cần, ta chọn tác vụ khai thác liệu cho phù hợp.Thơng thường có tác vụ sau: • Đặc trưng(feature) • Phân biệt(discrimination) • Kết hợp(association) • Phân lớp(classification) • Gom cụm(clusterity) • Xu thế(trend analysis) • Phân tích độ lệch lOMoARcPSD|17838488 • Phân tích độ 2.1.2.6 Chọn thuật giải khai thác liệu 2.1.2.7 Khai thác liệu: Tìm kiếm tri thức Sau tiến hành bước bước q trình, ta tiến hành khai thác tìm kiếm tri thức 2.1.2.8 Đánh giá mẫu tìm Ta cần đánh giá lại tri thức tìm, ta sử dụng tri thức, tri thức dư thừa,không cần biết 2.1.2.9 Biểu diễn tri thức Ta biểu diễn tri thức vừa thu nhập dạng ngôn ngữ tự nhiên hình thức cho người dùng hiểu tri thức 2.1.2.10 Sử dụng tri thức vừa khám phá Ta tham khảo tiến trình KDD( Knowledge Discovery in Databases) để hiểu rõ khai phá dữu liệu: Hình 2.1: Knowledge Discovery in Databases 10 lOMoARcPSD|17838488 Ví dụ: Dữ liệu minh họa hình: Có lớp: xanh đỏ; N: tổng số đối tượng P(xanh) = |xanh|/N = 40/60 P(đỏ) = |đỏ|/N = 20/60 Với xác suất tiên nghiệm xác định trên: P(xanh) P(đỏ) xác định nhãn lớp cho đối tượng x hình Lấy x làm tâm, vẽ vịng trịn giới hạn đối tượng lân cận với x, tính: P(x|xanh) = |xanh lân cận|/|xanh| = 1/40 P(x|đỏ) = |đỏ lân cận|/|đỏ| = 3/20 P(xanh|x) = P(x|xanh).P(xanh) = (1/40 *40/40) = 1/60 P(đỏ|x) = P(x|đỏ).P(đỏ) = (3/20 * 20/60) = 1/20 x gán nhãn đỏ 20 Downloaded by hây hay ([email protected])
Xem thêm: Giáo án dạy học Toán 11 theo định hướng phát triển phẩm chất năng lực – https://thomaygiat.com
– Xem thêm –
Xem thêm: BÁO CÁO CHUYÊN ĐỀ HỌC PHẦN KHAI PHÁ DỮ LIỆU ĐỀ TÀI: KHAI PHÁ DỮ LIỆU ĐÁNH GIÁ XE,
Source: https://thomaygiat.com
Category : Kỹ Thuật Số
Chuyển vùng quốc tế MobiFone và 4 điều cần biết – MobifoneGo
Muốn chuyển vùng quốc tế đối với thuê bao MobiFone thì có những cách nào? Đừng lo lắng, bài viết này của MobiFoneGo sẽ giúp…
Cách copy dữ liệu từ ổ cứng này sang ổ cứng khác
Bạn đang vướng mắc không biết làm thế nào để hoàn toàn có thể copy dữ liệu từ ổ cứng này sang ổ cứng khác…
Hướng dẫn xử lý dữ liệu từ máy chấm công bằng Excel
Hướng dẫn xử lý dữ liệu từ máy chấm công bằng Excel Xử lý dữ liệu từ máy chấm công là việc làm vô cùng…
Cách nhanh nhất để chuyển đổi từ Android sang iPhone 11 | https://thomaygiat.com
Bạn đã mua cho mình một chiếc iPhone 11 mới lạ vừa ra mắt, hoặc có thể bạn đã vung tiền và có một chiếc…
Giải pháp bảo mật thông tin trong các hệ cơ sở dữ liệu phổ biến hiện nay
Hiện nay, với sự phát triển mạnh mẽ của công nghệ 4.0 trong đó có internet và các thiết bị công nghệ số. Với các…
4 điều bạn cần lưu ý khi sao lưu dữ liệu trên máy tính
08/10/2020những chú ý khi tiến hành sao lưu dữ liệu trên máy tính trong bài viết dưới đây của máy tính An Phát để bạn…