KHAI THÁC TẬP MỤC LỢI ÍCH CAO CÓ LỢI NHUẬN ÂM TRONG CƠ SỞ DỮ LIỆU PHÂN TÁN DỌC

Cao Tùng Anh, Ngô Quốc Huy, Võ Hoàng Khang

Tóm tắt


Tập lợi ích cao (TLIC) là một vấn đề quan trọng trong khai phá dữ liệu, xem xét các lợi ích của các mục (chẳng hạn như lợi nhuận và lãi suất) được khám phá từ cơ sở dữ liệu (CSDL) giao dịch hỗ trợ cho việc kinh doanh của các đơn vị. Bài báo trình bày một phương pháp khai thác tập lợi ích cao có lợi nhuận âm trên CSDL phân tán dọc. Việc khai thác tập lợi ích cao đã được nghiên cứu và công bố rộng rãi trong những năm gần đây. Có nhiều thuật toán khai thác các tập lợi ích cao (TLIC) bằng cách cắt tỉa các ứng cử viên dựa trên các giá trị lợi ích và dựa trên các giá trị sử dụng có trọng số giao dịch. Các thuật toán này đều hướng tới mục đích làm giảm không gian tìm kiếm. Trong bài báo này, chúng tôi đề xuất một phương pháp khai thác tập lợi ích cao có lợi nhuận âm (TLIC-TSA) từ CSDL phân tán dọc. Phương pháp này không tích hợp CSDL từ CSDL cục bộ của các bên tham gia để hình thành CSDL tập trung và chỉ thực hiện việc quét các CSDL mỗi bên tham gia một lần. Các thí nghiệm cho thấy thời gian chạy của phương pháp này hiệu quả hơn so với khai thác trên cơ sở dữ liệu tập trung.


Từ khóa


Cơ sở dữ liệu; Cơ sở dữ liệu phân tán dọc; Khai thác dữ liệu; Lợi nhuận âm; Tập lợi ích cao.

Toàn văn:

PDF

Các tài liệu tham khảo


Agrawal, R., & Shafer, J. C. (1996). Parallel mining of association rules. IEEE Transactions on knowledge and Data Engineering, 8(6), 962-969. http://doi.org/10.1109/69.553164.

Erwin, A., Gopalan, R. P., & Achuthan, N. R. (2007a). CTU-Mine: An efficient high utility itemset mining algorithm using the pattern growth approach. Paper presented at The 7th IEEE International Conference on Computer and Information Technology (CIT 2007), Fukushima, Japan. http://doi.org/10.1109/CIT.2007.120.

Erwin, A., Gopalan, R. P., & Achuthan, N. R. (2007b). A bottom-up projection based algorithm for mining high utility itemsets. In K. L. Ong, W. Li, & J. Gao (Eds.), Proceedings of the 2nd international workshop on Integrating artificial intelligence and data mining - Volume 84 (pp. 3-11). Australian Computer Society Inc, Australia.

Gopalan, R. P., & Sucahyo, Y. G. (2004). High performance frequent patterns extraction using compressed FP-tree. Paper presented at The SIAM International Workshop on High Performance and Distributed Mining (HPDM), Orlando, USA.

Le, B., Nguyen, H., Cao, T. A., & Vo, B. (2009). A novel algorithm for mining high utility itemsets. Paper presented at The 2009 First Asian Conference on Intelligent Information and Database Systems, Donghoi, Quangbinh, Vietnam. http://doi.org/ 10.1109/ACIIDS.2009.55

Lin, J. C. W., Fournier-Viger, P., & Gan, W. (2016). FHN: An efficient algorithm for mining high-utility itemsets with negative unit profits. Knowledge-Based Systems, 111, 283-298. https://doi.org/10.1016/j.knosys.2016.08.022

Liu, Y., Liao, W. K., & Choudhary, A. (2005). A fast high utility itemsets mining algorithm. In G. Weiss, M. Saar-Tsechansky, B. Zadrozny (Eds), Proceedings of the 1st international workshop on Utility-based data mining (pp. 90-99). Association for Computing Machinery, USA.

Vo, B., Nguyen, H., & Le, B. (2009). Mining high utility itemsets from vertical distributed databases. Paper presented at The 2009 IEEE-RIVF International Conference on Computing and Communication Technologies, Danang, Vietnam. http://doi.org/10.1109/RIVF.2009.5174650.

Yao, H., & Hamilton, H. J. (2006). Mining itemset utilities from transaction databases. Data & Knowledge Engineering, 59(3), 603-626. http://doi.org/10.1016/j.datak.2005.10.004

Yao, H., Hamilton, H. J., & Butz, C. J. (2004). A foundational approach to mining itemset utilities from databases. In M. W. Berry, U. Dayal, C. Kamath, & D. Skillicorn (Eds), Proceedings of the 2004 SIAM International Conference on Data Mining (pp. 482-486). Society for Industrial and Applied Mathematics, USA.

Zida, S., Fournier-Viger, P., Lin, J. C. W., Wu, C. W., & Tseng, V. S. (2017). EFIM: a fast and memory efficient algorithm for high-utility itemset mining. Knowledge and Information Systems, 51(2), 595-625. http://doi.org/10.1007/s10115-016-0986-0.




DOI: http://dx.doi.org/10.37569/DalatUniversity.10.3.666(2020)

Các bài báo tham chiếu

  • Hiện tại không có bài báo tham chiếu.


Copyright (c) 2020 Cao Tùng Anh, Ngô Quốc Huy, Võ Hoàng Khang.

Giấy phép URL: https://creativecommons.org/licenses/by-nc/4.0/
Văn phòng Tạp chí Đại học Đà Lạt
Nhà A25 - Số 1 Phù Đổng Thiên Vương, Đà Lạt, Lâm Đồng
Email: tapchikhoahoc@dlu.edu.vn - Điện thoại: (+84) 263 3 555 131

Creative Commons License
Trên nền tảng Open Journal Systems
Thực hiện bởi Khoa Công nghệ Thông tin