MAXLEN-FI: THUẬT TOÁN KHAI THÁC NHANH TẬP PHỔ BIẾN CÓ CHIỀU DÀI TỐI ĐA TRÊN DỮ LIỆU GIAO DỊCH

Phan Thành Huấn, Lê Hoài Bắc

Tóm tắt


Trong khai thác dữ liệu, kỹ thuật quan trọng và được nghiên cứu nhiều là khai thác luật kết hợp. Khai thác tập phổ biến là một trong những bước cơ bản và chiếm nhiều thời gian trong khai thác luật kết hợp. Tuy nhiên, trong một số ứng dụng thực tế chỉ cần khai thác tập con đại diện của tập phổ biến với chi phí thời gian thấp để sinh luật kết hợp - tập phổ biến có chiều dài tối đa. Đây là tập hữu ích trong nhiều lĩnh vực ứng dụng thực. Trong bài viết, chúng tôi đề xuất thuật toán MAXLEN-FI khai thác nhanh tập phổ biến có chiều dài tối đa trên dữ liệu giao dịch dựa trên cấu trúc mảng itemset đồng xuất hiện. Sau cùng, chúng tôi trình bày kết quả thực nghiệm trên bộ dữ liệu thực và giả lập, cho thấy thuật toán đề xuất hiệu quả hơn so với thuật toán hiện hành.


Từ khóa


Luật kết hợp; Tập phổ biến; Tập phổ biến có chiều dài tối đa.

Toàn văn:

PDF

Các tài liệu tham khảo


Agrawal, R., Imilienski, T., & Swami, A. (1993). Mining association rules between sets of large databases. Paper presented at The ACM SIGMOD International Conference on Management of Data, USA.

Burdick, D., Calimlim, M., & Gehrke, J. (2001). MAFIA: A maximal frequent itemset algorithm for transactional databases. Paper presented at The 17th International Conference on Data Engineering, Germany.

Gouda, K., & Zaki, M. J. (2005). GenMax: An efficient algorithm for mining maximal frequent itemsets. Paper presented at The IEEE International Conference on Data Mining and Knowledge Discovery, China.

Han, J., Pei, J., Yin, Y., & Mao, R. (2004). Mining frequent patterns without candidate generation: A frequent pattern tree approach. Data Mining and Knowledge Discovery, 8(1), 53-87.

Hu, T., Sung, S. Y., Xiong, H., & Fi, Q. (2008). Discovery of maximum length frequent itemsets. Information Sciences: An International Journal, 178(1), 69-87.

IBM Almaden Research Center. (2004). Almaden. Retrieved from http://www.almaden.ibm.com.

Lê, H. B., & Phan, T. H. (2016). DYN-FI: Thuật toán hiệu quả khai thác tập phổ biến trên dữ liệu giao dịch với ngưỡng phổ biến tối thiểu động. Bài báo được trình bày tại Hội thảo Một số vấn đề chọn lọc về Công nghệ Thông tin và Truyền thông lần thứ 19, Việt Nam.

Lichman, M. (2013). UCI machine learning repository. Retrieved from http://archive.ics.uci.edu/ml.

Song, W., & Yang, B. (2008). Index-BitTableFI: An improved algorithm for mining frequent itemsets. Knowledge-Based Systems, 21, 507-513.

Tran, A. T., Ngo, T. P., & Nguyen, K. A. (2011). An efficient algorithm for discovering maximal frequent item sets. Paper presented at The IEEE International Conference on Knowledge Systems Engineering, Malaysia.

Wang, J., Han, J., & Pei, J. (2003). CLOSET+: Searching for the best strategies for mining frequent closed itemsets. Paper presented at The 9th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, USA.

Zaki, M. J., & Hsiao, C. (2002). CHARM: An efficient algorithm for closed association rule mining. Paper presented at The 2nd SIAM International Conference on Data Mining, USA.


Các bài báo tham chiếu

  • Hiện tại không có bài báo tham chiếu.


Copyright (c) 2018 Phan Thành Huấn, Lê Hoài Bắc

Creative Commons License
Công trình này được cấp phép theo Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
Văn phòng Tạp chí Đại học Đà Lạt
Nhà A25 - Số 1 Phù Đổng Thiên Vương, Đà Lạt, Lâm Đồng
Email: tapchikhoahoc@dlu.edu.vn - Điện thoại: (+84) 263 3 555 131

Creative Commons License
Trên nền tảng Open Journal Systems
Thực hiện bởi Khoa Công nghệ Thông tin