PHÁT HIỆN TẬP PHỔ BIẾN GÂY NHẦM LẪN

Huỳnh Thành Lộc

Tóm tắt


Khai thác tập phổ biến là một trong những hướng nghiên cứu quan trọng trong lĩnh vực khai thác luật kết hợp. Việc khai thác tập phổ biến ở các mức độ tổng quát khác nhau của dữ liệu sẽ đem lại nhiều tri thức có giá trị. Tuy nhiên, trong các tập phổ biến tổng quát đó có thể tồn tại những tập phổ biến phản ảnh tri thức trái ngược so với những tri thức mà các tập phổ biến con của nó phản ánh. Những tập phổ biến như vậy được gọi là tập phổ biến gây nhầm lẫn. Việc xác định được các tập phổ biến gây nhầm lẫn giúp cho các nhà phân tích có thêm cơ sở để đưa ra những lời khuyến nghị chính xác hơn. Bài viết này sẽ giới thiệu khái niệm tập phổ biến gây nhầm lẫn, nghiên cứu việc áp dụng các kỹ thuật khai thác tập phổ biến hiện có vào bài toán khai thác tập phổ biến gây nhầm lẫn và định nghĩa độ đo dùng để đánh giá độ lý thú của một tập phổ biến gây nhầm lẫn.

Từ khóa


Cây phân loại; Khai thác dữ liệu; Sự tương quan; Tập phổ biến.

Toàn văn:

PDF

Các tài liệu tham khảo


Agrawal, R., & Srikant, R. (1994). Fast algorithms for mining association rules. Paper presented at The 20th International Conference on Very Large Data Bases, Chile.

Barsky, M., Kim, S., Weninger, T., & Han, J. (2011). Mining flipping correlations from large datasets with taxonomies. Paper presented at The 38th International Conference on Very Large Data Bases, Turkey.

Brin, S., Motwani, R., & Silverstein, C. (1997). Beyond market baskets generalizing association rules to correlations. Paper presented at The ACM SIGMOD International Conference on Management of Data, USA.

Cagliero, L., Cerquitelli, T., Garza, P., & Grimaudo, L. (2014). Misleading generalized itemset discovery. Expert Systems with Applications, 41(4), 1400-1410.

Dheeru, D., & Karra, T. E. (2017). Machine learning repository. Retrieved from http://archive.ics.uci.edu/ml.

Fournier, V. P., Lin, J. C., Vo, B., Truong, C. T., Zhang, J., & Le, H. B. (2017). A survey of itemset mining. WIREs: Data Mining and Knowledge Discovery, 7(4), 1-18.

Han, J., Pei, J., & Yin, Y. (2000). Mining frequent patterns without candidate generation. Paper presented at The ACM SIGMOD International Conference on Management of Data, Canada.

Srikant, R., & Agrawal, R. (1995). Mining generalized association rules. Future Generation Computer Systems, 13(2-3), 161-180.

Tan, P. N., Kumar, V., & Srivastava, J. (2002). Selecting the right interestingness measure for association patterns. Paper presented at The ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.

Tan, P. N., Steinbach, M., & Kumar, V. (2005). Introduction to data mining (2nd ed.). Boston, USA: Pearson Addison Wesley.

Uno, T., Kiyomi, M., & Arimura, H. (2004). LCM ver. 2: Efficient mining algorithms for frequent/closed/maximal itemsets. Paper presented at The IEEE ICDM Workshop Frequent Itemset Mining Implementations, USA.

Wu, T., Chen, Y., & Han, J. (2007). Association mining in large databases: A re-examination of its measures. Paper presented at The European Conference on Principles of Data Mining and Knowledge Discovery, Germany.

Wu, T., Chen, Y., & Han, J. (2010). Re-examination of interestingness measures in pattern mining: A unified framework. Data Mining and Knowledge Discovery, 21(3), 371-397.

Zaki, M. J., & Gouda, K. (2003). Fast vertical mining using diffsets. Paper presented at The ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, USA.




DOI: http://dx.doi.org/10.37569/DalatUniversity.8.2.440(2018)

Các bài báo tham chiếu

  • Hiện tại không có bài báo tham chiếu.


Copyright (c) 2018 Huỳnh Thành Lộc

Creative Commons License
Công trình này được cấp phép theo Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
Văn phòng Tạp chí Đại học Đà Lạt
Nhà A25 - Số 1 Phù Đổng Thiên Vương, Đà Lạt, Lâm Đồng
Email: tapchikhoahoc@dlu.edu.vn - Điện thoại: (+84) 263 3 555 131

Creative Commons License
Trên nền tảng Open Journal Systems
Thực hiện bởi Khoa Công nghệ Thông tin