PHÂN LOẠI TÊN THỂ LOẠI Ở WIKIPEDIA TIẾNG VIỆT

Tạ Hoàng Thắng

Tóm tắt


Wikipedia nổi tiếng là một bách khoa toàn thư mở lớn nhất hiện nay với mục đích phổ cập kiến thức cho tất cả mọi người trên thế giới. Với việc áp dụng robot trong khâu tạo bài tự động, dự án tiếng Việt là một trong 13 dự án ngôn ngữ có hơn một triệu bài viết. Tuy nhiên, điều đó tạo cho Wikipedia tiếng Việt nhiều thách thức trong việc nâng cao chất lượng bài, sắp xếp thể loại, chống phá hoại nội dung và nhiều công tác khác. Trong bài báo này, chúng tôi phân loại thể loại ở Wikipedia tiếng Việt, chi tiết hơn là cấu trúc và các quy ước đặt tên thể loại. Phương pháp chính là áp dụng các tiêu chuẩn và cấu trúc thể loại sẵn có ở tiếng Anh, một dự án Wikipedia lớn nhất về mặt thông tin đóng góp, từ đó áp dụng cho phiên bản tiếng Việt. Tuy nhiên, điều đó không thực hiện dễ dàng, do đó chúng tôi phải kết hợp nhiều phương pháp xã hội cũng như chuyên môn để đạt được sự kỳ vọng. Việc phân tích tên thể loại và dữ liệu từ Wikidata được chúng tôi áp dụng là một tiền đề xây dựng một công cụ chuyển dịch tên thể loại từ tiếng Anh sang tiếng Việt.

Từ khóa


Phân loại thể loại; Quy ước đặt tên; Thể loại Wikipedia.

Toàn văn:

PDF

Các tài liệu tham khảo


Barak, L., Dagan, I., & Shnarch, E. (2009). Text categorization from category name via lexical reference. Paper presented at The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, USA.

Dao, T. N., & Simpson, T. (2005). Measuring similarity between sentences. Retrieved from http://trac.research.cc.gatech.edu/ccl/export/184/SecondMindProject/SM/SM.WordNet/Paper/WordNetDotNet_Semantic_Similarity.pdf

Nastase, V., & Strube, M. (2008). Decoding Wikipedia categories for knowledge acquisition. Paper presented at The Twenty-third AAAI Conference on Artificial Intelligence, USA.

Nguyễn, Q. C., Lê, T. N., Tôn, L. P., & Nguyễn, V. T. (2012). Một hướng tiếp cận xây dựng Ontology tiếng Việt. Tạp chí Đại học Công nghiệp, 14(6), 23-31.

Ponzetto, S. P., & Strube, M. (2007). Deriving a large-scale taxonomy from Wikipedia. Paper presented at The AAAI Conference on Artificial Intelligence, USA.

Santorini, B. (1990). Part-of-speech tagging guidelines for the Penn Treebank Project (3rd revision). Philadelphia, USA: University of Pennsylvania.

Tuc, H. D. (2003). Vietnamese-English bilingualism: Patterns of code-switching.London, UK: Routledge Curzon Press.

Vrandečić, D., & Krötzsch, M. (2014). Wikidata: A free collaborative knowledge base. Communications of the ACM, 57(10), 78-85.

Wikimedia (2015). Project:Semi-automatically generated categories for Vietnamese Wikipedia. Retrieved from https://meta.wikimedia.org/wiki/Grants:IEG/Semi-automatically_generate_Categories_for_Vietnamese_Wikipedia

Xu, L., Takeda, H., Hamasaki, M., & Wu, H. (2010). Typing software articles with Wikipedia category structure. Retrieved from http://www.nii.ac.jp/TechReports/public_html/10-002E.pdf

Zesch, T., & Gurevych, I. (2007). Analysis of the Wikipedia category graph for NLP applications. Paper presented at The TextGraphs-2 Workshop, USA.




DOI: http://dx.doi.org/10.37569/DalatUniversity.7.2.240(2017)

Các bài báo tham chiếu

  • Hiện tại không có bài báo tham chiếu.


Copyright (c) 2017 Tạ Hoàng Thắng

Creative Commons License
Công trình này được cấp phép theo Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
Văn phòng Tạp chí Đại học Đà Lạt
Nhà A25 - Số 1 Phù Đổng Thiên Vương, Đà Lạt, Lâm Đồng
Email: tapchikhoahoc@dlu.edu.vn - Điện thoại: (+84) 263 3 555 131

Creative Commons License
Trên nền tảng Open Journal Systems
Thực hiện bởi Khoa Công nghệ Thông tin