NHẬN DẠNG BÌA SÁCH TIẾNG VIỆT CHO ỨNG DỤNG QUẢN LÝ SÁCH

Phan Thị Thanh Nga, Nguyễn Thị Huyền Trang, Nguyễn Văn Phúc, Thái Duy Quý, Võ Phương Bình

Tóm tắt


Nhận dạng văn bản từ hình ảnh giúp giảm công sức, chi phí và thời gian xử lý. Việc số hóa thông tin sách một cách tự động bằng cách nhận dạng bìa sách giúp ích rất nhiều cho những người làm việc trực tiếp đến lưu trữ và phân loại sách như thủ thư, nhân viên nhà sách và kể cả những người dùng cá nhân chỉ muốn quản lý một thư viện cá nhân tại nhà. Trong bài báo này, chúng tôi đê xuất phương pháp nhận dạng văn bản tiếng Việt từ ảnh bìa sách. Hệ thống xử lý ảnh bìa sách ở đầu vào, chỉnh ảnh để đạt được ảnh phù hợp cho quá trình nhận dạng, định vị các vùng chứa văn bản, sau đó áp dụng kỹ thuật nhận dạng ký tự quang học (OCR) nhằm thu được văn bản chứa trong ảnh, bước cuối cùng chúng tôi lọc nội dung rút trích ở bước trên và sử dụng từ điển để nâng cao độ chính xác của văn bản nhận diện được. Chúng tôi tiến hành kiểm tra chương trình và nhận được kết quả khả quan cho bộ dữ liệu bìa sách được đưa vào thử nghiệm.

Từ khóa


Bìa sách; Nhận dạng tiếng Việt; Nhận dạng văn bản.

Toàn văn:

PDF (English)

Các tài liệu tham khảo


Chen, D. M., Tsai, S. S., Vedantham, R., Grzeszczuk, R., & Girod, B. (2009). Streaming mobile augmented reality on mobile phones. Paper presented at The IEEE International Symposium on Mixed and Augmented Reality, USA.

Chowdhury, A. (2016). Bangla character recognition for Android devices. International Journal of Computer Applications, 136(11), 13-19.

Gatos, B., & Pratikakis, I. (2005). Text detection in indoor/outdoor scene images. Paper presented at The First Workshop of Camera-Based Document Analysis and Recognition, Spain.

Hasnat, M. A., Chowdhury, M. R., & Khan, M. (2009a). An open source Tesseract based optical character recognizer for Bangla script. Paper presented at The International Conference on Document Analysis and Recognition, Spain.

Hasnat, M. A., Chowdhury, M. R., & Khan, M. (2009b). Integrating Bangla script recognition support in Tesseract OCR. Paper presented at The Conference on Language and Technology, Spain.

Matsushita, K., Iwai, D., & Sato, K. (2011). Interactive bookshelf surface for in situ book searching and storing support. Paper presented at The 2nd Augmented Human International Conference on - AH ’11,Japan.

Rosner, D., Boiangiu, C., Zaharescu, M., & Bucur, I. (2014). Image skew detection: A comprehensive study. Paper presented at The Third International Workshop on Cyber Physical Systems, Romania.

Sobottka, K., Bunke, H., & Kronenberg, H. (1999). Identification of text on colored book and journal covers. Paper presented at The Fifth International Conference on Document Analysis and Recognition,Spain.

Srihari, S. N., & Govindaraju, V. (1989). Analysis of textual images using the Hough transform. Machine Vision and Applications, 2(3), 141-153.

Too, K. B., & Prabhakar, C. J.(2016). Extraction of scene text information from video. International Journal of Image, Graphics and Signal Processing, 8(1), 15-26.

Yadav, N. (2015). Algorithm for automatic text retrieval from images of book covers. (Master Thesis), Thapar University, India.

Zhong, Y., Karu, K., & Jain, A. K. (1995). Locating text in complex colour images. Pattern Recognition, 28(10), 1523-1535.

Zhu, Y., Yao, C., & Bai, X. (2016). Scene text detection and recognition: Recent advances and future trends. Frontiers of Computer Science, 10(1), 19-36.




DOI: http://dx.doi.org/10.37569/DalatUniversity.7.2.234(2017)

Các bài báo tham chiếu

  • Hiện tại không có bài báo tham chiếu.


Copyright (c) 2017 Phan Thị Thanh Nga, Nguyễn Thị Huyền Trang, Nguyễn Văn Phúc, Thái Duy Quý, Võ Phương Bình

Creative Commons License
Công trình này được cấp phép theo Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
Văn phòng Tạp chí Đại học Đà Lạt
Nhà A25 - Số 1 Phù Đổng Thiên Vương, Đà Lạt, Lâm Đồng
Email: tapchikhoahoc@dlu.edu.vn - Điện thoại: (+84) 263 3 555 131

Creative Commons License
Trên nền tảng Open Journal Systems
Thực hiện bởi Khoa Công nghệ Thông tin