Tổng Hợp Các Link Bàn Về Xử Lý Ngôn Ngữ Tự Nhiên ( NLP )

Sau đây mình tổng hợp các link kiến thức trong việc Xử lý ngôn ngữ tự nhiên ( NLP: Natural Languague Processing ) theo mình là cần thiết: ( xin chân thành cảm ơn các tác giả!)

Các Bài Chuyên Về Tiền Xử Lý Văn Bản:

  • Tiền xử lý dữ liệu văn bản với NLTK: https://viblo.asia/p/tien-xu-li-du-lieu-van-ban-voi-nltk-Az45b0LgZxY
    • Mục lục: Giới thiệu, Thư viện NLTK, Tiền xử lý dữ liệu văn bản, Biến đổi về chữ thường, Tách các câu, Loại bỏ các kí tự đặc biệt (dấu câu), Loại bỏ stop-word, Loại bỏ các từ hiếm gặp, Stemming & Lemmatization, Loại bỏ các emoji, Loại bỏ URL, Kết luận, References.

  • Bàn về công đoạn tiền xử lý trong xử lý ngôn ngữ tự nhiên: https://blog.vietnamlab.vn/ban-ve-cong-doan-tien-xu-ly-trong-xu-ly-ngon-ngu-tu-nhien/
    • Mục lục: Mở đầu, Các loại tiền xử lý, Làm sạch text, Tách từ, Chuẩn hoá từ, Loại bỏ StopWords, Vector hoá từ, Tài liệu tham khảo.

Các Bài Tổng Hợp Tiếng Việt:

  • Phân loại văn bản tiếng Việt sử dụng machine learing: https://blog.luyencode.net/phan-loai-van-ban-tieng-viet/
    • Mục lục: Bài toán phân loại văn bản. Chuẩn bị dữ liệu. Tiền xử lí dữ liệu văn bản: Xoá HTML code trong dữ liệu, Chuẩn hoá Unicode tiếng Việt, Chuẩn hoá kiểu gõ dấu, Tách từ tiếng Việt, Đưa về viết thường ( lowercase ), Xoá các ký tự không cần thiết, Loại bỏ các stopword tiếng Việt. Xây dựng mô hình phân loại văn bản: Xây dựng tập train/test, Phân loại văn bản với Navie Bayes, Phân loại văn bản với Logistic Regression, Phân loại văn bản với SVM, Phân loại văn bản dùng Fasttext. Đánh giá mô hình phân loại văn bản: So sách các mô hình, Nhận xét và đánh giá. Tự thực hành phân loại văn bản. Tài liệu tham khảo.

  • Đề tài môn Xử lý ngôn ngữ tự nhiên Tóm tắt và phân tích văn bản: https://b4usolution.com/news/detail/de-tai-mon-xu-ly-ngon-ngu-tu-nhien-tom-tat-va-phan-tich-van-ban/152/
    • Mục lục: Tổng quan tóm tắt văn bản, Khái niệm, Hướng tiếp cận và các phương pháp, Các ứng dụng sử dụng trong doanh nghiệp vào hình thức tóm tắt văn bản. Tìm hiểu về Pagerank, Pagerank là gì, Thuật toán của Google Pagerank hoạt động như thế nào. Tìm hiểu về Textrank, Khái niệm, Mô hình Textrank, Sử dụng TextRank trong rút trích từ khoá. Ứng dụng và cài đặt thuật toán Textrank trong quá trình tóm tắt văn bản, Dữ liệu đầu vào, Các bước thực hiện, Mô phỏng quy trình tóm tắt văn bản bằng cách áp dụng thuật toán Textrank, Thêm một số thư viện và cài đặt. Kết luận. Tài liệu tham khảo.

  • Xử lý ngôn ngữ tự nhiên cơ bản: https://trituenhantao.io/kien-thuc/gioi-thieu-co-ban-ve-nlp/
  • Xử lý ngôn ngữ tự nhiên với Python (7 phần):
  • Phân loại văn bản tự động bằng Machine Learning:
    • Phân loại văn bản tự động bằng Machine Learning (Phần 1): https://hoctructuyen123.net/phan-loai-van-ban-tu-dong-bang-machine-learning-phan-1/
      • Mục lục: Giới thiệu. Bài toán. Tiền xử lí dữ liệu (Preprocessing Data). Chuẩn bị dữ liệu. Feature Engineering. Count Vectors as features. Tf-ldf Vector as Features. Word level. N-gram Level. N-gram Char Level. Word Embeddings

    • Phân loại văn bản tự động bằng Machine Learning (Phần 2): https://hoctructuyen123.net/phan-loai-van-ban-tu-dong-bang-machine-learning-phan-2/
      • Mục lục: Xây dựng mô hình phân loại văn bản: Naive Bayes Classifier. Linear Classifier. Support Vector Machine. Bagging Models, Boosting Models. Shallow Neural Networks. Deep Neural Networks: Convolutional Neural Network (CNN), Long Short Term Model (LSTM), Gated Recurrent Unit (GRU), Bidirectional RNN, Recurrent Convolutional Neural Network (RCNN), Other Varians of Deep Neural Networks. Doc2VecModel.

Các Bài Tổng Hợp Tiếng Anh:

  • Deep learning for computational biology: https://www.embopress.org/doi/full/10.15252/msb.20156651
    • Mục lục: Abstract. Introduction. Box 1: Artificial Neural Network. Deep learning for regulatory genomics. Deep learning for regulatory genomics. Early applications of neural networks in regulatoy genomics. Convolutional design. Box 2: Convolutional Neural Network. In silico prediction of mutation effects. Join prediction of multiple trais and futher extensions. Deep learning for biological image analysis. First appliactions in computatonal biology – pixel level classification. Analysis of whole cells, cell populations and tissues. Reusing trained models. Intrpreting and visualizing convolutional networks.

  • 500 artificial intelligence project list with code: https://hoctructuyen123.net/500_artificial_intelligence_project_list_with_code/

Các Ebooks: