Tổng Hợp Các Link Bàn Về Xử Lý Ngôn Ngữ Tự Nhiên ( NLP )
Sau đây mình tổng hợp các link kiến thức trong việc Xử lý ngôn ngữ tự nhiên ( NLP: Natural Languague Processing ) theo mình là cần thiết: ( xin chân thành cảm ơn các tác giả!)
Các Bài Chuyên Về Tiền Xử Lý Văn Bản:
- Tiền xử lý dữ liệu văn bản với NLTK: https://viblo.asia/p/tien-xu-li-du-lieu-van-ban-voi-nltk-Az45b0LgZxY
-
Mục lục: Giới thiệu, Thư viện NLTK, Tiền xử lý dữ liệu văn bản, Biến đổi về chữ thường, Tách các câu, Loại bỏ các kí tự đặc biệt (dấu câu), Loại bỏ stop-word, Loại bỏ các từ hiếm gặp, Stemming & Lemmatization, Loại bỏ các emoji, Loại bỏ URL, Kết luận, References.
-
- Bàn về công đoạn tiền xử lý trong xử lý ngôn ngữ tự nhiên: https://blog.vietnamlab.vn/ban-ve-cong-doan-tien-xu-ly-trong-xu-ly-ngon-ngu-tu-nhien/
-
Mục lục: Mở đầu, Các loại tiền xử lý, Làm sạch text, Tách từ, Chuẩn hoá từ, Loại bỏ StopWords, Vector hoá từ, Tài liệu tham khảo.
-
- Tiền xử lý văn bản: https://d2l.aivivn.com/chapter_recurrent-neural-networks/text-preprocessing_vn.html
-
Mục lục: Đọc bộ dữ liệu; Token hoá; Bộ từ vựng; Kết hợp tất cả lại; Tóm tắt; Bài tập
-
- Chuẩn hoá tiếng Việt trong xử lý ngôn ngữ tự nhiên: https://rabiloo.com/vi/blog/chuan-hoa-tieng-viet-trong-xu-ly-ngon-ngu-tu-nhien
-
Mục lục: Khái niệm chung; Các phương pháp chuẩn hoá tiếng Việt cho các tác vụ xử lý ngôn ngữ tự nhiên: Xoá HTML Tag, Chuẩn hoá tiếng Việt với bảng mã Unicode, Chuẩn hoá kiểu gõ dấu tiếng Việt, Chuẩn hoá từ, cụm từ, Đưa chữ viết hoa về viết thường (Lower), Xoá các ký tự đặc biệt là stopword; Kết luận.
-
- Danh sách stop words trong tiếng Việt: https://github.com/stopwords/vietnamese-stopwords/blob/master/vietnamese-stopwords.txt
Các Bài Tổng Hợp Tiếng Việt:
- Các thuật ngữ trong xử lý ngôn ngữ tự nhiên: https://ongxuanhong.wordpress.com/2016/02/05/cac-thuat-ngu-trong-xu-ly-ngon-ngu-tu-nhien/
- Phân loại văn bản tiếng Việt sử dụng machine learing: https://blog.luyencode.net/phan-loai-van-ban-tieng-viet/
-
Mục lục: Bài toán phân loại văn bản. Chuẩn bị dữ liệu. Tiền xử lí dữ liệu văn bản: Xoá HTML code trong dữ liệu, Chuẩn hoá Unicode tiếng Việt, Chuẩn hoá kiểu gõ dấu, Tách từ tiếng Việt, Đưa về viết thường ( lowercase ), Xoá các ký tự không cần thiết, Loại bỏ các stopword tiếng Việt. Xây dựng mô hình phân loại văn bản: Xây dựng tập train/test, Phân loại văn bản với Navie Bayes, Phân loại văn bản với Logistic Regression, Phân loại văn bản với SVM, Phân loại văn bản dùng Fasttext. Đánh giá mô hình phân loại văn bản: So sách các mô hình, Nhận xét và đánh giá. Tự thực hành phân loại văn bản. Tài liệu tham khảo.
-
- Đề tài môn Xử lý ngôn ngữ tự nhiên Tóm tắt và phân tích văn bản: https://b4usolution.com/news/detail/de-tai-mon-xu-ly-ngon-ngu-tu-nhien-tom-tat-va-phan-tich-van-ban/152/
-
Mục lục: Tổng quan tóm tắt văn bản, Khái niệm, Hướng tiếp cận và các phương pháp, Các ứng dụng sử dụng trong doanh nghiệp vào hình thức tóm tắt văn bản. Tìm hiểu về Pagerank, Pagerank là gì, Thuật toán của Google Pagerank hoạt động như thế nào. Tìm hiểu về Textrank, Khái niệm, Mô hình Textrank, Sử dụng TextRank trong rút trích từ khoá. Ứng dụng và cài đặt thuật toán Textrank trong quá trình tóm tắt văn bản, Dữ liệu đầu vào, Các bước thực hiện, Mô phỏng quy trình tóm tắt văn bản bằng cách áp dụng thuật toán Textrank, Thêm một số thư viện và cài đặt. Kết luận. Tài liệu tham khảo.
-
- Xử lý ngôn ngữ tự nhiên cơ bản: https://trituenhantao.io/kien-thuc/gioi-thieu-co-ban-ve-nlp/
- Sự thú vị của NLP:
- Sự thú vị của NLP – Phần 1: https://trituenhantao.io/kien-thuc/su-thu-vi-cua-nlp/
-
Mục lục: Máy tính hiểu được ngôn ngữ tự nhiên; Điểm khó của NLP.
-
- Sự thú vị của NLP – Phần 2: https://trituenhantao.io/kien-thuc/su-thu-vi-cua-nlp-phan-2/
-
Mục lục: Tách câu; Tách Từ; Gắn nhãn loại từ cho mỗi từ – POS; Lemmatization; Xác định StopWords; Phân tích cú pháp; Xác định cụm danh từ; Name Entity Recogniton (NER); Kết hợp đoạn văn.
-
- Sự thú vị của NLP – Phần 3: https://trituenhantao.io/kien-thuc/su-thu-vi-cua-nlp-phan-3/
- Sự thú vị của NLP – Phần 1: https://trituenhantao.io/kien-thuc/su-thu-vi-cua-nlp/
- Xử lý ngôn ngữ tự nhiên với Python (7 phần):
- Xử lý ngôn ngữ tự nhiên với Python – Phần 1: https://viblo.asia/p/xu-ly-ngon-ngu-tu-nhien-voi-python-p1-GrLZDbXw5k0
-
Mục lục: Ngôn ngữ tự nhiên là gì?; Tại sao cần phải “xử lý ngôn ngữ tự nhiên?”; Tại sao lại sử dụng Python trong xử lý ngôn ngữ tự nhiên?; Giới thiệu về NLTK; Tổng kết; Tài liệu tham khảo.
-
- Xử lý ngôn ngữ tự nhiên với Python – Phần 2: https://viblo.asia/p/xu-ly-ngon-ngu-tu-nhien-voi-python-p2-LzD5dAVdKjY
-
Mục lục: Cài đặt Python; Cài đặt NLTK;
-
- Xử lý ngôn ngữ tự nhiên với Python – Phần 3: https://viblo.asia/p/xu-ly-ngon-ngu-tu-nhien-voi-python-p3-E375zy12lGW
-
Mục lục: Import NLTK Book; Tìm kiếm Text: Tìm text ở trong đoạn văn bản, Tìm các từ xuất hiện trong ngữ cảnh tương tự; Đếm số lượng từ trong văn bản: Đếm tất cả lượng từ trong đoạn văn, Đếm số lượng từ sử dụng trong văn bản, Đếm số lượng xuất hiện của 1 từ trong văn bản, Tính tỉ lệ phần trăm của 1 từ trong văn bản.
-
- Xử lý ngôn ngữ tự nhiên với Python – Phần 4: https://viblo.asia/p/xu-ly-ngon-ngu-tu-nhien-voi-python-p4-WAyK8RymlxX
-
Mục lục: Lists of Words: Danh sách, Index của Lists. Thống kê văn bản: Frequency Distribution – Phân bố theo tần suất, Lựa chọn các từ theo điều kiện, Collocations và Bigrams.
-
- Xử lý ngôn ngữ tự nhiên với Python – Phần 5: https://viblo.asia/p/xu-ly-ngon-ngu-tu-nhien-voi-python-p5-3Q75wy03ZWb
-
Mục lục: Corpus/ Corpora là gì?. Các Corpora có sẵn của NLTK: Gutenberg Corpus, Brown Corpus, Web và Chat Text Corpus, Brown Corpus, Reuters Corpus, Annotated Text Corpus. Cấu trúc của một Corpus.
-
- Xử lý ngôn ngữ tự nhiên với Python – Phần 6: https://viblo.asia/p/xu-ly-ngon-ngu-tu-nhien-voi-python-p6-924lJOe05PM
-
Mục lục: Conditional Frequency Distributions. Điều kiện và biến cố (Conditions and Events). Tính số lượng từ xuất hiện dựa theo thể loại. Tạo văn bản ngẫu nhiên bằng Bigrams.
-
- Xử lý ngôn ngữ tự nhiên với Python – Phần 7: https://viblo.asia/p/xu-ly-ngon-ngu-tu-nhien-voi-python-p7-aWj53XA8K6m
-
Mục lục: Lexcal Resources: Wordlist Corpora, A Pronouncing Dictionary, Comparative Wordlists.
-
- Xử lý ngôn ngữ tự nhiên với Python – Phần 1: https://viblo.asia/p/xu-ly-ngon-ngu-tu-nhien-voi-python-p1-GrLZDbXw5k0
- Phân loại văn bản tự động bằng Machine Learning:
- Phân loại văn bản tự động bằng Machine Learning (Phần 1): https://hoctructuyen123.net/phan-loai-van-ban-tu-dong-bang-machine-learning-phan-1/
-
Mục lục: Giới thiệu. Bài toán. Tiền xử lí dữ liệu (Preprocessing Data). Chuẩn bị dữ liệu. Feature Engineering. Count Vectors as features. Tf-ldf Vector as Features. Word level. N-gram Level. N-gram Char Level. Word Embeddings
-
- Phân loại văn bản tự động bằng Machine Learning (Phần 2): https://hoctructuyen123.net/phan-loai-van-ban-tu-dong-bang-machine-learning-phan-2/
-
Mục lục: Xây dựng mô hình phân loại văn bản: Naive Bayes Classifier. Linear Classifier. Support Vector Machine. Bagging Models, Boosting Models. Shallow Neural Networks. Deep Neural Networks: Convolutional Neural Network (CNN), Long Short Term Model (LSTM), Gated Recurrent Unit (GRU), Bidirectional RNN, Recurrent Convolutional Neural Network (RCNN), Other Varians of Deep Neural Networks. Doc2VecModel.
-
- Phân loại văn bản tự động bằng Machine Learning (Phần 1): https://hoctructuyen123.net/phan-loai-van-ban-tu-dong-bang-machine-learning-phan-1/
- Ứng dụng xử lý ngôn ngữ tự nhiên NLP trong kinh doanh: https://hoctructuyen123.net/ung-dung-xu-ly-ngon-ngu-tu-nhien-nlp-trong-kinh-doanh/
-
Mục lục: Phân tích cảm xúc. Chatbots & Trợ lý ảo. Phân loại văn bản. Trích xuất văn bản. Dịch máy. Phân tích văn bản. Tóm tắt văn bản. Phân tích thông tin thị trường. Tự động sửa lỗi chính tả. Phân loại ý định. Phát hiện khẩn cấp. Nhận dạng giọng nói.
-
- Kỹ thuật tăng cường dữ liệu (data augmentation) trong NLP với tiếng Việt: https://hoctructuyen123.net/top-11-dataset-ve-machine-learning-data-science-ai/
-
Mục lục: Giới thiệu. Bài toán: Giới thiệu về bài toán, Phương pháp thêm dữ liệu. BERT. Fine-tune phoBERT. Các bước thực hiện. Tổng kết. Tài liệu tham khảo.
-
- Trích rút từ khoá tự động với học không giám sát: https://blog.luyencode.net/trich-rut-tu-khoa-tu-dong-voi-hoc-khong-giam-sat/
-
Mục lục: Quá trình trích rút từ khóa với học không giám sát; Các thuật toán trích rút từ khóa: Phương pháp đếm tần suất, Hạn chế của phương pháp, TF-IDF (Term Frequency – Inverse Document Frequency), Rapid Automatic Keyword Extraction (RAKE); Yet Another Keyword Extractor (YAKE); Tài liệu tham khảo.
-
- Xử lý tiếng Việt trong Python: https://blog.luyencode.net/xu-ly-tieng-viet-trong-python/
-
Mục lục: Python 2 và Python 3; Xử lý tiếng Việt trong Python; Tài nguyên xử lý tiếng Việt
-
- Dùng Thuật toán Beam Search đế biến từ không dấu thành có dấu: https://blog.luyencode.net/thuat-toan-beam-search/
-
Mục lục: Tại sao sử dụng beam search? Greedy search vs Beam search; Thực hành với beam search; Kết luận; Tài liệu tham khảo
-
- Code xoá dấu tiếng Việt: https://blog.luyencode.net/code-xoa-dau-tieng-viet/
-
Mục lục: Ý tưởng xóa dấu tiếng việt; Code Xóa dấu tiếng Việt
-
- Cách xoá khoảng trắng thừa trong chuỗi: https://blog.luyencode.net/xoa-khoang-trang-thua-trong-chuoi/#xoa-khoang-trang-thua-trong-chuoi-python
-
Mục lục: Xóa khoảng trắng thừa trong chuỗi Java; Xóa khoảng trắng thừa trong chuỗi C#; Xóa khoảng trắng thừa trong chuỗi PHP; Xóa khoảng trắng thừa trong Javascript; Xóa khoảng trắng thừa trong chuỗi Python.
-
- Khái quát về Corpus: http://viet.jnlp.org/tai-nguyen-ngon-ngu-tieng-viet/khai-yeu-ve-corpus
- Chuyên sâu hơn về Corpus: http://viet.jnlp.org/tai-nguyen-ngon-ngu-tieng-viet/khai-yeu-ve-corpus
- Trích lọc tiếng Việt từ HTML: http://viet.jnlp.org/cac-cong-cu-xu-ly/trich-loc-tieng-viet-tu-html
- Xây dựng chương trình tóm tắt văn bản (tiếng Việt) đơn giản với Machine Learning: https://viblo.asia/p/xay-dung-chuong-trinh-tom-tat-van-ban-tieng-viet-don-gian-voi-machine-learning-YWOZrgAwlQ0
Các Bài Tổng Hợp Tiếng Anh:
- Deep learning for computational biology: https://www.embopress.org/doi/full/10.15252/msb.20156651
-
Mục lục: Abstract. Introduction. Box 1: Artificial Neural Network. Deep learning for regulatory genomics. Deep learning for regulatory genomics. Early applications of neural networks in regulatoy genomics. Convolutional design. Box 2: Convolutional Neural Network. In silico prediction of mutation effects. Join prediction of multiple trais and futher extensions. Deep learning for biological image analysis. First appliactions in computatonal biology – pixel level classification. Analysis of whole cells, cell populations and tissues. Reusing trained models. Intrpreting and visualizing convolutional networks.
-
- 500 artificial intelligence project list with code: https://hoctructuyen123.net/500_artificial_intelligence_project_list_with_code/
- Natural Language Processing With Python’s NLTK Package: https://realpython.com/nltk-nlp-python/
- Getting started with Text Preprocessing: https://www.kaggle.com/code/sudalairajkumar/getting-started-with-text-preprocessing/notebook
- Removing all Spaces in text file with Python: https://stackoverflow.com/questions/43447221/removing-all-spaces-in-text-file-with-python-3-x
Các Ebooks:
- Một số ebooks về xử lý ngôn ngữ tự nhiên: https://cuuduongthancong.com/s/xu-ly-ngon-ngu-tu-nhien





