Bayesian Optimization – Thư Viện Thay Thế Tuyệt Vời GridSearchCV và RandomizedSearchCV
Nhắc sơ qua một chút: GridSearchCV và RandomizedSearchCV là 2 kỹ thuật giúp chúng ta tìm được các hyperparameter (siêu tham số) cho các mô hình Machine Learning. Tuy nhiên chúng có nhược điểm sau:
- GridSearchCV: chạy quá tốn thời gian vì thực hiện exhaustive search
- RandomizedSearchCV: chỉ được thực hiện trên 1 số lượng nhất định các combination của hyperparameter nên hoàn toàn có khả năng là combination tối ưu bị bỏ qua => kết quả cuối cùng không phải là tối ưu.
- Cả 2 đều có chung 1 nhược điểm: Chúng chỉ có thể thực hiện search qua các giá trị rời rạc, bất kể hyperparameter là liên tục (Do chúng ta phải định nghĩa 1 danh sách các giá trị muốn search của hyperparameter)
Để khắc phục nhược điểm trên, sử dụng Bayesian statistics để ước lượng và đánh giá phân phối của các hyperparameter tốt nhất. Kết quả so sánh giữa 3 phương pháp được thể hiện ở hình bên dưới và kết quả của Bayesian Optimization là vượt trội nhất:



Link gốc: The Overlooked Limitations of Grid Search and Random Search (dailydoseofds.com)
Nguồn: Việt Nguyễn




