DATASET
- Là một tập dữ liệu mà chúng ta phải làm việc, chính là tập dữ liệu mà chúng ta áp dụng các thuật toán AI, các mô hình máy học để thử nghiệm và đánh giá.
- Thông thường tác tập dữ liệu này có kích thước rất lớn, chúng ta thường chia nhỏ các tập này nhỏ hơn.
TRAINING SET
- Đây là một tập dữ liệu có kích thước lớn, được dùng để training trong quá trình huấn luyện máy học.
- Nói cách dễ hiểu hơn, đây chính là tập dữ liệu mà máy dùng để học và rút trích được những những điểm quan trọng để ghi nhớ lại.
- Tập training set sẽ có 2 phần:
- Input: sẽ là những dữ liệu đầu vào. Ví dụ: bài toán nhận dạng hình ảnh thì input là những bức hình.
- Output: sẽ là những kết quả tương tứng với input. Ví dụ, gán nhãn dán cho những tấm hình, nếu input là hình ảnh chứa con chó thì output sẽ cho ra kết quả label là “con chó”.
Tóm lại: Training set là tập các cặp input và output dùng để huấn luyện trong quá trình máy học.
TESTING SET
- Là tập dữ liệu dùng để test sau khi máy tính đã học xong.
- Một mô hình máy học sau khi được huấn luyện sẽ cần được kiểm chứng xem nó có đạt hiệu quả không. Cũng giống như con người, sau mỗi khoá học thì sẽ có kì thi/ kiểm tra để lấy kết quả. Và điểm số của mỗi người dùng để kiểm tra kiến thức của người đó sau quá trình học.
- Mô hình máy học cũng vậy, sau mỗi quá trình huấn luyện gian khổ, các mô hình này sẽ được kiểm chứng độ chính xác, nếu đáp ứng được thì ok, không thì loại. Và để kiểm nghiệm được độ chính xác của mô hình, người ta dùng tập Testing set.
- Testing set chỉ gồm các giá trị input mà không có các giá trị output. Máy tính sẽ nhận những giá trị input này và xử lí các giá trị, sau đó đưa ra output tương ứng cho giá trị input đó. Ví dụ: khi đưa cho máy tính 1 tấm hình con chó với bài cỏ (đây là giá trị input). Máy tính sẽ xử lí các chi tiết trên tấm hình này và in ra màn hình là con mèo (đây chính là output)
Tóm lại: Testing set là tập các giá trị input và được dùng để kiểm thử độ chính xác của những mô hình máy học sau khi được huấn luyện.
VALIDATION SET
- Validation set cũng giống như Training set, nó cũng bao gồm các cặp giá trị inpu và output tương ứng. Nhưng, nó khác ở chỗ là nó được dùng để kiểm tra thử độ chính xác của mô hình máy học trong quá trình huấn luyện.
- Vậy tới lúc này câu hỏi được đặt ra tại sao không dùng Training set để kiểm thử luôn, mà lại phải có tập Valdation set để kiểm thử, thì để trả lời câu hỏi này mời bạn đâu qua khái niệm về thuật ngữ Overfitting.
- Có thể giải thích dễ hiểu như thế này: hãy xem quá trình học máy là quá trình một học sinh đi học toán ở trường, những bài tập được làm ở lớp là Training set. Trong quá trình học ở lớp, giáo viên đưa ra những bài kiểm tra 15′ để kiểm tra trình độ học sinh nhằm biết học sinh đang mạnh/ yếu chỗ nào nhằm sửa chữa cách dạy cho tốt hơn. Đồng thời, để tránh việc học vẹt, những bài kiểm tra 15′ này phải khác với bài tập đã làm ở lớp (thì đây chính là Validation set). Cuối học kì, học sinh được tham gia kì thi cuối kì để xem xét có được lên lớp hay không (bài thi cuối kì được gọi là Testing set).
- Thông thường, người ta ngầm cho rằng Validation set mà có độ chính xác cao thì tập Testing set cũng có độ chính xác cao. Do đó, quá trình training chủ yếu dưa trên kết quả của tập Validation set chứ không phải tập training set.
Tóm lại: Validation test là tập các giá trị input đi kèm với giá trị out put và được dùng để kiểm tra thử độ chính xác mô hình máy học trong quá trình huấn luyện.
(Bài viết có tham khảo nguồn từ: cuonglv1109.blogspot.com)