Các Điều Cơ Bản Cần Phải Nắm Trong Machine Learning

MACHINE LEARNING (ML)

Machine-Learning

1. Các vấn về cơ bản về ML cần phải nắm

1.1 Dựa trên bản chất của “tín hiệu” (signal) hoặc “phản hồi” (feedback) có sẵn cho hệ thống học:

  • Học có giám sát (Supervised Learning): máy tính được chỉ định đầu vào là các mẫu (dữ liệu và một cái tên tương ứng nào đó) và đầu ra là các mẫu mong muốn. Mục tiêu là học một quy tắc chung ánh xạ từ đầu vào với đầu ra. Quá trình đào tạo tiếp tục cho đến khi mô hình đạt được mức độ chính xác mong muốn trên dữ liệu đào tạo: Một số ví dụ thực tế là:
    • Phân loại hình ảnh: Bạn đào tạo máy tính học các hình ảnh/tên. Sau đó, trong tương lai, bạn đưa ra một hình ảnh mới với hy vọng rằng máy tính sẽ nhận ra đối tượng mới đó.
    • Dự đoán thị trường/ Hồi quy: Bạn huấn luyện máy tính với dữ liệu lịch sử của thị trường và yêu cầu máy tính dự đoán mức giá mới trong tương lai.
  • Học không giám sát (Unsupervised Learning): Không có tên nào được cấp cho thuật toán để nó học cả (dữ liệu đầu vào sẽ không có tên nào cả), để nó tự tìm cấu trúc trong đầu vào của nó. Nó được sử dụng để phân cụm những cái chung trong các nhóm khác nhau. Bản thân việc học không giám sát có thể là một mục tiêu (khám phá các mẫu ẩn trong dữ liệu)
    • Phân cụm: là yêu cầu máy tính tách dữ liệu tương tự nhau thành từng cụm, điều này rất cần thiết trong nghiên cứu và khoa học.
    • Trực quan hoá dữ liệu kích thước lớn: máy tính sẽ giúp trực quan hoá dữ liệu với kích thước lớn.
    • Tạo models: sau khi một mô hình (Models) nắm bắt được xác suất phân phối của dữ liệu đầu vào, nó sẽ có thể tạo ra nhiều dữ liệu hơn. Điều này có thể rất hữu ích để làm cho quá trình phân loại mạnh mẽ và tốt hơn.
  • Học bán giám sát: nếu đầu vào là một lượng lớn dữ liệu và chỉ có một số dữ liệu được gắn tên, được gọi là các vấn đề học tập bán giám sát. Những vấn đề nằm giữa cả việc học có giám sát và không giám sát. Ví dụ: kho lưu trữ ảnh chỉ một số hình ảnh được gắn tên (ví dụ: chó, mèo, người và phần lớn hình ảnh còn lại không được gắn tên)
  • Học tập một cách cố định: một chương trình máy tính tương tác với một môi trường năng động, trong đó nó phải thực hiện một mục tiêu nhất định (chẳng hạn như lái xe hoặc chơi trò chơi với đối thủ). Chương trình được cung cấp phản hồi về phần thưởng và hình phạt khi nó điều hướng các vấn đề của nó.

Phuong phap hoc cua ML

1.2 Dựa trên cơ sở “đầu ra” mong muốn từ một hệ thống Machine Learning

  • Phân loại (classification): đầu vào được chia thành hai hoặc nhiều lớp và máy học phải tạo ra một mô hình gắn các đầu vào không nhìn thấy cho một hoặc nhiều (phân loại nhiều tên) của lớp này. Điều này thường được giải quyết theo cách học có giám sát. Ví dụ: lọc thư rác là một ví dụ về phân loại, đầu vào là email, và các lớp là “thư rác” hoặc “không phải thư rác”.
  • Hồi quy (Regression): cũng là một bài toán học có giám sát, nhưng kết quả đầu ra là liên tục chứ không rời rạc. Ví dụ: dự đoán lịch sử giá cổ phiếu bằng dữ liệu.

 

  • Phân cụm (Clustering): Dữ liệu đầu vào sẽ được chia thành các nhóm gọi là phân cụm. Không giống như trong phân loại, các nhóm không được biết trước, chính vì vậy đây thường là việc học không được giám sát.

    • Giải thích hình minh hoạ: các tập dữ liệu đã được chia thành các nhóm được nhận dạng bằng 3 màu khác nhau: trắng, xanh dương và xanh lá.
  • Ước lượng mật độ: Nhiệm vụ là tìm sự phân bố của các yêu tố đầu vào trong một số không gian.
  • Giảm kích thước: Giúp đơn giản hoá đầu vào bằng cách ánh xạ chúng vào một không gian có chiều thấp hơn. Mô hình hoá chủ đề là một vấn đề như vậy, ví dụ: một chương trình được cung cấp một danh sách tài liệu tiếng Việt và máy có nhiệm vụ tìm ra tài liệu nào bao gồm các chủ đề tương tự.

Để giải quyết các nhiệm vụ (task)/ vấn đề (problem) của ML, thì sẽ có các thuật toán được sử dụng để giải quyết như là: Hồi quy tuyến tính, hồi quy logistic, cây quyết định, SVM (Máy vector hỗ trợ), Navie Bayes, KNN (K láng giềng gần nhất), K-Means, Random Forest,…

2. Các thuật ngữ của ML

  • Mô hình (model): mô hình là một biểu diễn cụ thể được học từ dữ liệu bằng cách áp dụng một số thuật toán của ML (như có kể ở trên). Một mô hình còn được gọi là giả thuyết.
  • Đặc điểm, đặc tính (Feature):
    • Đặc điểm là một thuộc tính có thể đo lường riêng dữ liệu của dữ liệu.
    • Một tập hợp các đối tượng địa lý có thể được mô tả một cách thuận tiện bằng một thuộc tính vectơ. Các thuộc tính vectơ được đưa vào làm đầu vào cho model.
    • Ví dụ: để dự đoán một loại trái cây, có thể có các thuộc tính như màu sắc, mùi, vị,…

Lưu ý: chọn các thuộc tính thông tin, phân biệt và độc lập là một bước quan trọng để các thuật hoán giải quyết được hiệu quả. Chúng ta thường sử dụng một trình trích xuất thuộc tính để trích xuất các thuộc tính liên quan từ dữ liệu thô.

  • Mục tiêu/ Nhãn (Target/ Label):
    • Biến hoặc nhãn mục tiêu là giá trị được mô hình của chúng ta dự đoán.
    • Ví dụ: với bộ dữ liệu đầu vào của trái cây trong phần đặc tính thì nhãn (label) sẽ là tên của trái cây như chuối, cam,…
  • Đào tạo (Training): Ý tưởng là cung cấp một tập hợp đầu vào (đặc tính) và đầu ra dự kiến (nhãn). Sau khi đào tạo, chúng ta sẽ có một mô hình (giả thuyết) sau đó sẽ ánh xạ dự liệu mới đến một trong các danh mục được đào tạo.
  • Sự dự đoán (Prediction): Khi mô hình của chúng ta đã sẵn sàng, nó có thể được cung cấp một tập hợp các đầu vào mà nó sẽ cung cấp đầu ra dự đoán (nhãn)

Qua-trinh-training-prediction-ML

Hình minh hoạ – Quá trình Đào tạo (Training) và Dự đoán (Prediction)

(Bài viết có tham khảo nguồn từ: cafedev.vn)