Giới thiệu tổng quan về các chỉ số phân tán
Trong thống kê mô tả, bên cạnh các chỉ số trung tâm (trung bình, trung vị, mode) cho biết giá trị điển hình, các chỉ số phân tán lại cho chúng ta biết mức độ biến động hoặc “lan truyền” của dữ liệu. Hai chỉ số phân tán quan trọng và được sử dụng phổ biến nhất là phương sai (variance) và độ lệch chuẩn (standard deviation).
Phương sai (Variance)
Khái niệm
Phương sai là một thước đo cho biết mức độ phân tán của các giá trị dữ liệu so với giá trị trung bình của chúng. Về mặt toán học, phương sai được tính bằng trung bình cộng của bình phương độ lệch của mỗi giá trị so với giá trị trung bình.
- Ý nghĩa: Phương sai càng lớn, dữ liệu càng phân tán xa giá trị trung bình. Tuy nhiên, đơn vị của phương sai là đơn vị gốc của biến được bình phương (ví dụ: nếu biến là “tuổi” thì phương sai là “tuổi bình phương”), điều này khiến việc diễn giải trở nên khó khăn.