HNI 15/9: CHƯƠNG 33: Thống kê mô tả dữ liệu
1. Mở đầu: Vì sao cần thống kê mô tả?
Trong thế giới ngày nay, dữ liệu xuất hiện ở khắp mọi nơi. Từ các con số doanh thu trong một công ty, bảng điểm học tập của học sinh, kết quả khảo sát xã hội học, đến các chỉ số y tế trong cộng đồng – tất cả đều là dữ liệu. Nhưng dữ liệu thô chỉ là những con số rời rạc, chưa có ý nghĩa nếu chúng ta không biết cách tổ chức, tóm tắt, và mô tả chúng. Chính lúc này, thống kê mô tả trở thành công cụ không thể thiếu.
Thống kê mô tả giúp biến những mảnh ghép dữ liệu phức tạp thành bức tranh tổng thể, dễ hiểu. Thay vì phải đọc hàng ngàn số liệu, ta chỉ cần nhìn vào vài chỉ số đặc trưng như giá trị trung bình, trung vị, phương sai, độ lệch chuẩn hay các biểu đồ trực quan. Đây chính là bước đầu tiên, là nền móng để tiến tới thống kê suy luận và phân tích sâu hơn.
2. Khái niệm cơ bản về thống kê mô tả
Thống kê mô tả (Descriptive Statistics) là tập hợp các phương pháp dùng để:
Thu thập và tổ chức dữ liệu: phân loại, sắp xếp thành bảng.
Tóm tắt dữ liệu: bằng các con số đại diện như trung bình, trung vị, mốt.
Trình bày dữ liệu: bằng biểu đồ, đồ thị, hình ảnh.
Điểm quan trọng là thống kê mô tả không đi xa hơn dữ liệu đã có, mà chỉ mô tả, phản ánh dữ liệu ở dạng gọn gàng. Khác với thống kê suy luận – vốn dùng mẫu để suy ra đặc điểm của cả quần thể – thống kê mô tả chỉ dừng lại ở “cái đang thấy”.
3. Các loại dữ liệu trong thống kê mô tả
Để mô tả đúng, trước tiên ta cần hiểu dữ liệu có nhiều dạng khác nhau:
Dữ liệu định tính (Qualitative/Categorical data): Biểu diễn đặc điểm, thuộc tính, không thể đo bằng số, ví dụ: giới tính, màu sắc, nghề nghiệp.
Dữ liệu định lượng (Quantitative data): Đo bằng số, chia thành hai loại:
Rời rạc (Discrete): Đếm được, ví dụ: số con trong một gia đình.
Liên tục (Continuous): Đo lường trên một khoảng, ví dụ: chiều cao, cân nặng.
Phân loại dữ liệu đúng giúp ta chọn được công cụ mô tả thích hợp.
4. Phương pháp tổ chức dữ liệu
Trước khi phân tích, dữ liệu cần được sắp xếp:
4.1. Bảng tần số (Frequency table)
Liệt kê các giá trị dữ liệu và số lần xuất hiện.
Giúp nhìn rõ phân bố của dữ liệu.
Ví dụ: Điểm kiểm tra Toán của 20 học sinh:
6, 7, 8, 9, 7, 8, 6, 10, 9, 8, 7, 6, 9, 8, 10, 7, 6, 8, 7, 9.
Bảng tần số:
Điểm Tần số Tần suất (%)
6 4 20%
7 5 25%
8 5 25%
9 4 20%
10 2 10%
4.2. Bảng phân phối tần số theo lớp (Grouped frequency distribution)
Khi dữ liệu nhiều và liên tục, ta chia thành các “lớp khoảng”.
Ví dụ: chiều cao của 100 học sinh chia thành các khoảng 150–155 cm, 156–160 cm, …
5. Các thước đo trung tâm
Để mô tả dữ liệu, ta thường muốn biết “giá trị điển hình” hay “trung tâm” của nó.
5.1. Trung bình cộng (Mean)
Công thức:
n là số quan sát.
5.2. Trung vị (Median)
Là giá trị chia dữ liệu thành hai nửa bằng nhau.
Dùng khi dữ liệu bị lệch, có ngoại lệ.
5.3. Mốt (Mode)
Là giá trị xuất hiện nhiều nhất.
Thích hợp khi muốn biết xu hướng phổ biến.
Ví dụ: Dữ liệu điểm Toán trên, trung bình = 7.9, trung vị = 8, mốt = 7 và 8.
6. Các thước đo độ phân tán
Nếu chỉ biết trung tâm, ta chưa hiểu hết dữ liệu. Hai lớp học có cùng điểm trung bình 8, nhưng lớp A đồng đều còn lớp B chênh lệch rất lớn. Độ phân tán giúp ta thấy điều đó.
6.1. Phạm vi (Range)
6.2. Phương sai (Variance) và Độ lệch chuẩn (Standard deviation)
Phương sai
Độ lệch chuẩn càng nhỏ → dữ liệu càng đồng đều.
6.3. Độ lệch tuyệt đối trung bình (MAD)
6.4. Tứ phân vị và khoảng tứ phân vị (IQR)
Chia dữ liệu thành 4 phần bằng nhau.
IQR = Q3 – Q1, thể hiện sự phân tán của 50% dữ liệu giữa.
7. Đo lường hình dạng phân bố
Không chỉ trung tâm và độ phân tán, ta còn quan tâm đến hình dạng dữ liệu:
Độ lệch (Skewness): Cho biết dữ liệu lệch trái hay phải.
Độ nhọn (Kurtosis): Cho biết phân phối nhọn hay bẹt so với chuẩn.
Ví dụ: Thu nhập thường có phân bố lệch phải (nhiều người thu nhập thấp, ít người thu nhập cực cao).

HNI 15/9: 🌺CHƯƠNG 33: Thống kê mô tả dữ liệu 1. Mở đầu: Vì sao cần thống kê mô tả? Trong thế giới ngày nay, dữ liệu xuất hiện ở khắp mọi nơi. Từ các con số doanh thu trong một công ty, bảng điểm học tập của học sinh, kết quả khảo sát xã hội học, đến các chỉ số y tế trong cộng đồng – tất cả đều là dữ liệu. Nhưng dữ liệu thô chỉ là những con số rời rạc, chưa có ý nghĩa nếu chúng ta không biết cách tổ chức, tóm tắt, và mô tả chúng. Chính lúc này, thống kê mô tả trở thành công cụ không thể thiếu. Thống kê mô tả giúp biến những mảnh ghép dữ liệu phức tạp thành bức tranh tổng thể, dễ hiểu. Thay vì phải đọc hàng ngàn số liệu, ta chỉ cần nhìn vào vài chỉ số đặc trưng như giá trị trung bình, trung vị, phương sai, độ lệch chuẩn hay các biểu đồ trực quan. Đây chính là bước đầu tiên, là nền móng để tiến tới thống kê suy luận và phân tích sâu hơn. 2. Khái niệm cơ bản về thống kê mô tả Thống kê mô tả (Descriptive Statistics) là tập hợp các phương pháp dùng để: Thu thập và tổ chức dữ liệu: phân loại, sắp xếp thành bảng. Tóm tắt dữ liệu: bằng các con số đại diện như trung bình, trung vị, mốt. Trình bày dữ liệu: bằng biểu đồ, đồ thị, hình ảnh. Điểm quan trọng là thống kê mô tả không đi xa hơn dữ liệu đã có, mà chỉ mô tả, phản ánh dữ liệu ở dạng gọn gàng. Khác với thống kê suy luận – vốn dùng mẫu để suy ra đặc điểm của cả quần thể – thống kê mô tả chỉ dừng lại ở “cái đang thấy”. 3. Các loại dữ liệu trong thống kê mô tả Để mô tả đúng, trước tiên ta cần hiểu dữ liệu có nhiều dạng khác nhau: Dữ liệu định tính (Qualitative/Categorical data): Biểu diễn đặc điểm, thuộc tính, không thể đo bằng số, ví dụ: giới tính, màu sắc, nghề nghiệp. Dữ liệu định lượng (Quantitative data): Đo bằng số, chia thành hai loại: Rời rạc (Discrete): Đếm được, ví dụ: số con trong một gia đình. Liên tục (Continuous): Đo lường trên một khoảng, ví dụ: chiều cao, cân nặng. Phân loại dữ liệu đúng giúp ta chọn được công cụ mô tả thích hợp. 4. Phương pháp tổ chức dữ liệu Trước khi phân tích, dữ liệu cần được sắp xếp: 4.1. Bảng tần số (Frequency table) Liệt kê các giá trị dữ liệu và số lần xuất hiện. Giúp nhìn rõ phân bố của dữ liệu. Ví dụ: Điểm kiểm tra Toán của 20 học sinh: 6, 7, 8, 9, 7, 8, 6, 10, 9, 8, 7, 6, 9, 8, 10, 7, 6, 8, 7, 9. Bảng tần số: Điểm Tần số Tần suất (%) 6 4 20% 7 5 25% 8 5 25% 9 4 20% 10 2 10% 4.2. Bảng phân phối tần số theo lớp (Grouped frequency distribution) Khi dữ liệu nhiều và liên tục, ta chia thành các “lớp khoảng”. Ví dụ: chiều cao của 100 học sinh chia thành các khoảng 150–155 cm, 156–160 cm, … 5. Các thước đo trung tâm Để mô tả dữ liệu, ta thường muốn biết “giá trị điển hình” hay “trung tâm” của nó. 5.1. Trung bình cộng (Mean) Công thức: n là số quan sát. 5.2. Trung vị (Median) Là giá trị chia dữ liệu thành hai nửa bằng nhau. Dùng khi dữ liệu bị lệch, có ngoại lệ. 5.3. Mốt (Mode) Là giá trị xuất hiện nhiều nhất. Thích hợp khi muốn biết xu hướng phổ biến. Ví dụ: Dữ liệu điểm Toán trên, trung bình = 7.9, trung vị = 8, mốt = 7 và 8. 6. Các thước đo độ phân tán Nếu chỉ biết trung tâm, ta chưa hiểu hết dữ liệu. Hai lớp học có cùng điểm trung bình 8, nhưng lớp A đồng đều còn lớp B chênh lệch rất lớn. Độ phân tán giúp ta thấy điều đó. 6.1. Phạm vi (Range) 6.2. Phương sai (Variance) và Độ lệch chuẩn (Standard deviation) Phương sai Độ lệch chuẩn càng nhỏ → dữ liệu càng đồng đều. 6.3. Độ lệch tuyệt đối trung bình (MAD) 6.4. Tứ phân vị và khoảng tứ phân vị (IQR) Chia dữ liệu thành 4 phần bằng nhau. IQR = Q3 – Q1, thể hiện sự phân tán của 50% dữ liệu giữa. 7. Đo lường hình dạng phân bố Không chỉ trung tâm và độ phân tán, ta còn quan tâm đến hình dạng dữ liệu: Độ lệch (Skewness): Cho biết dữ liệu lệch trái hay phải. Độ nhọn (Kurtosis): Cho biết phân phối nhọn hay bẹt so với chuẩn. Ví dụ: Thu nhập thường có phân bố lệch phải (nhiều người thu nhập thấp, ít người thu nhập cực cao).
Love
Like
Wow
16
0 Comments 0 Shares