Quy Trình Chạy Hồi Quy Logistic Nhị Phân Trong SPSS

Hồi quy Logistic nhị phân (Binary Logistic Regression) là một kỹ thuật thống kê được sử dụng khi bạn muốn dự đoán xác suất xảy ra của một sự kiện hoặc phân loại một đối tượng vào một trong hai nhóm dựa trên một hoặc nhiều biến độc lập. Khác với hồi quy tuyến tính (với biến phụ thuộc là định lượng liên tục), biến phụ thuộc trong hồi quy Logistic nhị phân chỉ có hai giá trị (ví dụ: Có/Không, Thành công/Thất bại, Mua/Không mua, Đạt/Không đạt). Trong **SPSS**, việc chạy hồi quy Logistic nhị phân là một quy trình tương đối đơn giản nhưng đòi hỏi sự hiểu biết về các giả định và cách diễn giải kết quả đặc thù của nó. Bài viết này sẽ hướng dẫn bạn từng bước thực hiện phân tích này.

1. Hiểu Về Hồi Quy Logistic Nhị Phân

Hồi quy Logistic không dự đoán trực tiếp giá trị của biến phụ thuộc, mà dự đoán **xác suất** của một sự kiện xảy ra (thường là xác suất biến phụ thuộc có giá trị 1, ví dụ: “có” hoặc “thành công”). Xác suất này sau đó được chuyển đổi thành **Odds Ratio (Tỷ lệ chênh lệch)** hoặc logit.

BÁO GIÁ SIÊU TỐC TRONG 5-15 PHÚT

Nếu bạn cần dịch vụ hỗ trợ về dữ liệu, chỉ cần nhắn Zalo và cung cấp thông tin bài. Bạn sẽ nhận được báo giá chi tiết chỉ sau 5-15 phút.

* Lưu ý: Mọi báo giá trên website chỉ là tham khảo do tính chất các bài hoàn toàn khác nhau:

  • Cùng các bước chạy nhưng 3 giả thuyết độ khó khác bài 10 giả thuyết.
  • Sửa dữ liệu đã đạt 5/6 bước sẽ khác bộ chỉ mới đạt 3/6 bước.
  • Cùng một mô hình nhưng trình tự và yêu cầu khác nhau tạo ra độ khó khác nhau.

Phương trình cơ bản của hồi quy Logistic:

$$ \text{Logit}(p) = \ln\left(\frac{p}{1-p}\right) = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_k X_k $$

  • $p$: Xác suất biến phụ thuộc có giá trị 1.
  • $p/(1-p)$: Odds (Tỷ lệ chênh lệch) của biến phụ thuộc.
  • $\beta_0$: Hằng số.
  • $\beta_i$: Hệ số hồi quy cho biến độc lập $X_i$.
  • $X_i$: Các biến độc lập (có thể là định lượng hoặc định tính).

2. Các Giả Định Của Hồi Quy Logistic Nhị Phân

Mặc dù hồi quy Logistic có ít giả định nghiêm ngặt hơn hồi quy tuyến tính, nhưng vẫn có một số điều cần lưu ý:

2.1. Biến phụ thuộc là nhị phân

Biến phụ thuộc phải là biến định tính với hai cấp độ/giá trị (ví dụ: 0 và 1).

2.2. Các biến độc lập có thể là định lượng hoặc định tính

Biến độc lập có thể là biến định lượng (Scale) hoặc định tính (Nominal/Ordinal). Nếu là định tính với nhiều hơn 2 cấp độ, chúng cần được mã hóa thành biến giả (dummy variables) trong quá trình phân tích (SPSS sẽ tự động xử lý).

2.3. Tính độc lập của các quan sát

Các quan sát (bản ghi) trong dữ liệu phải độc lập với nhau. Điều này thường được đảm bảo bằng thiết kế nghiên cứu (ví dụ: mỗi người chỉ trả lời một lần).

2.4. Không có đa cộng tuyến nghiêm trọng

Các biến độc lập không nên tương quan quá mức với nhau. Có thể kiểm tra bằng VIF/Tolerance (thực hiện qua hồi quy tuyến tính tạm thời hoặc trong các phần mềm phức tạp hơn). VIF < 10 và Tolerance > 0.1 thường là chấp nhận được.

2.5. Quan hệ tuyến tính giữa biến độc lập định lượng và logit của biến phụ thuộc

Đối với các biến độc lập định lượng, cần có mối quan hệ tuyến tính với logit của biến phụ thuộc, chứ không phải với bản thân xác suất. Có thể kiểm tra bằng cách tạo biến tương tác giữa biến độc lập và logarit của nó, hoặc sử dụng biểu đồ phân tán.

2.6. Cỡ mẫu đủ lớn

Cần một số lượng sự kiện (ví dụ: số người “Có”) và phi sự kiện (số người “Không”) đủ lớn để mô hình ổn định. Quy tắc ngón tay cái là ít nhất 10 sự kiện trên mỗi biến độc lập.

3. Quy Trình Chạy Hồi Quy Logistic Nhị Phân Trong SPSS

Sau khi chuẩn bị dữ liệu và hiểu rõ các giả định, bạn có thể thực hiện phân tích trong SPSS theo các bước sau:

3.1. Thiết lập phân tích

  • Vào menu: **Analyze > Regression > Binary Logistic…**
  • Hộp thoại “Logistic Regression” sẽ xuất hiện.
  • Chuyển biến phụ thuộc (nhị phân) của bạn vào ô **”Dependent”**.
  • Chuyển các biến độc lập định lượng (Scale variables) vào ô **”Covariates”**.
  • Chuyển các biến độc lập định tính (Nominal/Ordinal variables) vào ô **”Categorical…”**. SPSS sẽ tự động tạo biến giả cho các biến này.

3.2. Định nghĩa biến định tính (Categorical)

  • Nhấp vào nút **”Categorical…”**.
  • Chuyển các biến định tính từ “Covariates” sang “Categorical Covariates”.
  • Trong mục “Change Contrast”, chọn phương pháp mã hóa biến giả. Mặc định là **Indicator** (dạng dummy, nhóm tham chiếu là nhóm cuối cùng). Bạn có thể chọn **First** nếu muốn nhóm tham chiếu là nhóm đầu tiên. Nhấn **”Change”** sau khi chọn.
  • Nhấn **”Continue”**.

3.3. Cài đặt tùy chọn thống kê (Options)

  • Nhấp vào nút **”Options…”**.
  • Trong mục “Statistics and Plots”, chọn:
    • **Hosmer-Lemeshow goodness-of-fit:** Kiểm định mức độ phù hợp của mô hình (quan trọng).
    • **Casewise list of residuals:** Liệt kê các phần dư cho từng trường hợp.
    • **Goodness-of-fit:** Thống kê Pearson Chi-Square và Deviance (cũng để đánh giá độ phù hợp).
    • **CI for exp(B):** Khoảng tin cậy cho Odds Ratio (Exp(B)) – RẤT QUAN TRỌNG để diễn giải.
    • **Iteration history:** Xem quá trình lặp của thuật toán.
  • Nhấn **”Continue”**.

3.4. Cài đặt Lưu (Save)

  • Nhấp vào nút **”Save…”**.
  • Trong mục “Predicted Values”, chọn **Probabilities** (để lưu xác suất dự đoán).
  • Trong mục “Residuals”, chọn **Unstandardized** và **Standardized**.
  • Nhấn **”Continue”** rồi **”OK”** để chạy phân tích.

4. Diễn Giải Kết Quả Hồi Quy Logistic Nhị Phân

SPSS sẽ xuất ra nhiều bảng kết quả quan trọng:

4.1. Bảng Case Processing Summary

Cho biết số lượng bản ghi hợp lệ, thiếu và tổng số bản ghi được sử dụng.

4.2. Bảng Dependent Variable Encoding

Hiển thị cách SPSS mã hóa biến phụ thuộc nhị phân (thường là 0 và 1). Quan trọng để biết giá trị nào được xem là “sự kiện” (event).

4.3. Bảng Block 0: Beginning Block

Mô hình cơ sở (Intercept Only) trước khi đưa các biến độc lập vào. Dùng để so sánh với mô hình có các biến độc lập.

  • **Variables in the Equation:** Chỉ hiển thị hằng số.

4.4. Bảng Block 1: Method = Enter (hoặc Stepwise…)

Đây là các bảng kết quả chính của mô hình hồi quy Logistic:

  • **Omnibus Tests of Model Coefficients:** Kiểm định sự phù hợp tổng thể của mô hình.
    • **Sig. < 0.05:** Cho thấy mô hình mới (có các biến độc lập) phù hợp hơn đáng kể so với mô hình cơ sở.
  • **Model Summary:**
    • **-2 Log likelihood (-2LL):** Giá trị càng nhỏ càng tốt. Dùng để so sánh giữa các mô hình.
    • **Cox & Snell R Square / Nagelkerke R Square:** Đây là các chỉ số pseudo-$R^2$, ước lượng mức độ giải thích phương sai của mô hình (tương tự $R^2$ trong hồi quy tuyến tính, nhưng không có cùng ý nghĩa). Nagelkerke $R^2$ thường được ưa dùng hơn.
  • **Hosmer and Lemeshow Test:** Kiểm định mức độ phù hợp của mô hình.
    • **Sig. > 0.05:** Cho thấy mô hình phù hợp với dữ liệu (điều bạn muốn thấy). Nếu Sig. < 0.05, có nghĩa là có sự khác biệt đáng kể giữa xác suất dự đoán và quan sát, mô hình không phù hợp.
  • **Classification Table:** Bảng phân loại dự đoán và quan sát.
    • Cho thấy mô hình dự đoán đúng bao nhiêu phần trăm các trường hợp “0” và “1”, và tổng số phần trăm dự đoán đúng.
  • **Variables in the Equation:** Bảng quan trọng nhất, chứa các hệ số hồi quy:
    • **B:** Hệ số hồi quy Logistic (Unstandardized Coefficient). Cho biết sự thay đổi của logit(p) khi biến độc lập thay đổi 1 đơn vị. Khó diễn giải trực tiếp.
    • **S.E.:** Sai số chuẩn của B.
    • **Wald:** Giá trị kiểm định Wald, dùng để kiểm định ý nghĩa thống kê của từng biến độc lập.
    • **df:** Bậc tự do.
    • **Sig.:** Giá trị p-value tương ứng với kiểm định Wald. Nếu **Sig. < 0.05**, biến độc lập đó có ý nghĩa thống kê trong việc dự đoán biến phụ thuộc.
    • **Exp(B):** Tỷ lệ chênh lệch (Odds Ratio). Đây là giá trị quan trọng nhất để diễn giải tác động của biến độc lập.
      • Nếu **Exp(B) > 1:** Biến độc lập làm tăng Odds của sự kiện xảy ra (ví dụ: tăng 1 đơn vị của X làm tăng Odds của Y lên Exp(B) lần).
      • Nếu **Exp(B) < 1:** Biến độc lập làm giảm Odds của sự kiện xảy ra.
      • Nếu **Exp(B) = 1:** Biến độc lập không có tác động.
      • Đối với biến định tính, Exp(B) so sánh Odds của nhóm hiện tại với Odds của nhóm tham chiếu (đã định nghĩa trong Categorical…).

Hồi quy Logistic nhị phân là một công cụ mạnh mẽ để phân tích các mối quan hệ khi biến phụ thuộc là định tính nhị phân. Việc nắm vững quy trình chạy, kiểm tra giả định và diễn giải kết quả, đặc biệt là Odds Ratio, sẽ giúp bạn đưa ra những kết luận chính xác và có giá trị cho nghiên cứu của mình.

Bạn cần hỗ trợ xử lý và phân tích dữ liệu chuyên sâu với SPSS, AMOS, hay SmartPLS?

Nếu bạn đang gặp khó khăn trong quá trình chạy hồi quy Logistic, kiểm tra giả định, diễn giải kết quả, hoặc cần hỗ trợ toàn diện trong quá trình xử lý số liệu và phân tích thống kê cho luận văn, luận án hay các dự án nghiên cứu, đừng ngần ngại liên hệ với chúng tôi!

Chúng tôi tại manhhungdigi.com (hoặc **spss.asia**) cung cấp dịch vụ xử lý số liệu chuyên nghiệp, đảm bảo kết quả chính xác, đáng tin cậy và diễn giải dễ hiểu.

Website: manhhungdigi.com hoặc spss.asia
Email: phantichso247@gmail.com
Số điện thoại: 0869786862
Kênh Youtube chia sẻ kiến thức về phân tích thống kê-SPSS-AMOS-SmartPLS: https://www.youtube.com/@manhhungdigi

Chúng tôi rất mong được hợp tác cùng bạn!