Quy Trình Chạy Hồi Quy Tuyến Tính Đa Biến Trong SPSS

Hồi quy tuyến tính đa biến (Multiple Linear Regression) là một trong những kỹ thuật phân tích thống kê mạnh mẽ và được sử dụng rộng rãi nhất trong nghiên cứu khoa học, đặc biệt trong các lĩnh vực kinh tế, quản lý, khoa học xã hội và y học. Kỹ thuật này giúp chúng ta dự đoán giá trị của một biến phụ thuộc định lượng dựa trên giá trị của hai hay nhiều biến độc lập định lượng hoặc định tính. Trong **SPSS**, việc chạy hồi quy tuyến tính đa biến khá đơn giản, nhưng để đảm bảo kết quả chính xác và đáng tin cậy, bạn cần tuân thủ một quy trình nhất định, bao gồm kiểm tra các giả định và diễn giải kết quả một cách hợp lý. Bài viết này sẽ hướng dẫn bạn quy trình chi tiết để thực hiện phân tích này trong SPSS.

1. Hiểu Về Hồi Quy Tuyến Tính Đa Biến

Mục tiêu của hồi quy tuyến tính đa biến là tìm ra mối quan hệ tuyến tính giữa biến phụ thuộc (Y) và các biến độc lập (X1, X2, …, Xk). Phương trình tổng quát có dạng:

BÁO GIÁ SIÊU TỐC TRONG 5-15 PHÚT

Nếu bạn cần dịch vụ hỗ trợ về dữ liệu, chỉ cần nhắn Zalo và cung cấp thông tin bài. Bạn sẽ nhận được báo giá chi tiết chỉ sau 5-15 phút.

* Lưu ý: Mọi báo giá trên website chỉ là tham khảo do tính chất các bài hoàn toàn khác nhau:

  • Cùng các bước chạy nhưng 3 giả thuyết độ khó khác bài 10 giả thuyết.
  • Sửa dữ liệu đã đạt 5/6 bước sẽ khác bộ chỉ mới đạt 3/6 bước.
  • Cùng một mô hình nhưng trình tự và yêu cầu khác nhau tạo ra độ khó khác nhau.

$Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + … + \beta_k X_k + \epsilon$

  • $Y$: Biến phụ thuộc (Dependent Variable) – phải là biến định lượng (scale).
  • $X_i$: Các biến độc lập (Independent Variables) – có thể là biến định lượng (scale) hoặc biến định tính (nominal/ordinal) đã được mã hóa thành biến giả (dummy variables).
  • $\beta_0$: Hằng số (Intercept).
  • $\beta_i$: Hệ số hồi quy cho từng biến độc lập, cho biết mức độ thay đổi của Y khi Xi thay đổi một đơn vị, trong khi các biến độc lập khác được giữ nguyên.
  • $\epsilon$: Sai số ngẫu nhiên.

2. Các Giả Định Của Hồi Quy Tuyến Tính Đa Biến

Trước khi chạy hồi quy, việc kiểm tra các giả định là cực kỳ quan trọng để đảm bảo tính hợp lệ của kết quả. Nếu các giả định bị vi phạm, kết quả có thể không đáng tin cậy.

2.1. Tính tuyến tính (Linearity)

Mối quan hệ giữa biến phụ thuộc và các biến độc lập phải là tuyến tính. Bạn có thể kiểm tra bằng cách vẽ biểu đồ phân tán (scatterplot) giữa biến phụ thuộc với từng biến độc lập, hoặc giữa phần dư chuẩn hóa với giá trị dự đoán chuẩn hóa (sẽ được tạo ra trong quá trình chạy hồi quy).

2.2. Không đa cộng tuyến (No Multicollinearity)

Các biến độc lập không được tương quan quá cao với nhau. Điều này được kiểm tra bằng chỉ số VIF (Variance Inflation Factor) và Tolerance. VIF < 10 (thường là < 5 là tốt) và Tolerance > 0.1 (thường là > 0.2 là tốt) là chấp nhận được.

2.3. Tính độc lập của phần dư (Independence of Residuals)

Các sai số (phần dư) phải độc lập với nhau, không có sự tương quan giữa chúng. Giả định này thường được kiểm tra bằng kiểm định Durbin-Watson (giá trị từ 1.5 đến 2.5 là chấp nhận được, gần 2 là tốt nhất).

2.4. Phân phối chuẩn của phần dư (Normality of Residuals)

Phần dư phải có phân phối chuẩn. Kiểm tra bằng biểu đồ tần số của phần dư chuẩn hóa, biểu đồ P-P Plot hoặc Q-Q Plot, hoặc các kiểm định thống kê như Kolmogorov-Smirnov hoặc Shapiro-Wilk (tuy nhiên, với cỡ mẫu lớn, vi phạm nhẹ về tính chuẩn của phần dư thường không quá nghiêm trọng).

2.5. Phương sai sai số không đổi (Homoscedasticity)

Phương sai của các sai số phải là hằng số trên tất cả các mức giá trị dự đoán của biến phụ thuộc. Kiểm tra bằng biểu đồ phân tán giữa phần dư chuẩn hóa (ZRESID) và giá trị dự đoán chuẩn hóa (ZPRED). Các điểm phải phân tán ngẫu nhiên, không tạo thành hình quạt hay hình phễu.

2.6. Không có giá trị ngoại lai (No Outliers)

Dữ liệu không nên có các giá trị ngoại lai gây ảnh hưởng lớn đến mô hình. Kiểm tra bằng khoảng cách Mahalanobis, Cook’s distance hoặc leverage values.

3. Quy Trình Chạy Hồi Quy Tuyến Tính Đa Biến Trong SPSS

Sau khi đã chuẩn bị dữ liệu và hiểu rõ các giả định, bạn có thể tiến hành chạy hồi quy trong SPSS theo các bước sau:

3.1. Thiết lập phân tích

  • Vào menu: **Analyze > Regression > Linear…**
  • Hộp thoại “Linear Regression” sẽ xuất hiện.
  • Chuyển biến phụ thuộc của bạn vào ô **”Dependent”**.
  • Chuyển tất cả các biến độc lập vào ô **”Independent(s)”**.
  • Chọn phương pháp “Enter” trong mục “Method” (đây là phương pháp mặc định, đưa tất cả các biến vào mô hình cùng lúc). Các phương pháp khác như Stepwise, Forward, Backward được dùng cho mục đích khám phá.

3.2. Cài đặt tùy chọn thống kê (Statistics)

  • Nhấp vào nút **”Statistics…”**.
  • Trong mục “Regression Coefficients”, chọn:
    • **Estimates:** Để hiển thị hệ số hồi quy Beta, sai số chuẩn và giá trị sig.
    • **Confidence intervals:** Khoảng tin cậy cho hệ số Beta (thường là 95%).
    • **Model fit:** Để hiển thị R, R-squared và Adjusted R-squared.
    • **Descriptives:** Để có các thống kê mô tả cơ bản của các biến.
    • **Part and partial correlations:** Để xem mối tương quan riêng phần.
    • **Collinearity diagnostics:** RẤT QUAN TRỌNG để kiểm tra đa cộng tuyến (VIF và Tolerance).
    • **Durbin-Watson:** RẤT QUAN TRỌNG để kiểm tra tính độc lập của phần dư.
  • Nhấn **”Continue”**.

3.3. Cài đặt biểu đồ (Plots) để kiểm tra giả định

  • Nhấp vào nút **”Plots…”**.
  • Chuyển **ZRESID** (Standardized Residual) vào trục Y.
  • Chuyển **ZPRED** (Standardized Predicted Value) vào trục X. (Biểu đồ này dùng để kiểm tra tính đồng nhất phương sai và tính tuyến tính).
  • Trong mục “Standardized Residual Plots”, chọn:
    • **Histogram:** Để kiểm tra tính chuẩn của phần dư (hình dạng chuông).
    • **Normal P-P plot:** Cũng để kiểm tra tính chuẩn của phần dư (các điểm nằm gần đường chéo).
  • Nhấn **”Continue”**.

3.4. Cài đặt Lưu (Save)

  • Nhấp vào nút **”Save…”**.
  • Trong mục “Residuals”, chọn **Unstandardized** và **Standardized**. (Để lưu các giá trị phần dư vào tập dữ liệu).
  • Trong mục “Predicted Values”, chọn **Unstandardized** và **Standardized**. (Để lưu các giá trị dự đoán vào tập dữ liệu).
  • Nhấn **”Continue”** rồi **”OK”** để chạy phân tích.

4. Diễn Giải Kết Quả Hồi Quy Tuyến Tính Đa Biến

Sau khi chạy, SPSS sẽ xuất ra nhiều bảng kết quả quan trọng:

4.1. Bảng Descriptives Statistics

Hiển thị giá trị trung bình, độ lệch chuẩn, cỡ mẫu của các biến.

4.2. Bảng Correlations

Cho thấy mối tương quan giữa các cặp biến. Hữu ích để xem mối quan hệ ban đầu.

4.3. Bảng Model Summary

  • **R:** Hệ số tương quan đa bội giữa biến phụ thuộc và tất cả các biến độc lập.
  • **R Square ($R^2$):** Hệ số xác định, cho biết phần trăm phương sai của biến phụ thuộc được giải thích bởi các biến độc lập trong mô hình. Giá trị càng cao càng tốt (ví dụ: $R^2$ = 0.50 nghĩa là 50% sự biến thiên của Y được giải thích bởi các X).
  • **Adjusted R Square (R$R^2$ hiệu chỉnh):** Hệ số $R^2$ đã được điều chỉnh theo số lượng biến độc lập và cỡ mẫu, thường dùng để so sánh giữa các mô hình khác nhau.
  • **Durbin-Watson:** Kiểm tra tính độc lập của phần dư (giá trị từ 1.5 đến 2.5 là tốt).

4.4. Bảng ANOVA (Analysis of Variance)

  • Kiểm định sự phù hợp tổng thể của mô hình.
  • Giá trị **Sig.** (p-value) < 0.05 (hoặc mức ý nghĩa bạn chọn) cho thấy mô hình hồi quy là có ý nghĩa thống kê, tức là ít nhất một biến độc lập có ảnh hưởng đến biến phụ thuộc.

4.5. Bảng Coefficients

Đây là bảng quan trọng nhất, chứa các hệ số hồi quy:

  • **Unstandardized Coefficients (B):** Hệ số hồi quy chưa chuẩn hóa. Cho biết sự thay đổi của Y khi Xi thay đổi một đơn vị, giữ các biến khác không đổi. Dùng để viết phương trình hồi quy.
  • **Standardized Coefficients (Beta):** Hệ số hồi quy đã chuẩn hóa. Cho phép so sánh mức độ quan trọng tương đối của từng biến độc lập trong việc giải thích biến phụ thuộc (biến nào có Beta tuyệt đối lớn hơn thì quan trọng hơn).
  • **Std. Error:** Sai số chuẩn của hệ số hồi quy.
  • **t-value:** Giá trị t-kiểm định.
  • **Sig.:** Giá trị p-value tương ứng với t-kiểm định. Nếu Sig. < 0.05 (hoặc mức ý nghĩa bạn chọn), thì biến độc lập đó có ý nghĩa thống kê trong việc giải thích biến phụ thuộc.
  • **Collinearity Statistics (Tolerance và VIF):** Kiểm tra đa cộng tuyến. Tolerance > 0.1 và VIF < 10 là chấp nhận được.

4.6. Biểu đồ (Charts)

Xem xét biểu đồ Histogram và Normal P-P Plot của phần dư để kiểm tra tính chuẩn. Biểu đồ Scatterplot của ZRESID vs ZPRED để kiểm tra tính đồng nhất phương sai và tính tuyến tính.

Chạy hồi quy tuyến tính đa biến trong SPSS đòi hỏi sự cẩn trọng từ khâu chuẩn bị dữ liệu, kiểm tra giả định cho đến diễn giải kết quả. Việc nắm vững quy trình này sẽ giúp bạn thực hiện phân tích một cách chính xác và hiệu quả, góp phần vào thành công của nghiên cứu.

Bạn cần hỗ trợ xử lý và phân tích dữ liệu chuyên sâu với SPSS, AMOS, hay SmartPLS?

Nếu bạn đang gặp khó khăn trong quá trình chạy hồi quy, kiểm tra giả định, diễn giải kết quả, hoặc cần hỗ trợ toàn diện trong quá trình xử lý số liệu và phân tích thống kê cho luận văn, luận án hay các dự án nghiên cứu, đừng ngần ngại liên hệ với chúng tôi!

Chúng tôi tại manhhungdigi.com (hoặc **spss.asia**) cung cấp dịch vụ xử lý số liệu chuyên nghiệp, đảm bảo kết quả chính xác, đáng tin cậy và diễn giải dễ hiểu.

Website: manhhungdigi.com hoặc spss.asia
Email: phantichso247@gmail.com
Số điện thoại: 0869786862
Kênh Youtube chia sẻ kiến thức về phân tích thống kê-SPSS-AMOS-SmartPLS: https://www.youtube.com/@manhhungdigi

Chúng tôi rất mong được hợp tác cùng bạn!