Dữ liệu bảng – Panel Data là gì? Cách tạo trong Stata chỉ 5s – MOSL

5/5 – ( 3 bầu chọn )
Hello những bạn, có phải bạn đang gặp khó khăn vất vả vì không biết dữ liệu bảng – panel data là gì ? hay không biết cách nhận biết đâu là dữ liệu bảng – panel data ra làm thế nào. Hãy để Mosl. vn giúp những bạn hiểu và nhận ra bộ dữ liệu dạng bảng này trong vòng 5 s nhé .

1. Dữ liệu bảng – Panel Data là gì ?

Khái niệm dữ liệu bảng panel data là gì ? sẽ được lý giải ngắn gọn trong 3 chấm đầu dòng sau :

  • Trong thống kê và kinh tế lượng,

    dữ liệu bảng panel data

    hay dữ liệu đọc (longitudinal data) là loại dữ liệu đa chiều liên quan đến các phép đo theo thời gian. Dữ liệu bảng panel data là tập hợp con của dữ liệu theo chiều dọc.

  • Chú ý rằng bảng dữ liệu và dữ liệu bảng là hoàn toàn khác nhau nhé các bạn.
  • Dữ liệu chuỗi thời gian và dữ liệu chéo (cross-sectional) có thể được coi là các trường hợp đặc biệt của dữ liệu bảng chỉ ở một thứ nguyên (một thành viên hoặc cá nhân của nhóm cho cái trước, một mốc thời gian cho cái sau).

Ngắn gọn hơn thì dữ liệu bảng chính là tập hợp của hai loại dữ liệu chuỗi thời gian (time – series) và dữ liệu chéo (Cross-setional).

Tham khảo 2 bài viết: Dữ liệu chéo Cross-sectional là gì? và Dữ liệu chuỗi thời gian là gì

panel data là gìpanel data là gì

Làm thế nào để thu thập được Dữ liệu bảng panel data cho nghiên cứu?

  • Để thu thập dữ liệu bảng (panel data), các bạn phải thu thập được khoảng không gian (tức là các đối tượng ví dụ như công ty; quốc gia; …) và khoảng thời gian (tức khoảng thời gian mà bạn cần phải thu thập nằm trong giai đoạn quý, tháng hay nămg…) .

Ví dụ đơn thuần bạn hoàn toàn có thể tích lũy những dữ liệu của cùng những cá thể, công ty, tập đoàn lớn, trường học, thành phố, vương quốc … trong tiến trình từ năm 2000 đến 2020 là có được một bộ dữ liệu bảng ( panel data ) thật đơn thuần rồi nhé !

1.1.  Ưu nhược điểm của “Dữ liệu bảng – Panel data”

Dữ liệu bảng ( Panel data ) có 1 số ít ưu điểm như sau :

  • Dữ liệu bảng có thể mô hình hóa cả hành vi chung và hành vi cá nhân của các nhóm.
  • Dữ liệu bảng chứa nhiều thông tin hơn so với dữ liệu chuỗi thời gian và dữ liệu chéo.
  • Dữ liệu bảng cho phép chúng ta kiểm soát các yếu tố không quan sát được. Điều này có thể rất cần thiết để giảm sự thiên chệch trong ước lượng.
  • Thông thường có nhiều sự biến động trong dữ liệu bảng hơn dữ liệu chéo hoặc dữ liệu thời gian.
  • Sự biến động trong dữ liệu bảng là nhiều nên làm độ chính xác của các ước lượng càng cao.

Nắm được Ưu điểm của Panel data là gì rồi nhưng còn điểm yếu kém không biết ở đâu phải hông ?

  • Thật ra nhược điểm của panel data nằm ở tính chất của nó và làm nó không thể thực hiện được với dữ liệu thời gian (như cách mà dữ liệu chuỗi thời gian đã làm) điều đó là hiển nhiên rồi.
  • Nhược điểm tiếp là dữ liệu bảng chỉ phục vụ cho dữ liệu tách biệt từng cá thể tức không lặp lại trong 1 cá thể nào trong mẫu dữ liệu, nếu không là bị lỗi nha.
  • Dữ liệu bảng có nhược điểm là luôn dính các khuyết tật và nổi bật nhất là 2 khuyết tật hiện tượng phương sai sai số thay đổi và hiện tượng tự tương quan, xa hơn thì là nội sinh trong mô hình…

Hết rồi đó còn nữa bạn tham khảo thêm tài liệu nước ngoài nhé, nếu chưa biết hiện tượng phương sai sai số thay đổi hay tự tương quan là gì tham khảo 2 bài viết 1 để link trong từng khuyết tật rồi đó nha.

1.2. Ví dụ về “Dữ liệu bảng – Panel Data”

Field Example topics Example dataset
Kinh tế vi mô GDP ở nhiều quốc gia, Tỷ lệ thất nghiệp ở các bang khác nhau, Nghiên cứu động thái thu nhập, số dư tài khoản vãng lai quốc tế. Panel Study of Income Dynamics (PSID)
Kinh tế vĩ mô Bảng thương mại quốc tế, bảng kinh tế xã hội thế giới, bảng tỷ giá tiền tệ. Penn World Tables
Dịch tễ học và Thống kê Y tế Dữ liệu bảo hiểm y tế công cộng, dữ liệu tỷ lệ sống sót sau bệnh tật, dữ liệu về sự phát triển và sức khỏe của trẻ em. Medical Expenditure Panel Survey
Tài chính Giá cổ phiếu theo công ty, biến động thị trường theo quốc gia hoặc công ty. Global Market Indices

Dữ liệu bảng – Panel data là gì?

1.3. Mô hình “Balanced Panel Data” và “Unbalanced Panel Data”

Dữ liệu bảng (panel data) cũng có thể được mô tả là dữ liệu bảng không cân bằng (Unbalanced Panel Data) hoặc dữ liệu bảng cân bằng (Balanced Panel Data):

Hiểu được Balanced Panel Data và Unbalanced Panel Data:

  • Tập dữ liệu bảng cân bằng (Balanced Panel Data): có cùng số lượng quan sát đầy đủ cho tất cả các nhóm.
  • Tập dữ liệu bảng không cân bằng (Unbalanced Panel Data): có các giá trị bị thiếu tại một số thời điểm quan sát đối với một số nhóm.

Một số lưu ý khi sử dụng dữ liệu bảng:

  • Hãy cố gắng thu thập đủ đối tượng (N) với số lượng thời gian (T) sao cho N > T.
  • Một số kiểm định sẽ bị lỗi khi dữ liệu bảng (panel data) là Unbalanced Data.

2. Mẹo phân biệt “ Dữ liệu bảng – Panel data ” trong 5 s

Panel data là gì Panel data là gì

Như đã hứa ở đầu bài MOSL sẽ giúp bạn nhận biết dữ liệu bảng chỉ trong 5 giây với:

  • Mục

    bôi đỏ

    thể hiện cho không gian tức thể hiện cho 2 quốc gia đó là Cambodia và Indonesia;

  • Mục bôi vàng thể hiện cho khoảng thời gian từ năm 2000 đến năm 2006 của mỗi quốc gia.

Vậy đấy nhận ra dữ liệu bảng panel data rất đơn thuần phải không những bạn ?

Nếu để ý kĩ hơn bạn sẽ thấy sự kết hợp giữa dữ liệu chéo (cross-sectional) và dữ liệu chuỗi thời gian trong mô hình. Cụ thể dữ liệu chéo ở đây chính là hai quốc gia Cambodia và Indonesia và dữ liệu thời gian ở đây chính là thời gian chúng ta thêm vào.

Ví dụ nếu bỏ đi vương quốc Indonesia thì trong bảng dữ liệu chỉ còn Cambodia cùng với thời hạn từ 2000 đến 2006 – vậy đây là dữ liệu thời hạn ; ngược lại nếu bỏ thời hạn hết đi chỉ giữ lại Country gồm 2 vương quốc trên thì bảng dữ liệu sẽ là dữ liệu chéo. Cực kỳ đơn thuần phải không ạ !

Giải quyết xong các câu hỏi panel data là gì và cách nhận biết panel data là gì và như thế nào rồi ta tiến hành đi vào cách sử dụng dữ liệu bảng panel data là gì trong phần mềm Stata ở phần tiếp nào.

Xem thêm: Cách đọc bảng kết quả Stata nếu chưa biết nè

2.1. Cách tạo dữ liệu bảng panel data trong phần mềm Stata

Panel data là gìPanel data là gì

Xem hướng dẫn nhập dữ liệu vào phần mềm Stata này nếu chưa biết để làm phần bôi đen bên dưới nha.

Sau khi import dữ liệu vào phần mềm Stata thì hãy thực hiện 2 bước sau:

  • Trước tiên, bạn cần phải mã hoá biến không gian (Country) từ kiểu string ban đầu thành dữ liệu kiểu long để Stata có thể hiểu và bắt đầu set up không gian cho dữ liệu.

Câu lệnh đơn giản như sau: “encode Country, gen(country)“ (Lưu ý bạn có thể gen đổi thành bất cứ tên gì bạn muốn để tiện trong quá trình trình bày của mình)

  • Bước tiếp theo, hãy nhớ set up không gian (Country) và thời gian (Year) để Stata hiểu với lệnh:

Lệnh: “xtset country Year” (Lưu ý: country ở đây chính là biến đã được mã hoá ở lệnh trước)

Tham khảo thêm: Hướng dẫn sử dụng phần mềm Stata

Khi đã hiểu được dữ liệu bảng panel data là gì thì việc nhập vào Stata dễ phải không nhỉ ? Kể cả dữ liệu chéo là gì hay những khải niệm tựa như cũng không gây khó dễ ta được .

2.2. Các mô hình nổi bật trong xử lý dữ liệu bảng là gì? – Panel data

Hai mô hình nổi bật để xử lý dữ liệu bảngmô hình các tác động cố định (FEM)mô hình các tác động ngẫu nhiên (REM).

  • Trong FEM, mô hình này được sử dụng thường xuyên trong dữ liệu bảng để lựa chọn và so sánh với REM trong mô hình nhằm lựa chọn được mô hình tối ưu cho nghiên cứu.
  • Trong REM, mô hình này luôn đi chung với FEM trong các nghiên cứu và cũng được đem ra so sánh với nhau bằng kiểm định Hausman Test để tìm ra được mô hình tối ưu cho nghiên cứu.

Ngoài ra còn có những quy mô nâng cao khác như quy mô Pooled OLS, GLS, GMM, IV, 2SLS, 3SLS, .. sẽ được bàn trong những phần tiếp theo .

3. Các quy mô dữ liệu bảng động panel data

3.1. Mô hình hiệu ứng cố định một chiều (FE – Fixed Effect Model Oneway) là gì?

Mô hình dữ liệu bảng hiệu ứng cố định và thắt chặt một chiều :

  • Bao gồm các hiệu ứng theo thời gian cụ thể hoặc theo từng cá nhân không thể quan sát được. Các hiệu ứng này nắm bắt các biến bị bỏ qua.
  • Giả định rằng các tác động cụ thể của từng cá nhân có tương quan với các đặc điểm quan sát được, xtôit
  • Các ước tính OLS tổng hợp cho dữ liệu được tạo bởi quá trình này sẽ không nhất quán.

 Mô hình hiệu ứng cố định một chiều (FE) Mô hình hiệu ứng cố định một chiều (FE)

Để hiểu rõ hơn xin tham khảo bài viết Mô hình hiệu ứng cố định (FEM) của Mosl

3.2. Mô hình hệ số ngẫu nhiên một chiều là gì? (RE – Random Effecr Model Oneway)

Các một chiều quy mô dữ liệu hiệu ứng ngẫu nhiên panel :

  • Bao gồm các hiệu ứng theo thời gian cụ thể hoặc theo từng cá nhân không thể quan sát được,δztôi, hoạt động giống như các thuật ngữ lỗi ngẫu nhiên cụ thể cho từng cá nhân.
  • Giả định rằng những tác động này không tương quan với các đặc điểm quan sát được,xtôit.
  • Không dẫn đến các ước lượng OLS sai lệch về hệ số nhưng dẫn đến các tham số không hiệu quả và các công cụ suy luận tiêu chuẩn không chính xác.

Mô hình hiệu ứng ngẫu nhiênMô hình hiệu ứng ngẫu nhiên

Để hiểu rõ hơn xin tham khảo bài viết Mô hình hiệu ứng ngẫu nhiên (REM) của Mosl

3.3. Mô hình Hệ số Ngẫu nhiên là gì? RC (Random Coefficients Model)

image 77 Mô hình Hệ số Ngẫu nhiên Các hồi quy dữ liệu bảng ( panel data ) là gì ? mà Mosl đã xem xét cho đến nay đều giả định rằng những thông số trên những hồi quy là giống nhau trên tổng thể những cá thể .
Mô hình thông số ngẫu nhiên thả lỏng giả định này và đưa ra những hiệu ứng đơn cử cho từng cá thể trải qua thông số .

3.4. Mô hình Hiệu ứng Cố định Hai chiều là gì? (FE – Fixed Effect Model Twoway)

Giống như quy mô hiệu ứng cố định và thắt chặt một chiều, quy mô này hoàn toàn có thể được ước tính bằng cách gồm có những biến giả. Tuy nhiên, trong quy mô hiệu ứng cố định và thắt chặt hai chiều, những biến giả phải được đưa vào cho cả những khoảng chừng thời hạn và những nhóm .
Trong hầu hết những trường hợp, số lượng biến giả được đưa vào quy mô hiệu ứng cố định và thắt chặt hai chiều làm cho việc ước đạt bình phương nhỏ nhất thường thì tiêu chuẩn trở nên quá khó khăn vất vả về mặt giám sát. Thay vào đó, quy mô tác động ảnh hưởng cố định và thắt chặt hai chiều được ước tính bằng cách sử dụng công cụ ước tính trong nhóm vô hiệu sự biến hóa cả trong nhóm và trong khoảng chừng thời hạn .

3.5. Mô hình hiệu ứng ngẫu nhiên hai chiều là gì? (RE – Random Effecr Model Twoway)

Đối với dữ liệu được tạo ra bởi quy trình này :

  • Các ước tính OLS tổng hợp sẽ không thiên vị. Tuy nhiên, các ước lượng sẽ không hiệu quả và các sai số tiêu chuẩn liên quan và thống kê t sẽ bị sai lệch.
  • Giống như mô hình tác động ngẫu nhiên một chiều, mô hình tác động ngẫu nhiên hai chiều có thể được ước tính bằng cách sử dụng bình phương nhỏ nhất tổng quát khả thi (FGLS) hoặc ước tính khả năng xảy ra tối đa (MLE).

3.6. Mô hình dữ liệu bảng điều khiển động – Dynamic Panel Data là gì?

Một thành phần quan trọng của quy mô chuỗi thời hạn thuần túy là quy mô hóa động lực học bằng cách sử dụng những biến nhờ vào trễ. Các biến trễ này ghi lại sự tự đối sánh tương quan giữa những quan sát của cùng một tập dữ liệu tại những thời gian khác nhau .
Bởi vì tập dữ liệu bảng gồm có một thành phần chuỗi thời hạn, điều quan trọng là phải xử lý năng lực tự đối sánh tương quan trong dữ liệu bảng. Mô hình dữ liệu bảng điều khiển và tinh chỉnh động bổ trợ động lực học vào khuôn khổ hiệu ứng riêng không liên quan gì đến nhau của dữ liệu bảng tinh chỉnh và điều khiển .
Giới thiệu những biến nhờ vào trễ trong khung ảnh hưởng tác động riêng không liên quan gì đến nhau :

  • Bình phương nhỏ nhất thông thường (OLS) sẽ dẫn đến ước lượng sai lệch vì tương quan nối tiếp.
  • Các mô hình dữ liệu bảng động được ước tính phổ biến nhất bằng cách sử dụng phương pháp tổng quát về khung thời điểm (GMM) do Arellano và Bond (1991) đề xuất.

Xong nha ngoài panel data là gì Mosl đã ra mắt thêm khá nhiều dữ liệu bảng những loại khác mong bạn đọc tìm hiểu thêm và vận dụng .

4. Video hướng dẫn cách khai báo dữ liệu bảng trong ứng dụng Stata

Panel data hay dữ liệu bảng là gì? Cách khai báo dữ liệu bảng trong STATA

5. Kết luận

Dưới đây MOSL đã hướng dẫn cho các bạn biết dữ liệu bảng – panel data là gì; làm sao để nhận biết dữ liệu bảng (panel data) và tạo dữ liệu bảng (panel data) trong phần mềm stata;..

Sau blog ngày hôm nay, bạn sẽ hiểu được những nguyên tắc cơ bản của dữ liệu bảng panel data là gì gồm :

  • Panel data là gì
  • Cấu trúc của chuỗi dữ liệu bảng điều khiển.
  • Chuỗi dữ liệu bảng rộng so với bảng dài.
  • Mô hình dữ liệu bảng hiệu ứng riêng lẻ một chiều.
  • Mô hình dữ liệu bảng hiệu ứng riêng lẻ hai chiều.
  • Các mô hình dữ liệu bảng động.
  • Bên cạnh bổ sung thêm các dữ liệu khác như dữ liệu chéo là gì, dữ liệu chuỗi thời gian là gì,..

Cuối bài MOSL xin chúc những bạn học tập và thao tác hiệu suất cao .

Nhớ sử dụng Dịch vụ chạy Stata và Xử lý số liệu của Mosl để tiết kiệm thời gian hơn nhé!

Tag: Dữ liệu bảng panel data là gì – panel data là gì – panel data là gì – panel data là gì

Dữ liệu bảng – Panel Data là gì? Cách tạo trong Stata chỉ 5s – MOSL

Bài viết liên quan
Hotline 24/7: O984.666.352
Alternate Text Gọi ngay