當前位置:首頁 > 文章中心>四大數據處理軟件介紹:Stata、SPSS、SAS、Eviews

四大數據處理軟件介紹:Stata、SPSS、SAS、Eviews

發布時間:2021-04-19 15:22:13 閱讀:1977 作者:致遠教育 字數:4919 字 預計閱讀時間:15分鐘
導讀:留學海外的小伙伴們多多少少都聽說過如下一些統計和計量軟件,如Stata,SPSS,SAS,Eviews,r等等。用哪一款軟件來完成自己定量研究論文的數據處理部分呢?本文將給大家做一個簡要的介紹。

留學海外的小伙伴們多多少少都聽說過如下一些統計和計量軟件,如eviews, spss, sas, stata, r等等。用哪一款軟件來完成自己定量研究論文的數據處理部分呢?本文將給大家做一個簡要的介紹。

數據處理插圖

1、Stata

Stata 與 SPSS、SAS 并稱為當今三大統計軟件。與后者相比,Stata 體積小巧、簡單易懂且功能強大。Stata 把 EViews, SPSS 的傻瓜式菜單和 SAS 的命令、編程完美結合起來,所以它一推出就受到了初學者和高級用戶的普遍歡迎。Stata 不僅在統計方面功能齊全,其在計量分析領域更是有著深刻影響,以至于有人一言以蔽之:“ 關于學習 Stata 的意義,大家只需知道:目前,Stata 是計量經濟學,特別是微觀計量經濟學的主流軟件。”

簡單易懂,可視化界面類似excel,操作方式多樣化(可以通過程序的便攜或者鼠標操作來實現操作);

數據管理能力比SAS弱一些。一般一次主要用于一個數據文件。同時,可以處理的單個數據文件收到內存大小的影響;

優勢在于回歸分析、Logistic分析、調差數據分析,但是在方差分析、多變量方法上較弱;

作圖功能強大;

許多計量分析的程序網上都有豐富的共享資源。

Stata界面

一般用法。Stata以其簡單易懂和功能強大受到初學者和高級用戶的普遍歡迎。使用時可以每次只輸入一個命令(適合初學者),也可以通過一個Stata程序一次輸入多個命令(適合高級用戶)。這樣的話,即使發生錯誤,也較容易找出并加以修改。

數據管理。盡管Stata的數據管理能力沒有SAS那么強大,它仍然有很多功能較強且簡單的數據管理命令,能夠讓復雜的操作變得容易。Stata主要用于每次對一個數據文件進行操作,難以同時處理多個文件。隨著Stata/SE的推出,現在一個Stata數據文件中的變量可以達到32,768,但是當一個數據文件超越計算機內存所允許的范圍時,你可能無法分析它。

統計分析。Stata也能夠進行大多數統計分析(回歸分析,logistic回歸,生存分析,方差分析,因子分析,以及一些多變量分析)。Stata最大的優勢可能在于回歸分析(它包含易于使用的回歸分析特征工具),logistic回歸(附加有解釋logistic回歸結果的程序,易用于有序和多元logistic回歸)。Stata也有一系列很好的穩健方法,包括穩健回歸,穩健標準誤的回歸,以及其他包含穩健標準誤估計的命令。此外,在調查數據分析領域,Stata有著明顯優勢,能提供回歸分析,logistic回歸,泊松回歸,概率回歸等的調查數據分析。它的不足之處在于方差分析和傳統的多變量方法(多變量方差分析,判別分析等)。

繪圖功能。正如SPSS,Stata能提供一些命令或鼠標點擊的交互界面來繪圖。與SPSS不同的是它沒有圖形編輯器。在三種軟件中,它的繪圖命令的句法是最簡單的,功能卻最強大。圖形質量也很好,可以達到出版的要求。另外,這些圖形很好的發揮了補充統計分析的功能,例如,許多命令可以簡化回歸判別過程中散點圖的制作。

總結。Stata較好地實現了使用簡便和功能強大兩者的結合。盡管其簡單易學,它在數據管理和許多前沿統計方法中的功能還是非常強大的。用戶可以很容易的下載到別人已有的程序,也可以自己去編寫,并使之與Stata緊密結合。

Stata 與 SPSS、SAS 并稱為當今三大統計軟件。與后者相比,Stata 體積小巧、簡單易懂且功能強大。Stata 把 EViews, SPSS 的傻瓜式菜單和 SAS 的命令、編程完美結合起來,所以它一推出就受到了初學者和高級用戶的普遍歡迎。Stata 不僅在統計方面功能齊全,其在計量分析領域更是有著深刻影響,以至于有人一言以蔽之:“ 關于學習 Stata 的意義,大家只需知道:目前,Stata 是計量經濟學,特別是微觀計量經濟學的主流軟件。” 在 Stata 中既可以使用類似 EViews, SPSS 的傻瓜式菜單的操作方式,也可以使用類似 SAS 的命令、編程的操作方式。

2、SPSS

SPSS logo

界面非常人性化, 類似excel,容易上手

數據文件最多4096個變量(相信小伙伴們的論文應該也用不了那么多的variables),記錄數量由磁盤空間決定;

優勢在于統計分析,例如方差分析,沒有文件方法,弱點在于計量分析,缺乏對于調查數據的分析;

程序本身比較大;

并非真正的計量軟件,主要為統計軟件

SPSS logo

一般用法。SPSS非常容易使用,故最為初學者所接受。它有一個可以點擊的交互界面,能夠使用下拉菜單來選擇所需要執行的命令。它也有一個通過拷貝和粘貼的方法來學習其“句法”語言,但是這些句法通常非常復雜而且不是很直觀。

數據管理。SPSS有一個類似于Excel的界面友好的數據編輯器,可以用來輸入和定義數據(缺失值,數值標簽等等)。它不是功能很強的數據管理工具(盡管SPS 11版增加了一些增大數據文件的命令,其效果有限)。SPSS也主要用于對一個文件進行操作,難以勝任同時處理多個文件。它的數據文件有4096個變量,記錄的數量則是由你的磁盤空間來限定。

統計分析。SPSS也能夠進行大多數統計分析(回歸分析,logistic回歸,生存分析,方差分析,因子分析,多變量分析,偏相關分析)。它的優勢在于方差分析(SPSS能完成多種特殊效應的檢驗)和多變量分析(多元方差分析,因子分析,判別分析等),SPSS11.5版還新增了混合模型分析的功能。其缺點是沒有穩健方法(無法完成穩健回歸或得到穩健標準誤),缺乏調查數據分析(SPSS12版增加了完成部分過程的模塊)。

繪圖功能。SPSS繪圖的交互界面非常簡單,一旦你繪出圖形,你可以根據需要通過點擊來修改。這種圖形質量極佳,還能粘貼到其他文件中(Word 文檔或Powerpoint等)。SPSS也有用于繪圖的編程語句,但是無法產生交互界面作圖的一些效果。這種語句比Stata語句難,但比SAS語句簡單(功能稍遜)。

總結。SPSS致力于簡便易行(其口號是“真正統計,確實簡單”),并且取得了成功。但是如果你是高級用戶,隨著時間推移你會對它喪失興趣。SPSS是制圖方面的強手,由于缺少穩健和調查的方法,處理前沿的統計過程是其弱項。

3、SAS

功能強大,可以編程;

可以同時處理多個數據文件,處理變量非常多,可以畫任何數據分析圖;

優質在于方差分析,混合模型分析,多變量分析,比較欠缺的在于有序以及logistic分析,文件方法,以及調查數據分析(如泊松分布等);

比較難掌握,因為需要自己編織程序來處理分析數據,如果程序由bug,用戶需要自己debug找出錯誤,但是這往往比較難;

占用磁盤空間非常大,大約2-3g;

還是那一句,對于沒有編程基礎的小伙伴可能入門比較難,容易打擊積極性

SAS logo

一般用法。SAS由于其功能強大而且可以編程,很受高級用戶的歡迎。也正是基于此,它是最難掌握的軟件之一。使用SAS時,你需要編寫SAS程序來處理數據,進行分析。如果在一個程序中出現一個錯誤,找到并改正這個錯誤將是困難的。

數據管理。在數據管理方面,SAS是非常強大的,能讓你用任何可能的方式來處理你的數據。它包含SQL(結構化查詢語言)過程,可以在SAS數據集中使用SQL查詢。但是要學習并掌握SAS軟件的數據管理需要很長的時間,在Stata或SPSS中,完成許多復雜數據管理工作所使用的命令要簡單的多。然而,SAS可以同時處理多個數據文件,使這項工作變得容易。它可以處理的變量能夠達到32,768個,以及你的硬盤空間所允許的最大數量的記錄條數。

統計分析。SAS能夠進行大多數統計分析(回歸分析,logistic回歸,生存分析,方差分析,因子分析,多變量分析)。SAS的最優之處可能在于它的方差分析,混合模型分析和多變量分析,而它的劣勢主要是有序和多元logistic回歸(因為這些命令很難),以及穩健方法(它難以完成穩健回歸和其他穩健方法)。盡管支持調查數據的分析,但與Stata比較仍然是相當有限的。

繪圖功能。在所有的統計軟件中,SAS有最強大的繪圖工具,由SAS/Graph模塊提供。然而,SAS/Graph模塊的學習也是非常專業而復雜,圖形的制作主要使用程序語言。SAS 8雖然可以通過點擊鼠標來交互式的繪圖,但不象SPSS那樣簡單。

總結。SAS適合高級用戶使用。它的學習過程是艱苦的,最初的階段會使人灰心喪氣。然而它還是以強大的數據管理和同時處理大批數據文件的功能,得到高級用戶的青睞。

4、Eviews

界面人性化上相對較弱,使用前最好花一些時間熟悉每個命令操作的程序語言;

數據處理功能比較弱;

優勢在于時間序列分析,但是其他的回歸分析,例如面板數據分析、數據處理、統計分析都是比較弱的;

軟件本身非常小,不占空間

Eviews界面

Q1 如何數據導入?

eviews支持多種格式的數據導入,大體操作步驟:點擊file-new-workfile.

Q2 面板數據,面板數據的輸入又怎么做呢?

首先要明確是做平衡面板數據分析還是非平衡面板數據分析,先介紹前者:

1.準備平衡面板數據集(如xls.txt文件);

2. file/new/workfile  建立工作文件;

3. 選擇unstructed/undated  填上時間序列數據的個數(observations);

4.選object/newobject/pool 輸入橫截面個體的ID;

5.導入數據集。導入數據后即可按照你的需要做各種面板數據分析

非平衡的,比如這個案例:

首先將數據在excel表中按企業排序,第一列為企業標識fcode,第二列為時間

1   1990

1   1991

1   1992

2   1990

2   1991

……

然后在eviews中分別通過object/new object/series 建立fcode 和year 兩個序列,將上述已排序的數據導入。下一步,雙擊菜單欄下方的range,在出現的對話框中左邊選擇workfile structure type為dated panel, 在ID series后輸入fcode, 在date series后輸入year, 右邊的對話框中保持上半部分不變,下半部分去掉所有的勾,然后點ok. 這樣會自動生成dateid序列,建立面板數據。其他變量的數據按一般方法輸入即可。

Q3 簡單的描述性統計操作,有方法么?

單擊某一序列,如"x",雙擊彈出該序列,在數據界面-view-graph可以進行作圖操作,比如線圖或者散點圖。作圖后右鍵-save graph to disk…選擇保存路徑即可。右鍵中還有很多可以對圖形做調整的,無論是調整橫軸還是添加文本,都需要先凍結作圖窗口(freeze)才可操作。

如果是多個變量作圖,直接在軟件最上端的菜單里選擇quick-graph,輸入需要作圖的變量,然后就和單序列一樣操作。如果還想獲得諸如均值這類的統計量,同樣點擊你需要知道的序列-view-descriptive statistics&test,即可得到均值,標準差,峰度等信息。

Q4 為什么要取對數,如何取對數?

平時在一些數據處理中,經常會把原始數據取對數后進一步處理。之所以這樣做是基于對數函數在其定義域內是單調增函數,取對數后不會改變數據的相對關系,取對數作用主要有:

1.縮小數據的絕對數值,方便計算。例如,每個數據項的值都很大,許多這樣的值進行計算可能對超過常用數據類型的取值范圍,這時取對數,就把數值縮小了,例如TF-IDF計算時,由于在大規模語料庫中,很多詞的頻率是非常大的數字。

2.取對數后,可以將乘法計算轉換為加法計算。

某些情況下,在數據的整個值域中的在不同區間的差異帶來的影響不同。也就是說,對數值小的部分差異的敏感程度比數值大的部分的差異敏感程度更高。

3.取對數之后不會改變數據的性質和相關關系,但壓縮了變量的尺度,數據更加平穩,也消弱了模型的共線性、異方差性等。

取對數的操作:quick\ generate series\ 

輸入新變量,比如 r=log( ),r就是取完對數后的序列

Q5 如何做相關分析?

在Eview中計算兩個序列的的協方差、相關系數和交叉相關系數分別選用covariances、correlations、cross correlation命令(如果版本中沒有correlations選項,可以先選擇covariances analysis,然后再點correlations)。需要注意的是Eviews在計算協方差和方差時,自由不是樣本個數N而不是N-1。

Q6 多元回歸分析怎么做?

通過quick-estimate equation可以到達方程估計的界面,在空白處輸入方程中所包含的變量,此處輸入的是因變量Y,自變量X和常數項C(一般情況下都會加上常數項)。在method中選擇LS(最小二乘法),一般點擊確定即可(也可以在OPTIONS中對一些細節做選擇)。如果要做樣本外預測,首先要擴充樣本:工作表中PROC/STUCTURE下面將DATA range進行了擴充,然后在equation窗口中點擊Forecast。

Q7 怎么檢驗異方差?有異方差怎么修正?

首先在EVIEWS中建立一個工作文件,然后建立一個序列對象如序列X,然后打開序列X,在VIEW菜單中有個選項CORRELOGRAM.....,選擇該選項后會得到另一個對話框,該對話框的左邊是選擇檢驗序列本身還是一階差分、二階差分后的結果(你自己選擇)。右邊指定滯后期,EVIEWS會根據你序列數據的多少設定一個數值,你可以使用默認值,再點擊OK即可得到檢驗結果,關鍵是看檢驗概率,如果檢驗概率小于顯著性水平就說明有自相關,反之亦然。

Q8 如何進行平穩性檢驗?

檢查序列平穩性的標準方法是單位根檢驗。有6種單位根檢驗方法:ADF檢驗、DFGLS檢驗、PP檢驗、KPSS檢驗、ERS檢驗和NP檢驗,其中ADF最為常用。

檢驗步驟(一般進行ADF檢驗要分3步): 

1) 對原始時間序列進行檢驗,此時第二項選level,第三項選None.如果沒通過檢驗,說明原始時間序列不平穩; 

2 )對原始時間序列進行一階差分后再檢驗,即第二項選1st difference,第三項選intercept,若仍然未通過檢驗,則需要進行二次差分變換; 

3 )二次差分序列的檢驗,即第二項選擇2nd difference ,第四項選擇Trend and intercept.一般到此時間序列就平穩了!

tips:

在進行ADF檢驗時,必須注意以下兩個實際問題: 

(1)必須為回歸定義合理的滯后階數,通常采用AIC準則來確定給定時間序列模型的滯后階數。在實際應用中,還需要兼顧其他的因素,如系統的穩定性、模型的擬合優度等。 

(2)可以選擇常數和線性時間趨勢,選擇哪種形式很重要,因為檢驗顯著性水平的 t 統計量在原假設下的漸近分布依賴于關于這些項的定義。 

Q9 如何做格蘭杰因果檢驗?

先做單位根檢驗,如果平穩可直接做格蘭杰,如果不平穩,做差分后在將兩序列做單位根,如果同階單整,做最小二成估計,將殘差存為新序列再做單位根,如果平穩可將差分后序列做格蘭杰。如果不平穩則不可做格蘭杰。如果不同階單整,則將其中一個再做差分,新序列就成同階單整。格蘭杰檢驗的滯后需要用VAR檢驗計算,根據AIC或SC選擇合適的滯后階。

在菜單欄里的quick-group statistic-granger causality test  然后會出現series list   在此輸入你要檢驗的變量后點擊ok進入lag specification畫面,選擇適當的滯后長度,點擊ok則有結果了。p值小于0.05就是有因果關系。

5、總結

每個軟件都有其獨到之處,也難免有其軟肋所在??偟膩碚f,SAS,Stata和SPSS是能夠用于多種統計分析的一組工具。通過Stat/Transfer可以在數秒或數分鐘內實現不同數據文件的轉換。而Eviews是計量經濟學軟件。計量經濟學更重視模型的建立,也就是用數據驗證模型。Eviews在建立模型求解上有許多獨特的優勢。如果只是做一些應用計量經濟模型和實證分析,eviews就比較符合要求,簡單易操作。如果你想通過混合模型來進行分析,你可以選擇SAS;進行logistic回歸則選擇Stata;若是要進行方差分析,最佳的選擇當然是SPSS。假如你經常從事統計和計量分析,強烈建議小伙伴們把上述軟件收集到你的工具包以便于數據處理。

我要評論

評論內容:

驗證碼:
驗證碼

911国产在线观看无码专区