秩和檢驗的效能評估方法主要有以下幾種:
一、模擬研究法
建立模型:
根據實際問題設定數據生成模型,包括總體分布類型(可以是各種不同的分布)、參數取值、樣本量大小、處理效應等。例如,假設總體為偏態分布,設定均值、標準差等參數,確定兩個比較組的差異程度。
生成數據:
使用計算機程序根據設定的模型生成大量的模擬數據集。例如,生成 1000 組或更多的樣本數據,每組數據包含兩個獨立樣本或多個樣本,樣本量可以根據實際研究情況設定。
進行秩和檢驗:
對每個模擬數據集進行秩和檢驗,記錄檢驗結果,如是否拒絕原假設(即是否檢測到差異)。例如,使用 Wilcoxon 秩和檢驗或 Kruskal-Wallis 檢驗,根據計算得到的統計量和對應的 P 值判斷是否拒絕原假設。
評估效能:
根據多次模擬的結果,計算秩和檢驗在特定條件下的效能。效能通常定義為在給定的顯著性水平下,正確拒絕原假設的比例。例如,如果在 1000 次模擬中,有 800 次正確拒絕了原假設,那么該秩和檢驗的效能就是 800/1000 = 0.8。
二、理論推導法
基于漸近分布:
對于一些常見的秩和檢驗方法,如 Wilcoxon 秩和檢驗和 Kruskal-Wallis 檢驗,在大樣本情況下可以利用漸近分布理論來近似計算檢驗效能。例如,根據中心極限定理,當樣本量足夠大時,秩和檢驗統計量近似服從正態分布,可以通過推導得到在給定參數條件下的檢驗效能表達式。
利用已有公式:
對于某些特定的情況,可以利用已有的統計公式來估算秩和檢驗的效能。例如,在配對設計的 Wilcoxon 符號秩檢驗中,可以根據樣本量、差值的分布特征等參數,利用相關的效能計算公式進行估算。
三、實際數據驗證法
回顧性研究:
利用已有的實際數據集進行分析,這些數據集應具有已知的差異或處理效應。例如,在醫學研究中,可以使用已有的臨床數據,其中不同治療組的療效差異是已知的或者經過長期觀察確定的。
分割樣本法:
將一個較大的實際數據集隨機分成兩部分,一部分作為訓練集,另一部分作為測試集。在訓練集上進行秩和檢驗,確定檢驗方法和參數,然后在測試集上驗證檢驗的效能。例如,將一組患者的醫療數據隨機分成兩部分,先在一部分數據上確定合適的秩和檢驗方法和顯著性水平,然后用另一部分數據來評估該方法的效能。
比較不同方法:
將秩和檢驗與其他已知效能的方法進行比較,通過實際數據的分析來評估秩和檢驗的相對效能。例如,將秩和檢驗與參數檢驗方法(如 t 檢驗或方差分析)在同一組實際數據上進行比較,觀察在不同條件下兩種方法的表現,從而評估秩和檢驗的效能。