科研論文寫作常見的統計學問題

學識都 人氣:3.02W

隨着醫學科研工作的深入,醫學統計學的應用越來越廣泛,下面是小編蒐集整理的科研論文寫作常見的統計學問題,供大家閱讀參考。

科研論文寫作常見的統計學問題

未交待清楚所用統計學方法

論文中所用的統計方法應在最後交待清楚。使用不正確的統計方法會得出錯誤的結論,所以統計方法交待不清或根本不予交待,會使讀者對論文結論的正確與否無法判斷。有的作者只提一句“經統計學處理”後就寫出結論,有的甚至於直接用P值說明問題了事。正確的做法應寫明具體的統計方法,如有特殊情況,還應說明是否採用了校正,這樣纔有說服力。嚴格地說,應寫明精確的統計量值和P值,如t值、F值、χ2值等,不應籠統地以P>0.05或P<0.05代替。此外,最好能交待所使用的計算工具與統計軟件名稱。

不考慮統計方法應用條件

每一種統計方法都有其適用條件。

在表示計量資料的平均水平時常用到平均數。然而平均數有算術平均數、幾何均數和中位數,各有其應用條件。應用均數時,必須首先確定數據爲正態分佈。如果數據是偏態分佈,仍用均數表示其平均水平勢必導致錯誤的結論。對於偏態分佈的數據,應該用幾何均數或中位數表示其平均水平。

t檢驗要求樣本來自正態總體,作兩樣本均數比較時還要求方差齊。如果不符合這些條件,則應考慮進行數據轉換或用非參數檢驗;當兩小樣本均數比較方差不齊時,可採用t檢驗。例如臨牀研究中常涉及病人的病程,有的論文中病程5d至24年的平均水平和離散度爲(311±613)年,這種標準差接近或大於均數的數據顯然屬於嚴重的正偏態,直接進行t檢驗,無疑是錯誤的。t檢驗不能用於三組或三組以上的組間比較,即使資料符合t檢驗的條件也是不行的。因爲一則將原來的多組整體設計割裂,失去了總變異和總剩餘誤差,與原設計思想不符;二則損失了部分信息,降低了檢驗效率。

對於三組或三組以上組間的均數或分佈的比較可以用以下方法:

(1) 如果各樣本來自正態總體,且方差齊,可用方差分析;

(2) 如果各樣本來自正態總體,但方差不齊,則可作數據轉換,待方差齊後再用方差分析;

(3) 如果各樣本分佈不清或分佈不明,則可考慮用秩和檢驗。

在t檢驗中,把配對設計的資料作成組比較的t檢驗,是常見的失誤之一。有的作者誤將配對數據分爲兩個獨立的組,分別設計兩組各自的均數,並按兩組均數作成組比較的t檢驗。這樣使原來只有差值之間的變異擴大爲“兩個樣本”各自的變異,錯誤地增大了標準差和標準誤差,同時樣本含量也從原來的對子數變成了“兩個樣本”的例數之和。其結果大多使t檢驗所得P值增大,可導致差異從有統計學意義變爲無統計學意義。

卡方檢驗中的計算公式較多,各有其適用條件,稍有不慎,即有誤用的可能,應根據實驗設計和資料性質進行正確選擇。

常見的失誤是:

(1) 四格表資料,當140時,沒有計算校正χ2值;

(2) 四格表資料,當T<1或n<40時,沒有選用四格表確切概率法;

(3) 行×列表資料,由於例數太少,致理論頻數太小,沒有采有適當的處理方法,而是直接計算χ2值,導致分析的偏性。例如兩組共計15例,就不宜用一般的卡方檢驗公式計算,應該使用確切概率法。

統計學基本概念不清

在作統計推斷時,對樣本例數有一定的要求,一般認爲,樣本例數太少,所得到的數值不穩定,不能輕易下結論。

統計學上,三組或以上的比較稱爲一攬子比較,在作這種比較時,應先將所有的組一起比較。在得出差別有統計學意義的基礎上,再進一步作兩兩比較或多個處理與同一對照組比較。論文中常見的`錯誤是將三組或以上組拆開分別作兩兩比較。正確的方法是:定量資料在方差分析P<0.05後,再用Q檢驗或Dunnett法作兩兩比較;定性變量在R×C表資料χ2檢驗P<0.05後,再作χ2分割法分析。

對於有序分類資料(即等級資料)的統計處理,在比較各處理組的效應有無差別時,宜用秩和檢驗、Rid2it分析或交叉積差法及等級相關法,但有些作者則誤用卡方檢驗,此時作卡方檢驗只能說明各處理組的效應在構成比上有無差異。

對於“率”與“比”的概念不清,會導致將構成比誤認爲是發病率、患病率、死亡率。這三種率均爲疾病統計指標,要做人羣的流行病學調查才能得到。在臨牀療效研究中,一般無法計算出這三種率。

相關回歸分析

相關分析是分析自變量x與因變量y的關係,醫學領域裏完全相關(相關係數r=1或-1)的事件極少。

有作者將一組變量既作爲自變量又作爲因變量,r=1,認爲有完全相關性,這說明對相關的概念還不十分清楚。不能把相關、迴歸關係直接看作因果關係。兩事物間有數量關係,可能是因果關係,也可能不存在因果關係,而僅僅是伴隨關係。

如果求得了兩個變量間數量關係的迴歸方程式,或算出了r,在做結論之前,應先作統計檢驗;若P>0.05,此迴歸方程並無實際意義。r的實際意義如何,還要看r絕對值的大小,因r的統計學檢驗,不論P值多麼小,只能提供兩個變量是否相關的信息,卻不提供相關是否密切的信息。相關的密切程度常以r的數值大小爲指標。r的絕對值越接近於1,兩變量的相關關係越密切;越接近0,越不密切。r的平方即r2(決定係數)也可表示因變量y與自變量x的關係密切程度,如果r2=0.22 =0.04,說明因變量y的變異中僅有4%與x有聯繫;此時若P<0.01,仍不能認爲兩者“明顯相關”。

統計說法不嚴格

統計學上對差異作是否有顯著性意義的推斷與日常生活中對差異作是否顯著的推斷完全是兩個概念。主觀感覺兩個樣本均數間的差異並不顯著而統計學上作出差異有顯著意義的推斷,主觀感覺兩個樣本均數間的差異很大而統計學作出其間差異無顯著意義的推斷都是有可能的。既往所用的“差異顯著”、“差異非常顯著”等字句,容易與日常生活判斷的字句相混淆,故現在一般認爲用“差異有或無統計學意義”較爲清楚明白。

對於假設檢驗的結果,不僅要恰當的解釋、正確地分析,還要準確地予以表達。差異有無統計學意義,在檢驗水準α=0.05時,一般是以P>0.05或P≤0.05爲界線,有作者的結果爲P>0.01,由此判斷差異無統計學意義,但P>0.01不一定就是P>0.05,也可能0.010.01同時也>0.05,才能判斷爲差異無統計學意義。還有作者的假設檢驗結果爲P=0.100000,雖然不能說是錯誤,可是不符合習慣用法。

數據統計不準確

文內所給出的各種數據及統計要準確無誤,不能前後有別。有論文的文題是45例患者,而在統計表中相加爲47例,但討論中又說是46例,究竟是多少例患者似乎論文作者自己也說不清,只好退修。對於相對數,當例數較少時,一定要有相應的絕對數,如有的組只有4例,治癒2例,即報道治癒率爲50%,這顯然是不妥的。在計算構成比或有些率時,一定要注意合計必須是100%,有的時候因爲四捨五入,合計爲99.18%或100.11%,此時要作調整。嚴格地說,要按有效數字的運算法則“四捨六入,逢五前位奇進偶舍”計算。數據錯誤多,說明作者缺乏嚴肅認真的科學態度。

統計表不規範

統計表的設計合理與否,對論文的質量和科學性有重大的影響。統計表存在的問題主要有:

(1) 表題過於簡略,甚至不寫表題;或過於繁瑣以及標題不確切;

(2) 標目過多,層次不清;

(3) 線條過多;

(4) 表內同一指標的小數位數不一致。

表題應扼要說明統計表的內容, 一般不宜超過15個字。橫標目說明各橫行數字的涵義,縱標目說明各縱列數字的涵義,必要時在橫、縱標目上可冠以總數目。通常把主語置於橫標目,謂語置於縱標目。表的線條宜少勿多,常用三線表;除頂線、底線以及隔開縱標目與數字的橫線外,其餘線條均可省去,絕對不要用豎線,特殊情況下加輔助橫線。表內數字一律用阿拉伯數字,同一指標的小數位數應一致,位次對齊。統計表強調以最小的篇幅說明最多的問題,避免一切不必要的線條與數字、符號和腳註,力戒繁瑣,且勿堆累。若用簡潔的文字已能說明問題,則儘量不用表。如用了統計表,則文中不宜再完全重複其數據,只需強調或描述其主要發現。同一資料,還要避免統計表與統計圖之間的重複。