常見的顯著差異,到底有什麼意義?

我們常常在報告或看論文、研討會時,聽到講者會提到 “有差”、”顯著差異”、”統計上有顯著差異” 這回事,比方說:

“在這樣的處理下,A與B兩組的結果有差”

“作者認為A、B兩組的p<0.05,有顯著差異”

恩,那有差、顯著差異到底是 “差” 甚麼? 顯著差異是真的有差嗎?

這篇文章帶你來看這個問題

我們怎麼描述 “差異” 這件事?

[實驗設計] — 實驗圖表好雜亂? 如何用4種圖表從宏觀到微觀的整理與呈現實驗數據[思維框架] — 你真的知道自己在做什麼嗎? 從3方面談研究生如何精確嚴謹的看待研究與論證過程兩篇文章中,我們大致提過做實驗並確定假說的順序,以下大致列一下:

  1. 決定要觀察的因子
  2. 設定各因子的水準、取樣樣本數、觀測值數
  3. 執行實驗
  4. 整理生數據raw data
  5. 統計推論
  6. 生物意義推論

可以看出來,我們想得到6.生物意義的推論前,必須要先由5.的統計推論來的到各因子間的關係,在藉由這些關係來推論6.。而各因子間的關係,最常見的表現形式就是 “因子的存在或多寡,是否會影響到觀測值的變化“,這稱為 “因子的處理效應”

也就是說,實驗其實是透過 “比較兩者差異” 來判定該往哪裡走的過程,我們透過描述兩個現象、物體間的差異,再加上各種因素 (時間先後的 “時序”、各種元素的 “結構”) 的交互作用,綜合判斷出各種要素對現象造成的影響,以及要素間的關係

至於如何描述兩者的差異,最核心的概念就是兩個:在哪裡,離多散

核心概念:在哪裡,離多散

在哪裡

描述一個物體,總是要告訴人們他處在什麼位置、現在大小是多少,這是一個描述單一物體自身性質的概念

比方,我現在60公斤,是體重量表上的概念。在台北車站,是一個在某個經緯度的概念

我們也可以用同樣方式描述族群的性質,比方豆莢平均長度為20cm,也是在長度量尺上的 “在20cm處” 的概念

這些概念可以用眾數(多數人在哪裡)、中位數(最中間的在哪裡)、平均值(大家平均後在哪裡)來描述

離多散

但是有了位置還是不夠,想描述多個個體間的關係,還需要有個體間的差距才能描述個體的集中程度

以最近最紅的薪資水準舉例,5個人平均薪資50000元的敘述下,每個人都是50000元 vs 4個人10000元+ 1個人210000元表現出來的分布情形完全不同,顯然是必須要用另一個參數來描述這件事

現在最常用的參數是標準差與變異數,本質上屬於離均差的衍生物 (離平均值的差距),當然也有峰度、偏度等描述方式,不過一般人不太會用到,先理解標準差就行

我們如何判定有差?

差異的來源

綜合來看,我們描述兩者 “有差” 的方式,不外乎就是兩個位置不同,或是兩者的分散程度不同,或是位置與分散都不同。

但是每次測定值不可能是完美的,觀測值的變化除了受到處理效應的影響外,還會受到誤差干擾,這些誤差可分為系統誤差與隨機誤差:

觀測值的變化=處理效應+隨機誤差+系統誤差(非隨機誤差、固定誤差)

其中系統誤差必須要盡量排除,隨機誤差則是我們無法控制的部分,也就是說即便將系統誤差降到0 (盡人事),隨機誤差也會影響我們的觀測結果 (聽天命)

那我們要如何確定這次實驗觀測值的變化,確實是由我的因子影響所造成 (處理效應),還是純粹就是老天幫忙運氣好 (隨機誤差) ?

有兩個思路可以做到這點:

  1. 處理效應真值+處理潛真值-觀測值
  2. 用觀測值-隨機誤差=處理效應

第一個概念是如果我知道處理前母體真實值,又知道處理效應的值,那兩個相加總再減去觀測值,就知道中間的差距是隨機誤差了。

然而在多數情況下,我們並不知道族群真正的值是多少 (知道了,應該就不需要研究了,除非是優化方法類的研究),也就無法直接從母體的真值去探討這些影響的來源

統計學的想法:反向解釋

另一種思考方式,是透過評估結果是來自隨機誤差的機率來反向解釋有沒有處理效應,也就是說透過證明 “不太可能是靠運氣” 來說明 “結果應該是由處理造成的”

這其實就是統計學中虛無假設H0與對立假設的概念H1,其中結果來自靠運氣的隨機誤差就是H0,來自處理效應就是H1。我們透過拒絕H0 (不太可能是靠運氣),來說明H1 (應該是處理造成的)

如果用這個想法重新解釋處理效應的意思,就是經過某種處理後,想要純粹靠運氣從未處理的母體中,獲得處理後的統計值,機率是相當低的。

那我們靠運氣得到這個結果 (隨機誤差) 的機率我們稱為 “p”,也可以代表H0成立的機率。另一個常使用的參數則是稱之為顯著水準α (Significance level),表示接受H1但卻是H0的機率 (以為是處理所造成,但其實是靠運氣),也就是型一錯誤type I error

當我們認為機率小到一定程度,即當 p<一定的值時,我們”相信”他不太可能是純粹靠運氣得到,所得到的差異高機率是來自處理效應,那我們就認為他 “可能有差”。

那這個分界點要立在哪裡呢? 這其實是學術界的默認規則,常使用的α有0.05、0.01、0.001等,一般而言,會使用0.05或0.01的顯著水準作判定,畢竟0.05也是有5%的機率出錯的

這樣反向推導的思考方式廣泛的使用在處理樣本與樣本、樣本與母體、樣本內部的參數的關聯性上,包括:

  • 檢驗母體是否符合某種特性,比方樣本中的兩個水準之間有無關聯,可用卡方獨立性檢定
  • 母體的真值與分散程度是否屬於某個特定的值,最常見的t檢定、卡方檢定變異數
  • 母體是否屬於某種分布,像是卡方適合性檢定
  • 比較樣本與樣本間,是否來自不同母體,可以用卡方齊一性檢定

對於顯著差異的常見誤解

機率的思考方式相當好用,但是有兩個最大的誤解

是機率而非確定值

  1. 他回答的是一個 “機率” 而非一個 “100%確定” 的值,這是最常見的誤解。

以p=0.05而言,我只能說結果中的差異來自隨機誤差的機率是5%,來自非處理效應是95%。但是差異實際上來自哪裡? 抱歉我無法確認這回事

也因為回答的是個機率,也就有出錯的可能性,我們可以從真實的差異vs我認為的差異做一個2×2的結果矩陣來看

真的靠運氣(隨機誤差)真的來自處理
我認為差異來自運氣(隨機)我對了錯了 (型二錯誤,機率=1-β)
我認為差異來自處理錯了 (型一錯誤,機率=α)我對了

可以看出還是有兩種錯誤的可能性 (型一、型二錯誤),所以千萬不能認為 顯著有差=事實上一定有差,他可能會錯的!

代表有差的機率而非差異大

  1. 顯著表示的是可能有差的機率高,而非差異很大

所謂的significant,雖然翻譯中文為 “顯著的”,但就英文意義的理解上更像是一種 “指標性” 的意涵。有點像在p=0.05處立了一個路標,告訴你這是我覺得靠運氣與否的分界點

在這個路標以下 (<0.05),我認為是低機率靠運氣,反之 (>0.05) 則認為是較高機率靠運氣。p<0.05的顯著差異這個結果告訴你靠運氣的機率顯著的低,而不是兩者的真值差距顯著的大

但是實際上差多少? 這並不是 “顯著” 要告訴你的事情。如果你想知道差多少,應該做的是檢驗 “差多少的機率如何”而不是從 “可能有差的機率” 裡面去預測

總結:如何理解顯著差異

以這句話 “A、B兩組數據的平均值,在顯著水準α=0.05下達到顯著差異,p<0.05” 而言

  • A、B的樣本平均值,有>95%的機率來自於不同母體
  • A、B的平均值真值,有>95%的機率不同
  • A、B的樣本平均值差異,只有<5%的機率是隨機誤差而來
  • 做出A、B平均值真值有差異的推論,有5%的機率是錯的,即第一型錯誤type I error

並不是以下的解釋方式:

  • A、B差距95%、A、B兩個平均值的數值差距很顯著 (“顯著” 與數值差距無關)
  • A、B的差距一定存在 (還是有機率不存在的)
  • A、B的差距一定是處理效應造成 (應該說高概率)