預實驗我們會寫一系列文章詳細介紹,可參考:4.2 預實驗系列

我們在前文[實驗設計] — 詳解執行預實驗的好處與要點提過執行預實驗的重要性,接下來會用一系列的三篇文章,介紹適用於不同場景的預實驗類型、適用範圍與注意事項

第一篇文章[預實驗系列] — 詳解研究中的試點型預實驗,我們提到了試點型預實驗,他具有投石問路、減少成本的特性。本周介紹的是觀測型預實驗,是能有效鎖定實驗範圍的預實驗類型

鎖定範圍:觀測型預實驗

我希望透過觀測同一個因素在系列水準下,何者表現得最好,就會做這種預實驗。為了方便分析,這種預實驗的系列水準通常會由一定的規律所組成。關於水準與因素的定義,可以看[實驗設計] — 細緻解釋基本的實驗設計法:完整設計 complete design

舉例而言,我希望回答 “100g的水煮蔬菜料理,加多少鹽最好吃?”,為了瞭解這件事,我可能會準備許多青菜,分別添加10、20、30g的鹽,然後評估哪種最好吃。

這就是一種觀測型預實驗,而這個觀測型預實驗的特性如下:

  • 因素:是在鎖定「鹽」的因素下
  • 系列水準:「不同鹽添加量」,而水準中所描述的10、20、30g 的 “10、20、30” 指的就是 “系列”。添加量的 “g” 就是水準。
  • 10、20、30這個數列是一個等差數列,他是遵循一定規律的。當然你也可以使用11、95、2000這種看似沒有規律的系列作實驗,只是會增加自己分析的麻煩 (如確認dose-dependant)

通常觀測型預實驗的 “規律” 都會用等差數列等比數列來設計,像前述的10、20、30或是4、8、16、32都是一種設計方式。如果碰到較大的範圍可能會使用 “order” (10倍) 或是 “次方”(log) 來設計,如0.001、0.01、0.1,這就比較看經驗了

找錯範圍可能會毫無反應,比方上述的實驗我可能加了30g都覺得索然無味,這也都是很正常的事,尤其常發生在初次嘗試新領域時,多試幾次就能找到正確的範圍

使用目的:找實驗參數可用範圍

一般而言只要你做的目標,屬於 “不確定正確位置,但想知道一個確定的區間” 或是 “一定要加某個藥品,但你不知道加多少最好” 的類型,就能做這種預實驗

這個預實驗的概念有點像數學中的十分逼近法,我雖然不確定真值 (或是有反應的精確點、精確含量) 在哪哪裡,但是我可以透過好幾個大範圍的點來限制包含這個真值的上下限,而且必要時我可以透過在範圍內繼續限縮來達到更高的準確度。

打個比方,現在我想在30分鐘內烘乾一個瓶子,但是我只想調整 “烘乾溫度” 這一個參數

  1. 可以先用常識知道一些事情,如200度跟0度不是一個好選項。我也能根據手上工具的限制來排除一些選項,如我的工具只允許我烘乾80度以下
  2. 我不確定正確的烘乾溫度要幾度才行 (不知道真值)
  3. 我可以設定幾個大範圍的點如10、20…..80,當然也可以設定10、50、80這種跨距很大的點,都行
  4. 假設我用了10、50、80,發現10跟50都無法烘乾而80才行,那我就知道 50<烘乾溫度真值<=80 (上下界)
  5. 如果我需要更高的準確度,我可以在上下界中間 (50<烘乾溫度真值<=80) 繼續取值,比方做60、70的點等等,只要有意願與儀器允許,我可以持續重複這件事得到更高的準確度

這種預實驗實務上常用來抓實驗參數的可用範圍,常見的實驗變數如化學物的濃度、時間間隔、溫度間隔等,都很常在一個研究題目的初始階段成為觀測型預實驗的觀測對象

使用時機

抓主實驗要用的最佳/合理劑量

這是最常見的用途,當你開始研究未知的事物時,總是會有些研究對象或所使用的材料,是前人沒有用過或沒有詳細說明的。

前人的文獻或是領域的知識,雖然可能會給你一個大致範圍,但實際的狀況還是得自己下去做才知道,這時候我們就需要觀測型預實驗,來給我們取第一個點的基石

比方說,你想要用鹽與糖調製某種甜醬,若這種甜醬是全新而沒有人調配過的,那你就得慢慢嘗試鹽、糖與其他配料的比例才能完成甜醬。我們不可能隨意想個「鹽:糖=2:1」的比例就直接用來做菜,那就是黑暗料理的

當然,你可以根據其他人調配甜醬的比例來設定有可能的鹽糖比例,也可以根據甜醬的「甜」來決定糖要佔比較多的份量,但實際的甜醬比例,你還是得親自去嘗試才能確定

而這個嘗試的行動,就是觀測型預實驗

深入探討某個因子的特性

觀測型預實驗也可用在探討劑量、加入時間等對於單一因子的影響,這通常是在確定想要深入研究的對象後,想對他有多方面的了解而做的實驗

以上述甜醬的例子,假設我只想探討「鹽的份量」對甜醬口感的影響,我能做的事情可以是

  • 固定其他東西的量,然後調整鹽的比例
  • 調整鹽加入的時間(先加糖還是先加鹽、一次加一半還是全加)

可以看出來,這樣下去會有許多的排列組合能做,只要新增加幾個參數,或是增加參數內的水準數量,就會有很多的數字能用

ps:之所以講數字而非數據,是因為這其實仍只是由「鹽」一個面向去探討「甜醬」,數字有很多,但對於「甜醬」這個研究課題仍只有「鹽」一個數據

當你想研究比較精確的劑量,或是你的實驗結果可能跟添加物的含量有關係(比方說正相關,加越多反應越大),你就能用觀測型預實驗來尋找「表現最好的那個水準」

找出反應的臨界點

如同我們在使用目的那邊所提到,觀測型預實驗可藉由抓取觀測點來找出包含真值的上下界區間。

而這個上下界也可以拿來估計 “分界” ,也就是超過這條界線後反應就 會/不會 發生了,換句話說就是抓反應的臨界點。

我們同樣拿“30分鐘內烘乾一個瓶子,但是我只想調整 “烘乾溫度” 這一個參數” 這一個例子來說明,我先貼上來龍去脈如下:

  1. 我可以先用常識知道一些事情,如200度跟0度不是一個好選項。我也能根據手上工具的限制來排除一些選項,如我的工具只允許我烘乾80度以下
  2. 我不確定正確的烘乾溫度要幾度才行 (不知道真值)
  3. 我可以設定幾個大範圍的點如10、20…..80,當然也可以設定10、50、80這種跨距很大的點,都行
  4. 假設我用了10、50、80,發現10跟50都無法烘乾而80才行,那我就知道 50<烘乾溫度真值<=80 (上下界)
  5. 如果我需要更高的準確度,我可以在上下界中間 (50<烘乾溫度真值<=80) 繼續取值,比方做60、70的點等等,只要有意願與儀器允許,我可以持續重複這件事得到更高的準確度

在4.中做的預實驗結果就是臨界點的概念,“10跟50都無法烘乾而80才行“,可能代表著50是這個反應的下界,而這個下界的意義是 “溫度>50度才有辦法在時限內烘乾,<=50則否”

這個臨界點的概念體現在研究意義上就是偵測極限LOD、定量極限LOQ的決定,而LOD、LOQ的應用相當廣泛,從儀器設計、分析方法開發到法令制定都需要這些數據。關於LOD、LOQ在法令規範中的應用,可以參考[實驗設計]—精密度precision是什麼? 研究生實驗須知的精密度概念與用途

必須要注意的是,這裡寫的是”可能是下界” 而非 “下界”,因為我們仍無法確定烘乾溫度的真值在哪裡,真正的下界可能是50<x<80的任一點,關於這部分在後面注意事項中的”數據解讀”篇幅會再討論

交叉比較

前面提到的都是針對單一因子去設計觀測型預實驗,當然你也可以用觀測型預實驗,做兩種以上的因子的交叉組合來觀察兩者的交互作用關係

當你取一個因子的系列水準時,你取的會是一個數列。取二個因子的系列水準時則會成為一個平面矩陣。你所要做的實驗總量會是個別因子的水準數乘積,具體的展開可以參考[實驗設計] — 細緻解釋基本的實驗設計法:完整設計 complete design

這種方式產生的結果在收完數據分析時一目瞭然,也不會有分批次實驗中材料短少、每次實驗參數略有不同的問題

設計與執行的注意事項

需有良好的控制組設計

觀測型預實驗所觀察的 “最佳” 都要有比較的基準,所以你的控制組反應很重要,其中最基本的負控制組 “0” 一定要記得納入實驗規劃,否則有可能無法解釋你的實驗結果

打個比方,有一個學生只做了以下的數據:

水準 實驗數據值
10100
202000
3010000

這時候如果沒有 “0” 這個甚麼都沒做的基線,我們就很難直接解釋這份數據,讓我們看看如果改變水準0的數據會造成甚麼結果:

  1. 水準0的數據值=0:估計就是正相關
  2. 水準0的數據值=2000:10的100現在在基線下了,或許顯示0~20間有至少一個低谷
  3. 水準0的數據值=5000:10的100與20的2000現在在基線下了,或許顯示0~30間有至少一個低谷
  4. 水準0的數據值=10000:估計是反相關
  5. 水準0的數據值=1000000000000:基線太高,10、20、30很有可能都是雜訊干擾的結果,或是實驗有錯,或是你根本沒抓到正確的範圍,而10、20、30間數據值的差異100、2000、10000也必須拿來重新檢視統計上的顯著性
  6. 水準0的數據值=-1000000000000:基線太低,10、20、30很有可能都是雜訊干擾的結果,或是實驗有錯,或是你根本沒抓到正確的範圍,而10、20、30間數據值的差異100、2000、10000也必須拿來重新檢視統計上的顯著性

你可以發現基線的位置會直接影響你決定上下界、有無反應的判斷,而且這些結果不一定會是線性或是完全正/負相關的 (如2、3就出現了中間的低谷區),這也是我們在前些部分提到的 “可能是下界” 而非 “下界” 的原因。

如果沒有 “0” 這個基線,你將無法判斷預實驗結果的位置與意義。關於顯著性,可以參考[實驗設計]—“顯著差異” 是甚麼意思?到底是什麼有差?

不能把規律當理所當然

一個基本的心態是,你不能覺得你設定了系列水準的規律後 (包括線性、等比、等差、正負相關),理所當然地認為結果會照著你的規律走,在很大程度上有規律的結果已經是一種福星高照,多的是沒有規律的結果

那到底能預期甚麼? 你能說的只是真值落在某個區間,或是在你有做的系列水準中某個水準表現的最好。

以10、20、30當例子,我們用白話解釋這個基本心態:

  • 正負相關:你不能預設說10、20、30的系列水準中,20的反應一定在中間,或是10的水準一定是最低,因為中間可能會有低谷
  • 線性:你也不能認為40的數據一定會按照這次實驗的規律 (不能線性外插)
  • 等比:你也不能認為15一定會是30的1/2

會造成不規律的原因很多,包括中間的低谷、反轉、高峰等特性,畢竟自然界的東西不是全都靠線性或特定函數圖形在走的。

而這些低谷、反轉、高峰等特性的產生,部份是由於前述的基線水平是,另一個則是該參數還參與生物體內的其他路徑調控,所以他與其他路徑的平衡會在一個最適水準,而非最高或最低水準。

舉個例子,植物的生長發育被發現取決於荷爾蒙的比例而非濃度,很多時候還需要不只兩種荷爾蒙的比例調和才能達成目標。如果你改掉了其中一個水準,無論是改高或低都會破壞原來的比例,造成原來的性狀無法產生

因子間的交互作用誤導

特別講一下交互作用,這裡有兩點需要注意

其一,使用單因子的觀測型預實驗時,對於 “歸納哪一個水準最好” 這件事可以比較放心,但是如果是兩個因子以上的觀測型預實驗,對於實驗的歸因與相關性就要很謹慎。

畢竟你會想考慮探討交互作用,很大可能是兩因子是不獨立的,這時會影響結果的因素,除了兩個因子的水準外,還有因子間的交互作用,多數情況下這個 “交互作用” 的影響是1+1>>2的,很可能會蓋掉你原來的影響。所以在歸因前切記要選用適合的統計方法來確定之 (如two way ANOVA, paired-sample)

其二,如果要做兩因子的觀測型預實驗,切忌 “先選A因子最好的水準,再用最好的A水準選B水準” 這個做法,這會導致取試驗點的偏頗

這個如果用平面圖形解釋會很快,就是只會考慮到一個面向上的點,但這邊舉實例比較直觀

如果我A、B兩因子各有三個水準想要觀測如下:

AB
180
290
3100

如果我按照上面的做法先取A最好的 (假設是2),然後再取B最好的,我總共會做 (1, 2, 3) (2,80) (2,90) (2,100),四個實驗。

如果我土法煉鋼全部組合做一次,,我總共會做 (1,80) (1,90) (1,100) (2,80) (2,90) (2,100) (3,80) (3,90) (3,100),九個實驗。

其他6個實驗呢?(1,80) (1,90) (1,100) (3,80) (3,90) (3,100) 其實是被你用(1, 2, 3)這個實驗代換掉了,這個代換背後的假設基底是 “A因子中表現最好的水準,無論配合的B因子水準為何,都會比其他A因子水準跟B因子配合的表現好”

我們在 “不能把規律當理所當然” 一節中,已經推翻掉了這個假設基底,換句話說這是個代換失效的例子。這樣子的代換在實例上有,而且出問題的很多

正確的作法應該是用完整設計或用正交設計的拉丁方格處理,拉丁方格以後再講,完整設計可以先看[實驗設計] — 細緻解釋基本的實驗設計法:完整設計 complete design