想畢業,請努力增加自己的 “研究收入”

先前的文章[大局觀] — 想畢業請先懂遊戲規則:從3方面分析研究生畢業應有的大局觀一文中,我們提到研究生應努力累積數據與背景知識,積存能夠用於畢業的糧草。

其中,數據是畢業不可或缺的角色,對研究生來說則是 “畢業意義上的收入”。 

今天的文章,來談如何有效增加自己的”畢業收入”,並找出限制收入、阻止畢業的門檻,啟動你快速畢業的飛輪,避免在無謂的方向與工作上浪費時間!


何謂 “研究收入”

最開始,我先定義何謂 “收入”

在這篇文章中,我定義的 “收入” 純粹指的是能用的實驗數據,意即數據能發期刊,能寫論文,能報進度,能讓你離畢業更近。

必須注意的是,所謂的收入並不包括學到的技術與知識,也不包括未成型的想法

有了技術、知識還要將他實際運用,產生更好的數據才能幫助你畢業。有了模糊的想法,還要化為假說、設計實驗、評估結果、與先有數據串聯才有意義。我們無法光靠 “學會一個技術” 、”精通植物生理學”、”有很多實驗想法” 就拿到學位。會很多技術、念很多書、有很多想法但是永遠沒有數據,寫不出論文,那就跟賠光錢的基金經理人一樣,0分

對於畢業的目的而言,技術與知識是間接幫助畢業的關係,而想法是間接中的間接。唯有數據,才能夠真正用在論文與展示上,成為完整的畢業產出品

就好比我們想煮一道紅燒魚,知識與技術就是鍋碗瓢盆,想法就是調味料和擺盤,有完整數據的論文呈現才是紅燒魚。真正能讓你上桌給顧客吃的,只有已經煮好的 “完整紅燒魚” 一道菜,而非鍋碗瓢盆或調味料


明白甚麼是真正的收入,本週我想系統化的拆解我們如何 “獲得研究收入”,並透過這樣的拆解來告訴大家,如何高效的投資時間與努力,針對性的增加這些「研究收入」來加快畢業腳步

“研究收入” 的拆解公式

我們獲得”研究收入”的過程,可以拆解成以下四步驟

  1. 對前方的認知 * 觀察與發想 * 實做的比率 = 落實的試驗數量
  2. 落實的試驗數量 * 成功率 * 觀察到的有意義參數 = 獲得數據
  3. 數據量 * 排列組合 * 觀看角度 = 你的解釋
  4. 解釋 * 你的知識背景 * 別人的文獻與結果 = 你對前方的認知 (回到1.)

以下逐行來講

1.對領域前端的認知 * 觀察與發想 * 實做的比率 = 落實的試驗數量

無論人文理工,我們要做實驗/收集資料/閱讀史料,是獲得可用數據的第一步

問題來了,我們如何決定要做甚麼實驗/收集資料/閱讀史料?

過程是這樣的,我們必須先做到以下兩點才能有效的規劃實驗:

  1. 先透過文獻回顧,了解現在領域的狀態、研究發展、熱門領域、優點與限制等事項,明白現況後我們才能判斷自身所處的位置
  2. 我現在手上的題目、實驗,是否有有趣或無法解釋的現象可以被觀察、描述,我是否可以透過發想得到一些新的交集?

結合1, 2的交集,我們可以得出一系列的 “實驗待辦清單”,這些都是可能被拿來執行的實驗計畫

但是並非每個計劃都可行,有些突然被發表了,有些太昂貴或沒有儀器,有些時間太長不適合碩士生做,有些題目則很難擴充成一個完整的大方向。甚至有時候,純粹就是自己效率太低、排程不佳、發懶等理由讓實驗計畫待做而未做

因為種種原因,總有些點子不會被完成,所以要乘上實作的比率才會等於實際投入執行的試驗數量

以下是解法的相關文章:

文獻回顧:2. 起步:論文的閱讀、分析、收集、整理

觀察與發想:

實作的比率:

2.做的試驗數量 * 試驗成功率 * 取材角度 = 生數據量(raw data)

試驗成功率

認真將許多試驗投入實作,對於畢業是不錯的開始,不過做完的試驗,距離可用的數據收入還有一段距離。

我們執行的實驗總是會有失敗機率的,從突然停電、手滑將試藥灑出來、微生物汙染等天災人禍,到篩選範圍錯誤、蛋白質表現的產量不如預期、技術不純熟導致的萃取率低下等經驗技術不足,都可能會導致實驗的失敗與時間浪費

失敗率對於重複性要求極高的研究而言相當重要 (亦即我要能在不同時空下,用同一條件盡可能重現相同結果),尤其是多因子排列組合的探討,只要失敗率上升就會大幅度拖累研究進度

舉個例子,小明今天要做A、B兩種鹽類因子的不同添加濃度水準,對植物生長影響如何的試驗,(因子與水準的意義可參考[實驗設計] — 細緻解釋基本的實驗設計法:完整設計 complete design)

假設小明的作法,A、B鹽類因子各取3個濃度水準,每個試驗組做3重複,那小明總共需要做3(A組數)*3(B組數)*3(重複數)=27個實驗組別 (控制組另計)

  • 如果其中一組實驗組(A1, B1)失敗了一個重複組別
    • (A1, B1)就只剩下2重複,用來統計會有相當大的偏差,很可能會干擾結果解釋。
    • 如果實驗重複度夠多(5或6或更多,視實驗性質與領域而定),或許還有機會挽救或是降低最終留下的重複數來解決問題
    • p.s.根據經驗,生物實驗raw data的重複數偏差都不會太小,即便拉到n=6也常常如此。
  • 如果整個(A1, B1)組完全失敗(3個重複都失敗)
    • 那這個實驗批次就失去了這組的比較
    • 無法直接挽救 (另一種方法是用統計方法補值,不過並非首選),只能放棄對(A1, B1)組的討論

或許有人會想問,小明是否可以在下個批次中只重做 (A1, B1) 中失敗的1重複數或是(A1, B1)的一整組,用重作的結果合併小明上次實驗中(A1, B1)的缺口一起解釋呢?

答案是不行

  1. 就變因而言,兩個批次間的數據帶有 “批次” 這個變因,小明無法消除這個變因,也無法估計與精準校正這個變因帶來的影響,所以得出來的結果很難解釋。
  2. 就實驗意義上來說,不同批次的數據帶有不同的統計與試驗意義
    1. 同樣一個實驗室內,同一方法、同一實驗批次得出來的系列數值,所得多個重複結果間的差距被稱為 “重複性”
    2. 同樣一個實驗室內,使用同一方法,但是不同批次、人員、時空得出來的系列數值,所得多個重複結果間的差距被稱為 “中間精密度”

以上作法不可用的結果很嚴重,若(A1, B1)是小明的重點探討對象,小明只能將3*3*3=27組實驗重做一次,其中包含的控制組、原料準備、時程安排都是無形中付出的成本。

如果在第二次重作的試驗中,小明變成(A2, B2)三組全失敗了呢? 那嚴格來說,小明能比較的就只有兩次試驗都成功,除了(A1, B1)和(A2, B2)的另外7個(A, B)組合。每多一次不同組別的失敗,小明能名正言順拿來比較的組別就越少。

小明可以透過撰寫SOP、加速自己熟悉技術的速度來提高試驗成功機率,透過完善自己的實驗排程與物料控管來降低意外風險,而高效除錯則是避免下次失敗的定心丸

這是在這個階段影響收入的重要參數:試驗成功率。

相關文章:


觀察到的有意義參數:取材角度

在此回顧一下剛剛提到的獲得”研究收入”的四個步驟再繼續

  1. 對前方的認知 * 觀察與發想 * 實做的比率 = 落實的試驗數量
  2. 落實的試驗數量 * 成功率 * 觀察到的有意義參數 = 獲得數據
  3. 數據量 * 排列組合 * 觀看角度 = 你的解釋
  4. 解釋 * 你的知識背景 * 別人的文獻與結果 = 你對前方的認知 (回到1.)

接著我們探討本步驟中另一個影響收入的因素:取材角度

取材角度,指的是一次試驗中可以被觀察的參數數量,做一次試驗可以看8個參數與只能觀察2個參數,前者當然有較高機率組合出有效數據,這有賴於實驗者對參數意義的代換與對實驗過程的細心觀察

同樣是小明的AB實驗例子,小明想要觀察植物的生長情況:

  1. 小明可以將 “生長狀況” 代換成 “植物乾重”、”植物溼重”、”根部長度”、”根部型態” 等多個具體的參數,但個別參數的意義卻略有不同,小明就可以有多個觀察角度的實驗數據
  2. 小明在實驗過程中,或許會發現一些 “質化現象”,諸如 “加了A鹽類似乎植物會容易乾枯”、”加了B鹽類似乎會提早開花” 等現象,就可以針對這些現象延展出新的假說與實驗,增加可用的數據來源

但是在1的部分,要謹慎注意 “代換失效” 問題;在2的部分,則要謹記這階段所得僅僅是假設,想用來立論一定要有其他證據做假設檢定

良好的實驗設計、控制組的選擇對1、2有極大幫助,而實驗戰略規劃則能更有效率地協助2的發想

相關文章:


3.生數據量(raw data) * 排列組合 * 觀看視角 = 對數據的解釋

上個步驟,我們做完試驗,取得許多可用的生數據,但並非所有數據都能直接使用

  1. 有些生數據只是儀器讀值,需要換算成有意義的統計量才能解釋。比方在紅外線光譜中不同的頻率能對應到相對應的官能基,1700(cm-1)的頻率對我們而言並無意義,要代換成C=O鍵才能產生意
  2. 有些生數據需要統計處理才能使用,比方判定極端值、假設檢定
  3. 有些則需要合併其他數據一起解釋才能產生意義。比方30cm的植物本身不能代表甚麼,但若是與20cm的植物比較,就能探討造成兩者差異的原因、誤差來源,也才有後續的解釋與假設

我們必須先對生數據做初步處理,確保他們是可被理解的形式,並且刪去可能危害我們論述品質的生數據後才能對剩下的數據做解釋,具體做法可參考[實驗設計] — 我的實驗數據有價值嗎?學會從這3點評估研究成果的價值一文

那麼如何最大化殘存生數據的價值?重點是盡量讓生數據間產生關聯,而排列組合、觀看視角則是兩種有效產生大量關聯的方法。

許多研究生常到了第3步才開始努力想找到更多的數據或解釋方式,實際上已經太晚了,如前所述的第3步其實是在生數據中盡量產生關聯,也就是如果在1, 2步中數據量已經很少,那在第3步中也是巧婦難為無米之炊,建議回到前兩步補充後再說

排列組合

將同一個方向內的實驗數據,透過排列組合方式比對參數與結果的落差,試圖找出有意義的解釋,這屬於排列組合的方法。

以小明的例子而言,可以將各種有關”生長狀況”的參數交叉比較,就有機率得到有趣的解釋。像是植物的乾重增加50%,與根部長度增幅10%並不相同,就可以得到乾重增加並非主要來自於根部的解釋,而這個解釋是只看”乾重”或是”根部長度”等單一參數無法得知的

觀看視角

導入不同方向的實驗數據,與領域知識連結、剪裁研究範圍來改變解釋實驗數據的角度,這屬於觀看視角的方法。

觀看視角與步驟2中的取材角度不同,觀看視角指的是已做成的數據該如何解釋,而取材角度指的是該如何獲得更多的解釋參數

以小明的例子而言,”根部增長”與”乾重”都屬於量化數據,用數量描寫生物質量的累積程度。但 “處理A鹽類時,植物會開出特定型態的花” 就屬於質性數據,可以結合兩者來全面探討A鹽類對植物產生的質化與量化效應

此外,小明也可以根據領域知識,將以上參數的改變與生理學知識連結,推測可能跟植物的耐逆境反應有關,那麼小明或許能針對 “耐逆境” 做各種的預實驗與實驗。運氣更好的話,小明或許發現他只要多補一個對照組或確認實驗,他就能解釋/驗證”耐逆境”的說法。

倘若小明不幸發現,他的鹽類處理實驗方向有人做過,或是他的重複數量太少無法有力支持他的論點,那小明可以考慮將研究範圍限縮成 “特定時間的鹽類處理比較”,或轉移焦點成 “主要解釋重複數量夠的組別” 來做討論,具體實施可以參考[case study] 4.—突變T基因很困難,怎麼辦?

善加應用這兩部分,可以大幅增加對數據的解釋能力,這時就能應用到時序性、結構性、人因性等思維框架與研究發想術協助我們全面又無遺漏的檢視數據,可以參考以下:

然而,用發想得到的靈感解釋數據時,仍須注意基底的穩固度與中間隱藏的假設,可參見以下兩文:

至於如何串聯散亂的數據,可以參考[論文寫作] — 雜亂的研究數據寫不出論文? 用金字塔原理3步驟協助你完成論文大架構


4.對數據的解釋 * 領域知識 * 別人的文獻與結果 = 對領域前端的認知

對數據有了解釋,在這個試驗本身算是大功告成了,離成為收入就差最後一里路,這一哩路的差距就是與現實領域的連結

你得到的這個數據,對於你的研究題目、大研究領域與小研究領域有甚麼意義? 無法與領域連結的數據,就是無用的

換句話說你必須能回答 “這個數據或解釋能幹嘛? 有什麼意義?為什麼我一定要知道它?”

要與領域連結,就是閱讀參考文獻,以及與其他研究者做比較,並最終寫成有條理的論文

參考文獻的相關文章:2. 起步:論文的閱讀、分析、收集、整理

論文寫作的相關文章:9. 寫論文與口試、研討會


我們以此一輪,完成了打造研究收入的封閉循環,希望讀者能逐步加強各點,來達到加速畢業的目的。