社會科學(xué)研究中有一個特別有趣的東西,叫“研究假設(shè)” (hypothesis),這個東西特別重要,它連接了理論和數(shù)據(jù),是貫穿一篇文章的黃金線。讀一篇實證文章的時候,哪怕什么都沒看懂,也要把研究假設(shè)看懂了,看懂了研究假設(shè)也就明白了這篇文章主要是要干嘛。所以我們今天系統(tǒng)的來說說研究假設(shè),以及與其緊密相關(guān)的自變量、因變量。本篇文章會討論到:
為什么要有“研究假設(shè)“這個東西? 什么是好的研究假設(shè)? 自變量、因變量,以及與研究假設(shè)的關(guān)系是什么?
【節(jié)目預(yù)告】由于寫著寫著發(fā)現(xiàn)還沒有仔細講過variable和value, 所以在本篇留一個尾巴到下一篇,屆時我們會繼續(xù)聊這些:
寫研究假設(shè)時初學(xué)者可用的兩個模板 你必須知道的Variable 和 value 之間的關(guān)系 Levels of Measurement以及幾種不同的變量:nominal, ordinal, interval, 以及 ratio variable.
為什么要有“研究假設(shè)“這個東西?
我們在 為什么要有社會科學(xué)研究方法? 一文中就說過其實搞研究沒有什么可神秘的,本質(zhì)上,研究就是在探尋對一個問題的答案 ;然而科學(xué)研究又與普通人日常生活中尋求答案不同,因為它嚴(yán)謹(jǐn)、科學(xué)、系統(tǒng)、嚴(yán)密、一絲不茍。
如果說人類知識分等級,那么科研者就像是站在金字塔的塔尖。為金字塔最下面站崗的知識服務(wù)商可以說錯甚至胡說,因為有金字塔中間的人在把關(guān);金字塔中間的人也可以時不時犯錯,因為有金字塔頂端的科研人員把關(guān);而科研人員就不能再錯了,頂端的搞研究的人都錯了,底下的就全錯了,人類知識航行的方向也就堪憂 。
所以,為了盡力讓研究結(jié)果不出現(xiàn)絲毫的錯誤(請注意只是盡力,不是說一定完全沒錯誤),科研人員有時候必須神經(jīng)兮兮、矯枉過正、一絲不茍、甚至看上去有點迫害妄想癥地去對待每一個對問題的探尋, 因為別人在問問題和給答案的時候可以不在意可以不負(fù)責(zé)任,而研究人員是代表人類知識的最前沿在探究答案啊,她/他不可以隨意和不負(fù)責(zé)任。這就是為什么我們在初接觸研究方法上的一些名稱和詞匯時,有時候會覺得莫名其妙或是多此一舉 ,也是為什么很多人會覺得搞科研的人特別“nerd”-----大哥大姐們,不nerd做不好學(xué)術(shù)啊,不神經(jīng)兮兮就難以守護人類知識的金字塔?。。▋裳蹨I汪汪)
但是,一旦你開始細細了解,你會發(fā)現(xiàn)很多學(xué)術(shù)范疇內(nèi)看上去有點莫名其妙的詞匯或稱謂其實離我們一點都不遠。就拿“研究假設(shè)”這個東西來說-----研究假設(shè)離我們遠嗎?我們普通人如果不做學(xué)術(shù)就從來不會用到嗎 ? 其實恰恰相反,我們普通人問問題和給答案的時候也總是給出“假設(shè)”,我們甚至在日常聊天的時候都一直在給假設(shè),比如下面這個例子:
小白:小芳,我這兩天怎么總覺得頭疼? 小芳:我覺得你最近喝咖啡有點多,會不會跟喝咖啡有關(guān)? 小白:有可能。 小芳:要不然就是熬夜熬的,你最近趕那個項目天天凌晨兩點才睡,能不頭疼么? 小白:好吧,這兩天早點睡試試。
喏,這個對話,小白提出了一個問題“為什么我總頭疼?” ,小芳于是信手拈來給了兩個假設(shè):
假設(shè)1 :喝咖啡喝的越多,小白的頭越疼。假設(shè)2 :睡覺睡得越晚,小白的頭越疼。
當(dāng)然,我們平??赡軙堰@種回答叫做“猜測”而不叫“假設(shè)” 。但是其實這就是研究假設(shè)的本質(zhì):一種對于某個問題答案的未經(jīng)證實的猜測。
其實這世界上所有對答案的探索過程都一定要經(jīng)過“假設(shè)”這個過程,當(dāng)我們給出的某個答案還未經(jīng)證實,那不就是一種“假設(shè)”嗎?只不過有很多時候這個假設(shè)的過程是隱性的、短暫的、無需被單獨列出的、或者不被人意識到的 。
而科學(xué)研究不同了。科學(xué)研究里面,你需要嚴(yán)謹(jǐn)和明確的把你要研究的東西明晃晃的亮出來,你需要清清楚楚的分清什么是fact(事實)什么是opinion (觀念),什么是hypothesis(假設(shè))什么是tested finding (經(jīng)證實的發(fā)現(xiàn) ), 為此你需要把你的研究假設(shè)一是一二是二的寫出來在文章里,而且你需要盡量表達到位、用詞準(zhǔn)確,因為只有這樣別人才能知道你后續(xù)驗證數(shù)據(jù)的過程做的有沒有道理、所設(shè)計的方法合不合適、分析結(jié)果能不能驗證你的假設(shè) 。所以在實證研究中,我們也就看見了“Hypothesis 1..”, “Hypothesis 2…” 這樣的專屬于學(xué)術(shù)研究的東西。
總體上來說,我們在實證研究中一定要亮出研究假設(shè)是為了以下幾個目的:
告訴別人你這篇文章要關(guān)注的主題是什么 (比如,” 喝咖啡喝的越多,小白的頭越疼” 這個假設(shè)能清楚的告訴別人我要關(guān)注的是“為什么小白頭疼”);告訴別人你有一些別人沒想到的能解釋這個問題的想法或“變量” (比如“喝咖啡”和“睡得晚”就是解釋變量);告訴別人你在研究中關(guān)注的自變量和因變量分別是什么 ;告訴別人假設(shè)自變量和因變量兩者是怎樣的關(guān)系 (比如正相關(guān)、負(fù)相關(guān)、非線性相關(guān)等等)。
所以研究假設(shè)這個東西看上去就那么一兩句話,但是作用其實特別大。這也是為什么我們說看實證文章一定要看懂研究假設(shè)的原因。研究假設(shè)看懂了,一篇實證文章也就看懂了一半。
什么是好的研究假設(shè)?
好了,接下來我們可以來看一個嚴(yán)肅一點兒的對Hypothesis的定義:
“A hypothesis is a testable statement of the proposed relationship between the independent variable, which measures the cause , and the dependent variable, which measures the effect . “ (Pollock, 2015)
就是說,一個研究假設(shè)它一定是提出了一個可驗證的關(guān)系 的假設(shè),這個關(guān)系里包含一個自變量 和一個因變量 , 這個研究假設(shè)需要提出了一個自變量是如何解釋該因變量的 。
仔細看這個定義我們能看出這么幾層意思:
只討論了一個變量的假設(shè)并不是研究假設(shè) 。 比如,“明天天氣會變暖”---這里面只有一個變量,就是“天氣”,它沒有提出兩個變量之間的關(guān)系,變暖這個事情是天氣的特征值(value),而不是variable;研究假設(shè)里面要提出自變量和因變量的關(guān)系,將自變量和因變量進行“聯(lián)結(jié)” 。 比如,“明天天氣會變暖,明天濕度會特別大”----這里面確實出現(xiàn)了兩個變量,然而并沒有聯(lián)結(jié)二者的關(guān)系,沒有用自變量去解釋因變量,所以也不是好的研究假設(shè);好的研究假設(shè)里不能只說兩個東西相關(guān),還要說他們是怎么相關(guān)的 。 -----比如隨著一個變量的增長另一個也增長,這叫正相關(guān);隨著一個增長另一個下降,這叫負(fù)相關(guān)。研究假設(shè)必須可以驗證 。 比如,“喝咖啡越多頭越疼”就可以驗證;“喝咖啡越多人就越通靈”就無法驗證 (至少現(xiàn)在科學(xué)界無法驗證)。
研究假設(shè)的核心是解釋“自變量與因變量的關(guān)系”
接下來我們再來好好說說IV 和DV這兩個重量級大咖 。這個部分的大體內(nèi)容其實我們在 把實證文章從厚讀薄的本領(lǐng)----變量梳理法 中有所涉及(建議結(jié)合兩篇文章一起看),但這里我想再花點篇幅重新細致的說一說,誰讓重要的事情都得說三遍,而這倆家伙在定量研究中簡直是重中之重。
這里我請大家先從英文名字上來理解一下它們倆到底是干嘛的 :
Independent Variable : variable是變量的意思,independent是不依賴的意思,所以independent variable就是誰都不依賴的變量----我自己變我自己的,不管別人變不變,其它變量決定不了我(很任性的)----中文就叫“自變量”了, 其實直譯過來就是“不依賴別人的變量” Dependent Variable : 再次顧名思義,它需要依賴,需要依賴什么呢?依賴其它變量來變化,否則它自己不知道該怎么變。那具體依賴誰呢?依賴“independent variable”的變化。Independent variable一變,dependent variable一定跟著變,因為它天生就需要依賴才能存在啊。----中文里把它叫做了“因變量”,因著別的變量才知道自己是怎么變,然而英文名直譯過來它應(yīng)該叫“依賴別人的變量” 吧?( 沒讓我去做翻譯是有道理的系不系...)
【下文中為了書寫方便,我會用IV(Independent Variable)代表自變量,DV(Dependent Variable) 代表因變量?!?/p>
在一個定量研究中,研究者核心的任務(wù)就是把至少一對兒“不依賴別人的變量”(IV) 和”依賴別人的變量” (DV ) 組合在一起,并且說明好它們之間的關(guān)系。而研究假設(shè),也就是提煉后的、精確地描述這對兒IV-DV的未經(jīng)檢驗的關(guān)系的陳述。
當(dāng)IV和DV放在一起的時候, DV(因變量)是這個研究中被我們解釋、被關(guān)注、被預(yù)測的東西,所以也它叫做“結(jié)果變量”(Outcome Variable) ;而IV則是導(dǎo)致了DV、能夠解釋DV、以及能夠用來預(yù)測DV的東西,所以也叫“預(yù)測變量”或“解釋變量”(Predictor Variable/ Explanatory Variable).
所以,一個更簡單的對hypothesis的定義是:
“Hypothesis is a testable statement about the empirical relationship between cause (IV) and effect (DV). ”
在驗證兩個變量之間關(guān)系的時候,研究者總是試圖通過改變和調(diào)試自變量(IV),來觀測因變量(DV)的變化 -----因為如果因變量隨著自變量的變化而變化,那么就說明兩者是相關(guān)的;至于是如何相關(guān)的,則需要進一步利用不同的統(tǒng)計模型來做出判斷。
換句話來說:
? In experiments, the IV is the variable that is controlled and manipulated by the experimenter; ? whereas the DV is not manipulated, instead the DV is observed or measured for variation as a presumed result of the variation in the IV.
下圖展示了研究假設(shè)中IV和DV的關(guān)系 :
你可能會說,那有些東西不是由單獨一個東西影響和決定的, 而是由多個東西決定的啊,比如人的學(xué)習(xí)成績,由智商、情商、用功程度、學(xué)科基礎(chǔ)、老師好壞等一系列因素組成 ,這怎么算?
那就是說學(xué)習(xí)成績這個DV由很多個IV來解釋 ,比如下圖:
而在一個研究里,通常是不需要討論到所有能夠解釋DV的IV的 。(大多數(shù)的定量研究都是IV heavy型-----就是說我的研究的主要貢獻在于我提出了一個前人可能沒有注意到的IV,我如果把這個IV和這個因變量之間的關(guān)系證明好,我的文章就是有貢獻的; 而另一類定量研究是DV heavy 型---這一類研究關(guān)注尋求某個DV(因變量)的完整解釋模型,這就需要你盡量列出全部能夠解釋該DV的自變量。Again, 我們通常做的大多數(shù)研究是IV heavy型。 )
當(dāng)我們寫研究假設(shè)的時候,還應(yīng)該注意到,每一個研究假設(shè)應(yīng)該只討論一對關(guān)系 ------也就是列出一個IV和一個DV之間的關(guān)系。 如果你在一個研究中準(zhǔn)備探討多個IV與DV的關(guān)系,那么你應(yīng)該把每一對關(guān)系都分別列在一個單獨的研究假設(shè)里,而不是把它們都列在一起 。
OK, 說到這里,什么是好的研究假設(shè)就基本說完了。下面我們針對IV和DV這兩位大咖做一個練習(xí)。
【自助練習(xí)題 :請用類似上圖的箭頭和長方形方框畫出下面研究假設(shè)中每一對IV和DV之間的關(guān)系圖, IV在左,DV在右,箭頭從IV指向DV 】
假設(shè)1 : 咖啡喝的越多,人越容易頭痛。假設(shè)2 : 晴天的交通事故率小于陰天的交通事故率。假設(shè)3 :總是吃垃圾食品的人,更容易得心血管疾病。假設(shè)4 : 學(xué)歷越高的人,玩電子游戲的能力越差。
--------------------------------------
以下是參考答案:
你可能已經(jīng)發(fā)現(xiàn)了,一個好的研究假設(shè)不見得是一個正確的研究假設(shè), 也就是說研究假設(shè)還沒有驗證(否則就不叫假設(shè)了),所以可能是對的也可能是錯的,這要由數(shù)據(jù)來說話。數(shù)據(jù)結(jié)果如果沒證實你的研究假設(shè)或者跟你假設(shè)的關(guān)系方向相反,也不代表你的研究就沒有意義了。但是研究假設(shè)一定要可以驗證,一定要說清楚了IV和DV的關(guān)系,論文中的研究假設(shè)當(dāng)然還要make sense, 有理論支撐。
關(guān)于研究假設(shè)還有兩個寫假設(shè)的初學(xué)者模板 沒有講,留待下篇??偨Y(jié)一下,這篇文章我們說明了什么是好的研究假設(shè), 以及研究假設(shè)與自變量、因變量之間的關(guān)系。一個好的研究假設(shè)應(yīng)該做到:
清楚說明一個自變量與一個因變量之間是有關(guān)聯(lián)的; 清楚地說明自變量和因變量之間是怎樣關(guān)聯(lián)的(direction of relationship); 研究假設(shè)應(yīng)該是可以驗證的(testable). 而讀別人文獻的時候我們應(yīng)該培養(yǎng):
重視讀懂實證文章里的研究假設(shè); 從研究假設(shè)中能看得出誰是IV, 誰是DV,以及作者要驗證怎樣的關(guān)系; 腦中能勾畫出研究假設(shè)中變量之間的關(guān)系圖。
現(xiàn)在我們可以想一想,自己的研究,或者我們正在讀的研究,它們的研究假設(shè)、自變量、因變量都分別是什么?研究假設(shè)是合格的研究假設(shè)嗎?自變量和因變量的關(guān)系能不能清楚地畫出來呢?
下一篇我們講variable與value之間的關(guān)系。哎呀呀,最近的主題越講越重要呢。