如果你在數(shù)據(jù)科學(xué)領(lǐng)域還只是個(gè)新手,那么建議你先看看《五本書(shū)帶你入門數(shù)據(jù)科學(xué)》,入門之后,再看《R語(yǔ)言案例實(shí)戰(zhàn)》系列。 辛普森悖論 當(dāng)人們嘗試探究?jī)煞N變量(比如新生錄取率與性別)是否具有相關(guān)性的時(shí)候,會(huì)分別對(duì)之進(jìn)行分組研究。然而,在分組比較中都占優(yōu)勢(shì)的一方,在總評(píng)中有時(shí)反而是失勢(shì)的一方。 該現(xiàn)象于20世紀(jì)初就有人討論,但一直到1951年,E.H.辛普森在他發(fā)表的論文中闡述此一現(xiàn)象后,該現(xiàn)象才算正式被描述解釋。后來(lái)就以他的名字命名此悖論,即辛普森悖論。 辛普森悖論案例 一所美國(guó)高校的兩個(gè)學(xué)院,分別是法學(xué)院和商學(xué)院。新學(xué)期招生,人們懷疑這兩個(gè)學(xué)院有性別歧視?,F(xiàn)作如下統(tǒng)計(jì): 法學(xué)院: 商學(xué)院: 根據(jù)上面兩個(gè)表格來(lái)看,女生在兩個(gè)學(xué)院都被優(yōu)先錄取,即女生的錄取比率較高?,F(xiàn)在將兩學(xué)院的數(shù)據(jù)匯總: 在總評(píng)中,女生的錄取比率反而比男生低。 辛普森悖論原因分析 辛普森悖論出現(xiàn)的原因,可以使用下面這幅圖來(lái)進(jìn)行解答。 在上面這個(gè)圖形中,X 軸代表申請(qǐng)的總?cè)藬?shù),Y 軸代表錄取的人數(shù),那么 Y/X,也就是直線的斜率,和錄取率正相關(guān)。 (a1, a2) 代表法學(xué)院的男生,(A1, A2) 代表法學(xué)院的女生??梢钥吹剑▽W(xué)院女生的斜率比法學(xué)院男生的斜率要高,代表法學(xué)院女生的錄取率比法學(xué)院的男生的錄取率要大。 同理,(b1, b2) 代表商學(xué)院的男生,(B1, B2) 代表商學(xué)院的女生。可以看到,商學(xué)院女生的斜率比商學(xué)院男生的斜率要高,代表商學(xué)院女生的錄取率比商學(xué)院的男生的錄取率要大。 盡管如此,來(lái)看總體直線的斜率,總體男生的斜率 (A1+B1, A2+B2) 的斜率,比總體女生的斜率 (a1+b1, a2+b2) 的斜率,還要大。 這個(gè)就是辛普森悖論的圖形化解釋,非常直觀清晰。 如何避免辛普森悖論 為了避免辛普森悖論的出現(xiàn),就需要斟酌各分組的權(quán)重,并乘以一定的系數(shù)去消除以分組數(shù)據(jù)基數(shù)差異而造成的影響。同時(shí),我們必需清楚了解情況,以綜合考慮是否存在造成此悖論的潛在因素。 |
|
來(lái)自: 昵稱41082923 > 《科學(xué)》