pandas中4個(gè)高級(jí)應(yīng)用函數(shù)還有另外一個(gè)管道函數(shù)pipe()
,是表級(jí)的應(yīng)用函數(shù)。
以下是內(nèi)容展示,完整數(shù)據(jù)、和代碼可戳??《pandas進(jìn)階寶典V1.1.6》進(jìn)行了解。
pipe函數(shù)介紹
函數(shù):
pipe函數(shù)可應(yīng)用在series和dataframe兩個(gè)數(shù)據(jù)結(jié)構(gòu)上。
series.pipe(func, *args, **kwargs)
dataframe.pipe(func, *args, **kwargs)
------
返回:函數(shù)的返回類型
參數(shù):
- func:用于處理數(shù)據(jù)的函數(shù),可以是內(nèi)置函數(shù)、庫函數(shù)、自定義函數(shù)或匿名函數(shù)
- *args:指定傳遞給函數(shù)位置參數(shù)
- **kwargs:指定傳遞給函數(shù)的關(guān)鍵字
pipe函數(shù)應(yīng)用
一、單個(gè)函數(shù)
df.pipe(np.exp).pipe(lambda x:round(x,2))
以上pipe
分別傳入了numpy的exp函數(shù)和逆函數(shù),都是單個(gè)函數(shù),實(shí)現(xiàn)了對(duì)數(shù)據(jù)進(jìn)行了e次方操作,并結(jié)果保留小數(shù)點(diǎn)后兩位有效數(shù)字。

當(dāng)只傳入一個(gè)函數(shù)時(shí),pipe()
的效果等同于直接用函數(shù)對(duì)dataframe處理:func(df)
,與apply()
、applymap()
、map()
等的處理結(jié)果是一樣的。
這種基礎(chǔ)操作建議優(yōu)先使用apply()
函數(shù),pipe()
函數(shù)的精髓在于鏈?zhǔn)秸{(diào)用。
二、鏈?zhǔn)秸{(diào)用
我們先用三個(gè)函數(shù)分別對(duì)dataframe操作。
df_01 = np.square(df)
df_02 = np.multiply(df_01, 1.5)
df_03 = np.add(df_02, 8)
三個(gè)函數(shù)按順序依次對(duì)dataframe操作,第一個(gè)函處理后的結(jié)果返回給第二個(gè)函數(shù),第二個(gè)給第三個(gè)。如果想省略臨時(shí)的dataframe也可以將函數(shù)像下面這樣套用一行代碼解決。
rlt = np.add(np.multiply(np.square(df), 1.5), 8)
但上面的寫反可讀性太差了,一點(diǎn)不優(yōu)雅,而且隨著嵌套增多非常容易看錯(cuò)。這種情況就該pipe()
管道函數(shù)登場了。
pi = df.pipe(np.square). \
pipe(np.multiply, 1.5). \
pipe(np.add, 8)
或者
pi = (df.pipe(np.square)
.pipe(np.multiply, 1.5)
.pipe(np.add, 8))

pipe鏈?zhǔn)秸{(diào)用的原理是:
pipe將每次執(zhí)行完的函數(shù)結(jié)果傳遞給下一個(gè)函數(shù),即上個(gè)輸出作為下個(gè)函數(shù)的輸入,以此類推像鏈子一樣可以一直傳遞下去,這也是管道函數(shù)名字的由來。
這樣做的優(yōu)點(diǎn)是:
三、特殊傳參方式
pipe()
默認(rèn)情況下會(huì)將dataframe傳給調(diào)用函數(shù)的第一個(gè)參數(shù),但一些函數(shù)在定義時(shí)第一個(gè)參數(shù)并不是用來接收dataframe輸入數(shù)據(jù)的,如果直接將函數(shù)傳到pipe()
中會(huì)提示報(bào)錯(cuò)。
為了解決這個(gè)問題,pipe()
中規(guī)定了一種特殊的參數(shù)傳遞方法,是元組(callable, data_keyword)的形式。
callable
:指定在pipe()
中調(diào)用的函數(shù)data_keyword
:指定將dataframe傳給函數(shù)中的哪一個(gè)參數(shù)
def spcl(num, df):
return df.add(num)
df.pipe((spcl,'df'), 2)

以上pipe()
中用(spcl,'df')
代替了常規(guī)時(shí)的函數(shù)spcl
,清楚地指明了函數(shù)中的df
參數(shù)是接受dataframe數(shù)據(jù)的參數(shù),這樣就不會(huì)報(bào)錯(cuò)。此外,函數(shù)的*args和**kwargs傳遞方式不變。