作者:Jay Alammar 翻譯&潤(rùn)色:極客猴 如果讀者們計(jì)劃學(xué)習(xí)數(shù)據(jù)分析、機(jī)器學(xué)習(xí)、或者用 Python 做數(shù)據(jù)科學(xué)的研究,你會(huì)經(jīng)常接觸到 Pandas 庫(kù)。Pandas 是一個(gè)開(kāi)源、能用于數(shù)據(jù)操作和分析的 Python 庫(kù)。 1. 加載數(shù)據(jù) 加載數(shù)據(jù)最方便、最簡(jiǎn)單的辦法是我們能一次性把表格(CSV 文件或者 EXCEL 文件)導(dǎo)入。然后我們能用多種方式對(duì)它們進(jìn)行切片和裁剪。 Pandas 可以說(shuō)是我們加載數(shù)據(jù)的完美選擇。Pandas 不僅允許我們加載電子表格,而且支持對(duì)加載內(nèi)容進(jìn)行預(yù)處理。 Pandas 有個(gè)核心類型叫 DataFrame。DataFrame 是表格型的數(shù)據(jù)結(jié)構(gòu)。因此,我們可以將其當(dāng)做表格。DataFrame 是以表格類似展示,而且還包含行標(biāo)簽、列標(biāo)簽。另外,每列可以是不同的值類型(數(shù)值、字符串、布爾型等)。 我們可以使用 read_csv() 來(lái)加載 CSV 文件。
其中變量 DF 是 Pandas 的 DataFrame 類型。 Pandas 同樣支持操作 Excel 文件,使用 read_excel() 接口能從 EXCEL 文件中讀取數(shù)據(jù)。 2. 選擇數(shù)據(jù) 我們能使用列標(biāo)簽來(lái)選擇列數(shù)據(jù)。比如,我們想獲取 Artist 所在的整列數(shù)據(jù), 可以將 artists 當(dāng)做下標(biāo)來(lái)獲取。 同樣,我們可以使用行標(biāo)簽來(lái)獲取一列或者多列數(shù)據(jù)。表格中的下標(biāo)是數(shù)字,比如我們想獲取第 1、2 行數(shù)據(jù),可以使用 df[1:3] 來(lái)拿到數(shù)據(jù)。 Pandas 的利器之一是索引和數(shù)據(jù)選擇器。我們可以隨意搭配列標(biāo)簽和行標(biāo)簽來(lái)進(jìn)行切片,從而得到我們所需要的數(shù)據(jù)。比如,我們想得到第 1, 2, 3 行的 Artist 列數(shù)據(jù)。 import pandas as pd 3. 過(guò)濾數(shù)據(jù) 過(guò)濾數(shù)據(jù)是最有趣的操作。我們可以通過(guò)使用特定行的值輕松篩選出行。比如我們想獲取音樂(lè)類型(Genre)為值為 Jazz 行。 再比如獲取超過(guò) 180萬(wàn)聽(tīng)眾的 藝術(shù)家。 4. 處理空值 數(shù)據(jù)集來(lái)源渠道不同,可能會(huì)出現(xiàn)空值的情況。我們需要數(shù)據(jù)集進(jìn)行預(yù)處理時(shí)。 如果想看下數(shù)據(jù)集有哪些值是空值,可以使用 isnull() 函數(shù)來(lái)判斷。
假設(shè)我們之前的音樂(lè)數(shù)據(jù)集中 有空值(NaN)的行。 我們對(duì)之前的音樂(lè).csv 文件進(jìn)行判斷,得到結(jié)果如下: 如果我想知道哪列存在空值,可以使用 df.isnull().any() import pandas as pd 結(jié)果如下: 處理空值,Pandas 庫(kù)提供很多方式。最簡(jiǎn)單的辦法就是刪除空值的行。 除此之外,還可以使用取其他數(shù)值的平均值,使用出現(xiàn)頻率高的值進(jìn)行填充缺失值。
5. 分組 ![]() ![]()
|
|
來(lái)自: liqualife > 《數(shù)據(jù)分析》