乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      國(guó)外大神制作的超棒 Pandas 可視化教程

       liqualife 2020-04-21

      作者:Jay Alammar    翻譯&潤(rùn)色:極客猴

      如果讀者們計(jì)劃學(xué)習(xí)數(shù)據(jù)分析、機(jī)器學(xué)習(xí)、或者用 Python 做數(shù)據(jù)科學(xué)的研究,你會(huì)經(jīng)常接觸到 Pandas 庫(kù)。Pandas 是一個(gè)開(kāi)源、能用于數(shù)據(jù)操作和分析的 Python 庫(kù)。

      1. 加載數(shù)據(jù)

      加載數(shù)據(jù)最方便、最簡(jiǎn)單的辦法是我們能一次性把表格(CSV 文件或者 EXCEL 文件)導(dǎo)入。然后我們能用多種方式對(duì)它們進(jìn)行切片和裁剪。

      Pandas 可以說(shuō)是我們加載數(shù)據(jù)的完美選擇。Pandas 不僅允許我們加載電子表格,而且支持對(duì)加載內(nèi)容進(jìn)行預(yù)處理。

      Pandas 有個(gè)核心類型叫 DataFrame。DataFrame 是表格型的數(shù)據(jù)結(jié)構(gòu)。因此,我們可以將其當(dāng)做表格。DataFrame 是以表格類似展示,而且還包含行標(biāo)簽、列標(biāo)簽。另外,每列可以是不同的值類型(數(shù)值、字符串、布爾型等)。

      我們可以使用 read_csv() 來(lái)加載 CSV 文件。

      # 加載音樂(lè)流媒體服務(wù)的 CSV 文件
      df = pandas.read_csv('music.csv')

      其中變量 DF 是 Pandas 的 DataFrame 類型。

      Pandas 同樣支持操作 Excel 文件,使用 read_excel() 接口能從 EXCEL 文件中讀取數(shù)據(jù)。

      2. 選擇數(shù)據(jù)

      我們能使用列標(biāo)簽來(lái)選擇列數(shù)據(jù)。比如,我們想獲取 Artist 所在的整列數(shù)據(jù), 可以將 artists 當(dāng)做下標(biāo)來(lái)獲取。

      同樣,我們可以使用行標(biāo)簽來(lái)獲取一列或者多列數(shù)據(jù)。表格中的下標(biāo)是數(shù)字,比如我們想獲取第 1、2 行數(shù)據(jù),可以使用 df[1:3] 來(lái)拿到數(shù)據(jù)。

      Pandas 的利器之一是索引和數(shù)據(jù)選擇器。我們可以隨意搭配列標(biāo)簽和行標(biāo)簽來(lái)進(jìn)行切片,從而得到我們所需要的數(shù)據(jù)。比如,我們想得到第 1, 2, 3 行的 Artist 列數(shù)據(jù)。

      3. 過(guò)濾數(shù)據(jù)

      過(guò)濾數(shù)據(jù)是最有趣的操作。我們可以通過(guò)使用特定行的值輕松篩選出行。比如我們想獲取音樂(lè)類型(Genre)為值為 Jazz 行。

      再比如獲取超過(guò) 180萬(wàn)聽(tīng)眾的 藝術(shù)家。

      4. 處理空值

      數(shù)據(jù)集來(lái)源渠道不同,可能會(huì)出現(xiàn)空值的情況。我們需要數(shù)據(jù)集進(jìn)行預(yù)處理時(shí)。

      如果想看下數(shù)據(jù)集有哪些值是空值,可以使用 isnull() 函數(shù)來(lái)判斷。

      import pandas as pd

      df = pd.read_csv('music.csv')
      print(df.isnull())

      假設(shè)我們之前的音樂(lè)數(shù)據(jù)集中 有空值(NaN)的行。

      我們對(duì)之前的音樂(lè).csv 文件進(jìn)行判斷,得到結(jié)果如下:

      如果我想知道哪列存在空值,可以使用 df.isnull().any()

      結(jié)果如下:

      處理空值,Pandas 庫(kù)提供很多方式。最簡(jiǎn)單的辦法就是刪除空值的行。

      除此之外,還可以使用取其他數(shù)值的平均值,使用出現(xiàn)頻率高的值進(jìn)行填充缺失值。

      import pandas as pd

      # 將值填充為 0
      pd.fillna(0)

      5. 分組

      我們使用特定條件進(jìn)行分組并聚它們的數(shù)據(jù),也是很有意思的操作。比如,我們需要將數(shù)據(jù)集以音樂(lè)類型進(jìn)行分組,以便我們能更加方便、清晰了解每個(gè)音樂(lè)類型有多少聽(tīng)眾和播放量。


      上述代碼的的執(zhí)行過(guò)程是:Pandas 會(huì)將 Jazz 音樂(lè)類型的兩行數(shù)據(jù)聚合一組;我們調(diào)用了 sum() 函數(shù),Pandas  還會(huì)將這兩行數(shù)據(jù)端的 Listeners(聽(tīng)眾)和 Plays (播放量) 相加在一起,然后組合在 Jazz 列中顯示總和。

      這也是 Pandas 庫(kù)強(qiáng)大之處,能將多個(gè)操作進(jìn)行組合,然后顯示最終結(jié)果。


      6. 從現(xiàn)有列中創(chuàng)建新列

      通常在數(shù)據(jù)分析過(guò)程中,我們發(fā)現(xiàn)自己需要從現(xiàn)有列中創(chuàng)建新列,使用 Pandas 也是能輕而易舉搞定。


      - end -

        本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶 評(píng)論公約

        類似文章 更多