乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      【Python數(shù)據(jù)挖掘】第六篇

       highoo 2019-03-20

      一、Standardization

      方法一:StandardScaler

      1
      2
      3
      4
      5
      6
      from sklearn.preprocessing import StandardScaler
      sds = StandardScaler()
      sds.fit(x_train)
      x_train_sds = sds.transform(x_train)
      x_test_sds = sds.transform(x_test)

      方法二:MinMaxScaler  特征縮放至特定范圍 , default=(0, 1)

      1
      2
      3
      4
      5
      6
      from sklearn.preprocessing import MinMaxScaler
      mns = MinMaxScaler((0,1))
      mns.fit(x_train)
      x_train_mns = mns.transform(x_train)
      x_test_mns = mns.transform(x_test) 

      二、Normalization 使單個樣本具有單位范數(shù)的縮放操作。 經(jīng)常在文本分類和聚類當(dāng)中使用。

      1
      2
      3
      4
      5
      6
      from sklearn.preprocessing import Normalizer
      normalizer = Normalizer()
      normalizer.fit(x_train)
      x_train_nor = normalizer.transform(x_train)
      x_test_nor = normalizer.transform(x_test)

      三、Binarization 特征二值化是將數(shù)值型特征變成布爾型特征。

      1
      2
      3
      4
      5
      6
      from sklearn.preprocessing import Binarizer
      bi = Binarizer(threshold=0.0)           # 設(shè)置閾值默認(rèn)0.0  大于閾值設(shè)置為1 , 小于閾值設(shè)置為0
      XX = bi.fit_transform(x_train["xx"])    # shape (1行,X列)
      x_train["XX"] = XX.T
      # x_train["XX"] = XX[0,:]

      四、連續(xù)性變量劃分份數(shù)

      1
      2
      3
      4
      pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False)
      x:array-like   # 要分箱的數(shù)組
      binint        # 在x范圍內(nèi)的等寬單元的數(shù)量。
      <br>pd.cut(df["XXX"],5)

      進(jìn)行分箱操作后得到得值是字符串,還需要進(jìn)行Encoding categorical features

      五、one-hot Encoding / Encoding categorical features

      1
      2
      3
      4
      5
      pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False)
      dummy_na=False # 是否把 missing value單獨(dú)存放一列
      pd.get_dummies(df , columns = ['xx' , 'xx' , ... ])

      六、Imputation of missing values 缺失值處理

      ①、將無限大,無限小,Missing Value (NaN)替換成其他值;

      ②、sklearn 不接收包含NaN的值;

      1
      2
      3
      4
      5
      6
      7
      8
      class sklearn.preprocessing.Imputer(missing_values='NaN', strategy='mean', axis=0, verbose=0, copy=True)
      strategy :  (default=”mean”)   # median , most_frequent
      axis :      (default=0”)      # 表示用列上所有值進(jìn)行計算
      from sklearn.preprocessing import Imputer
      im =Imputer()
      im.fit_transform(df['xxx'])

      ③、使用無意義的值來填充,如-999。

      1
      2
      3
      4
      df.replace( np.inf , np.nan )
      # 先用NaN值替換,再用-999填充NaN值。
      df.fillna(-999)
      df.fillna(-1)    # 注意: -1與標(biāo)準(zhǔn)化的數(shù)值可能有意義關(guān)系

      七、Feature selection 特征選擇 

      ①:基于 L1-based feature selection

      1
      2
      3
      4
      5
      6
      7
      8
      9
      10
      11
      from sklearn.linear_model import Lasso
      lasso = Lasso()
      lasso.fit(xdata,ydata)
      lasso.coef_                       # 查看特征系數(shù)
      array([ 1.857204890.        , -0.037009540.09217834, -0.01157946,
             -0.536035430.72312094, -0.231194  1.26363755, -0.        ,
              0.        , -0.        0.        0.        0.        ,
             -0.        , -0.        , -0.        0.        , -0.        ,
              0.        5.21977984, -0.        , -0.        7.00192208,
             -0.        0.        0.        , -0.        ])

      可以發(fā)現(xiàn),經(jīng)過One-hot Encod的變量都變成0 , 需要手工進(jìn)一步篩選 , 不能去掉One-hot的變量 !

      利用模型進(jìn)行篩選的方法:

      1
      2
      3
      4
      5
      class sklearn.feature_selection.SelectFromModel(estimator, threshold=None, prefit=False)
      from sklearn.feature_selection import SelectFromModel
      model = SelectFromModel(lasso,prefit=True)
      x_new = model.transform(xdata)

      ②:基于 Tree-based feature selection

      采用 Random Forests

      1
      2
      3
      4
      5
      6
      7
      8
      from sklearn.ensemble import RandomForestRegressor
      rf = RandomForestRegressor()
      rf.fit(xdata,ydata)
      rf.feature_importances_
      array([  8.76227379e-02,   4.41726855e-02,   2.12394498e-02,
               1.98631826e-01,   1.75612945e-02,   6.72095736e-02,
               4.25518536e-01,   3.50132246e-02,   7.23241098e-02, ... ]

      非線性模型, 沒有系數(shù), 只有變量重要性!!!!

      變量重要性大,放前面, 小的刪除或者放后面

      ③:基于Removing features with low variance  移除所有方差不滿足閾值的特征

      1
      2
      3
      4
      5
      class sklearn.feature_selection.VarianceThreshold(threshold=0.0)
      from sklearn.feature_selection import VarianceThreshold
      v = VarianceThreshold(1)
      v.fit_transform(xdata)

      ④:基于Univariate feature selection  單變量特征選擇

      1、SelectKBest 移除得分前 k 名以外的所有特征

      1
      2
      3
      4
      class sklearn.feature_selection.SelectKBest(score_func=<function f_classif>, k=10)
      score_func : 統(tǒng)計指標(biāo)函數(shù)
      K : 個數(shù)

      模型衡量指標(biāo):

      導(dǎo)入相應(yīng)的函數(shù)即可!

      1
      2
      3
      4
      5
      from sklearn.feature_selection import SelectKBest
      from sklearn.feature_selection import f_regression
      skb = SelectKBest(f_regression,k=10)
      skb.fit_transform(xdata,ydata)
      xdata.shape

      2、移除得分在用戶指定百分比以后的特征

      1
      2
      3
      4
      class sklearn.feature_selection.SelectPercentile(score_func=<function f_classif>, percentile=10)
      score_func:采用統(tǒng)計指標(biāo)函數(shù)
      percentile:百分?jǐn)?shù)

      推薦使用 Feature importtance , Tree-base > L1-base > ... //

      八、Dimensionality reduction  減少要考慮的隨機(jī)變量的數(shù)量

      方法一:PCA ,主成分分析 , 計算協(xié)方差矩陣

      1
      2
      3
      4
      5
      6
      7
      sklearn.decomposition.PCA(n_components=None, copy=True, whiten=False, svd_solver='auto', tol=0.0, iterated_power='auto', random_state=None)
      # n_components : 設(shè)置留下來幾列
      from sklearn.decomposition import PCA
      pca = PCA(15)
      newdata = pca.fit_transform(xdata)
      newdata.shape

      univariate feature selection 與 PCA 區(qū)別:

      1/ 計算每一個feature 統(tǒng)計量 , 然后選擇前幾個

      2/ PCA 是考慮整個數(shù)據(jù)集 , 列與列存在關(guān)系 , 計算整個矩陣方差共線,

      1
      2
      pca.explained_variance_            # 可解釋的方差
      pca.explained_variance_ratio_      # 百分比

      注意:PCA 前先將數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化!!!

      1
      2
      3
      from sklearn.preprocessing import StandardScaler
      ss = StandardScaler()
      pca.fit_transform(ss.fit_transform(xdata))

      方法二:TruncatedSVD 

      TruncatedSVD 原來N列 可以選擇指定保留k列 , 降維

      SVD  產(chǎn)生N*N矩陣 , 沒有降維

      1
      2
      3
      sklearn.decomposition.TruncatedSVD(n_components=2, algorithm='randomized', n_iter=5, random_state=None, tol=0.0)
      n_components:int  , 輸出數(shù)據(jù)的期望維度。

      九、思維導(dǎo)圖

      十、fit、fit_transform和transform的區(qū)別 

        我們使用sklearn進(jìn)行文本特征提取/預(yù)處理數(shù)據(jù)??梢钥吹匠?xùn)練,預(yù)測和評估以外,處理其他工作的類都實(shí)現(xiàn)了3個方法:fit、transform和fit_transform。

        從命名中可以看到,fit_transform方法是先調(diào)用fit然后調(diào)用transform,我們只需要關(guān)注fit方法和transform方法即可。

        transform方法主要用來對特征進(jìn)行轉(zhuǎn)換。從可利用信息的角度來說,轉(zhuǎn)換分為無信息轉(zhuǎn)換有信息轉(zhuǎn)換

      • 無信息轉(zhuǎn)換是指不利用任何其他信息進(jìn)行轉(zhuǎn)換,比如指數(shù)、對數(shù)函數(shù)轉(zhuǎn)換等。

      • 有信息轉(zhuǎn)換從是否利用目標(biāo)值向量又可分為無監(jiān)督轉(zhuǎn)換有監(jiān)督轉(zhuǎn)換。

        • 無監(jiān)督轉(zhuǎn)換指只利用特征的統(tǒng)計信息的轉(zhuǎn)換,統(tǒng)計信息包括均值、標(biāo)準(zhǔn)差、邊界等等,比如標(biāo)準(zhǔn)化、PCA法降維等。

        • 有監(jiān)督轉(zhuǎn)換指既利用了特征信息又利用了目標(biāo)值信息的轉(zhuǎn)換,比如通過模型選擇特征、LDA法降維等。

        通過總結(jié)常用的轉(zhuǎn)換類,我們得到下表:

        fit方法主要對整列,整個feature進(jìn)行操作,但是對于處理樣本獨(dú)立的操作類,fit操作沒有實(shí)質(zhì)作用!

       

      十一、特征工程選擇

      • 時間

      • 空間

      • 比率值

      • 變化率

       

       

       

       

      變化率例子:  10月 :  (20% - 10%) / 10% = 100%

       

        本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多