乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      ML之FE:利用【數(shù)據(jù)分析+數(shù)據(jù)處理】算法對(duì)國(guó)內(nèi)某平臺(tái)上海2020年6月份房?jī)r(jià)數(shù)據(jù)集【12+1】進(jìn)行特征工程處理(史上最完整,建議收藏)

       處女座的程序猿 2021-09-28

      ML之FE:利用【數(shù)據(jù)分析+數(shù)據(jù)處理】算法對(duì)國(guó)內(nèi)某平臺(tái)上海2020年6月份房?jī)r(jià)數(shù)據(jù)集【12+1】進(jìn)行特征工程處理(史上最完整,建議收藏)


      相關(guān)文章
      ML之FE:利用【數(shù)據(jù)分析+數(shù)據(jù)處理】算法對(duì)國(guó)內(nèi)某平臺(tái)上海2020年6月份房?jī)r(jià)數(shù)據(jù)集【12+1】進(jìn)行特征工程處理(史上最完整,建議收藏)
      ML之FE:利用【數(shù)據(jù)分析+數(shù)據(jù)處理】算法對(duì)國(guó)內(nèi)某平臺(tái)上海2020年6月份房?jī)r(jià)數(shù)據(jù)集【12+1】進(jìn)行特征工程處理實(shí)現(xiàn)
      ML之FE:利用【數(shù)據(jù)分析+數(shù)據(jù)處理】算法對(duì)國(guó)內(nèi)某平臺(tái)上海2020年6月份房?jī)r(jià)數(shù)據(jù)集【12+1】進(jìn)行特征工程處理(史上最完整,建議收藏)——附錄
      ML之FE:利用【數(shù)據(jù)分析+數(shù)據(jù)處理】算法對(duì)國(guó)內(nèi)某平臺(tái)上海2020年6月份房?jī)r(jià)數(shù)據(jù)集【12+1】進(jìn)行特征工程處理實(shí)現(xiàn)
      ML之回歸預(yù)測(cè):利用多個(gè)算法模型(LassoR、KernelRidgeR、ElasticNetR、GBR、LGBMR、XGBR)對(duì)國(guó)內(nèi)某平臺(tái)上海2020年6月份房?jī)r(jià)數(shù)據(jù)集【12+1】進(jìn)行回歸預(yù)測(cè)
      ML之回歸預(yù)測(cè):利用多個(gè)算法模型(LassoR、KernelRidgeR、ElasticNetR、GBR、LGBMR、XGBR)對(duì)國(guó)內(nèi)某平臺(tái)上海2020年6月份房?jī)r(jià)數(shù)據(jù)集【12+1】進(jìn)行回歸預(yù)測(cè)實(shí)現(xiàn)

      利用【數(shù)據(jù)分析+數(shù)據(jù)處理】算法對(duì)鏈家房?jī)r(jià)數(shù)據(jù)集【12+1】進(jìn)行特征工程處理

      1、數(shù)據(jù)集信息輸出

      1.3、數(shù)據(jù)集基本信息

       (3000, 13) 13 3000
         
       total_price         object
      unit_price          object
      roomtype            object
      height              object
      direction           object
      decorate            object
      area                object
      age                float64
      garden              object
      district            object
      total_price_Num    float64
      unit_price_Num       int64
      area_Num           float64
      dtype: object
       
       Index(['total_price', 'unit_price', 'roomtype', 'height', 'direction',
             'decorate', 'area', 'age', 'garden', 'district', 'total_price_Num',
             'unit_price_Num', 'area_Num'],
            dtype='object')
       
         total_price unit_price roomtype  ... total_price_Num unit_price_Num area_Num
      0        290萬(wàn)  46186元/平米     2室1廳  ...           290.0          46186    62.79
      1        599萬(wàn)  76924元/平米     2室1廳  ...           599.0          76924    77.87
      2        420萬(wàn)  51458元/平米     2室1廳  ...           420.0          51458    81.62
      3      269.9萬(wàn)  34831元/平米     2室2廳  ...           269.9          34831    77.49
      4        383萬(wàn)  79051元/平米     1室1廳  ...           383.0          79051    48.45
      
      [5 rows x 13 columns]
      
            total_price unit_price roomtype  ... total_price_Num unit_price_Num area_Num
      2995        230萬(wàn)  43144元/平米     1室1廳  ...           230.0          43144    53.31
      2996        372萬(wàn)  75016元/平米     1室1廳  ...           372.0          75016    49.59
      2997        366萬(wàn)  49973元/平米     2室1廳  ...           366.0          49973    73.24
      2998        365萬(wàn)  69103元/平米     2室1廳  ...           365.0          69103    52.82
      2999        420萬(wàn)  49412元/平米     2室2廳  ...           420.0          49412    85.00
      
      [5 rows x 13 columns]
      <class 'pandas.core.frame.DataFrame'>
      RangeIndex: 3000 entries, 0 to 2999
      Data columns (total 13 columns):
       #   Column           Non-Null Count  Dtype  
      ---  ------           --------------  -----  
       0   total_price      3000 non-null   object 
       1   unit_price       3000 non-null   object 
       2   roomtype         3000 non-null   object 
       3   height           3000 non-null   object 
       4   direction        3000 non-null   object 
       5   decorate         3000 non-null   object 
       6   area             3000 non-null   object 
       7   age              2888 non-null   float64
       8   garden           3000 non-null   object 
       9   district         3000 non-null   object 
       10  total_price_Num  3000 non-null   float64
       11  unit_price_Num   3000 non-null   int64  
       12  area_Num         3000 non-null   float64
      dtypes: float64(3), int64(1), object(9)
      memory usage: 304.8+ KB
       
                      age  total_price_Num  unit_price_Num     area_Num
      count  2888.000000      3000.000000     3000.000000  3000.000000
      mean   2001.453601       631.953450    58939.028333   102.180667
      std       9.112425       631.308855    25867.208297    62.211662
      min    1911.000000        90.000000    11443.000000    17.050000
      25%    1996.000000       300.000000    40267.500000    67.285000
      50%    2003.000000       437.000000    54946.000000    89.230000
      75%    2008.000000       738.000000    73681.250000   119.035000
      max    2018.000000      9800.000000   250813.000000   801.140000

      1.4、數(shù)據(jù)集類(lèi)型分類(lèi)

      完整詳看ML之FE:利用【數(shù)據(jù)分析+數(shù)據(jù)處理】算法對(duì)國(guó)內(nèi)某平臺(tái)2020年6月份房?jī)r(jià)數(shù)據(jù)集【12+1】進(jìn)行特征工程處理(史上最完整,建議收藏)——附錄

      依次返回?cái)?shù)值型、類(lèi)別型字段、 
       ['age', 'area_Num', 'unit_price_Num', 'total_price_Num'] 
       ['total_price', 'unit_price', 'roomtype', 'height', 'direction', 'decorate', 'area', 'garden', 'district']
      
      Categ_cols_Unique
      依次查看訓(xùn)練集、測(cè)試集中,類(lèi)別型字段的細(xì)分類(lèi)
      total_price ['1000萬(wàn)', '100萬(wàn)', '1010萬(wàn)', '1019萬(wàn)', '1020萬(wàn)', '1025萬(wàn)', '1030萬(wàn)', '1035萬(wàn)', '1038萬(wàn)', '1040萬(wàn)', '1050萬(wàn)', '1057萬(wàn)', '1058萬(wàn)', '105萬(wàn)', '1060萬(wàn)', '1065萬(wàn)', '1070^……
      
      米', '99904元/平米', '99927元/平米', '99974元/平米']
      roomtype ['1室0廳', '1室1廳', '1室2廳', '2室0廳', '2室1廳', '2室2廳', '3室0廳', '3室1廳', '3室2廳', '3室3廳', '4室1廳', '4室2廳', '4室3廳', '5室1廳', '5室2廳', '5室3廳', '5室4廳', '6室2廳', '6室3廳', '6室4廳', '7室2廳', '9室6廳']
      height ['上疊別墅/共4層', '下疊別墅/共3層', '下疊別墅/共4層', '下疊別墅/共5層', '下疊別墅/共6層', '中樓層/共10層', '中樓層/共11層', '中樓層/共12層', '中樓層/共13層', '中樓層/共14層', '中
      樓層/共15層', '中樓層/共16層', '中樓層/共17層', '中樓層/共18層', '中樓層/共19層', '中樓層/共20
      
      ……
      
      村', '首創(chuàng)旭輝城', '首創(chuàng)禧悅(一期)', '首創(chuàng)錦悅', '香山新村東北街坊', '香山新村東南街坊', '香山新村西北街坊', '香山新村西南街坊', '香樹(shù)麗舍', '香梅花園(二期)', '香楠小區(qū)', '香榭苑', '香樟公寓', '香樟苑(普陀)', '香水灣', '香溢花城(住宅)', '馨佳園(菊泉街1280弄)', '馨佳園(菊泉街1281弄)', '馨佳園(菊泉街1398弄)', '馨佳園(菊盛路851弄)', '馨佳園(韶山路419弄)', '馨寧公寓', '馬陸清水灣', '駿豪國(guó)際', '高境一村', '高境二村', '高安公寓', '高海家苑', '高行綠洲(六期)', '高行綠洲(四期)', '高行馨苑', '鴻凱灣綠苑', '鴻吉苑', '鴻基公寓', '鴻寶一村(北區(qū))', '鴻寶一村(南區(qū))', '鴻寶二村', '鴻寶新村', '鵬豐苑', '鵬宏苑', '鵬海小區(qū)', '鵬潤(rùn)伊頓公館', '鶴北新村', '黃山始信苑', '黃山新村', '黃山新苑', '黃浦新苑(公寓)', '黎安三村', '黎安二村', '黎明花園', '鼎信公寓', '鼎鑫名流世家', '齊七小區(qū)', '龍華小區(qū)', '龍庭公寓', '龍柏七村', '龍柏三村', '龍柏二村', '龍柏四村', '龍柏香榭苑', '龍澤園', '龍湖蔚瀾香醍', '龍湖酈城', '龔家宅']
      district ['嘉定', '奉賢', '寶山', '徐匯', '普陀', '楊浦', '松江', '浦東', '虹口', '金山', '長(zhǎng)寧', '閔行', '青浦', '靜安', '黃浦']
      
      
      Num_cols_Plot
      total_price_Num [290 599 420 ... 366 365 420]
      unit_price_Num [46186 76924 51458 ... 49973 69103 49412]
      age [1993 2005 1995 ... 1995 1990 2011]
      area_Num [62 77 81 ... 73 52 85]
      

      1.5、缺失值處理

      該數(shù)據(jù)集中包含缺失數(shù)據(jù)!輸出缺失數(shù)據(jù)所在坐標(biāo)(表格形式輸出)
      data_Frame_null_count.csv 已經(jīng)成功保存到當(dāng)前文件夾!
      依次判斷每列是否含有缺失數(shù)據(jù): 
       False    12
      True      1
      dtype: int64
      依次計(jì)算每列缺失值元素個(gè)數(shù): 
       13 [0, 0, 0, 0, 0, 0, 0, 112, 0, 0, 0, 0, 0]
      Missing_data_Per_dict_0: (12, 0.9231, {'total_price': 0.0, 'unit_price': 0.0, 'roomtype': 0.0, 'height': 0.0, 'direction': 0.0, 'decorate': 0.0, 'area': 0.0, 'garden': 0.0, 'district': 0.0, 'total_price_Num': 0.0, 'unit_price_Num': 0.0, 'area_Num': 0.0})
      Missing_data_Per_dict_Not0: (1, 0.0769, {'age': 0.037333})
      Missing_data_Per_dict_Over05: (0, 0.0, {})
      Missing_data_Per_dict_1: (0, 0.0, {})
      Missing_data_Per_dict_09: (0, 0.0, {})
      Missing_data_Per_dict_08: (0, 0.0, {})
      Missing_data_Per_dict_under01: (1, 0.0769, {'age': 0.037333})
      依次計(jì)算每列缺失值元素占比: {'age': 0.037333}
      data_Missing_dict {'total_price': 0.0, 'unit_price': 0.0, 'roomtype': 0.0, 'height': 0.0, 'direction': 0.0, 'decorate': 0.0, 'area': 0.0, 'age': 0.037333333333333336, 'garden': 0.0, 'district': 0.0, 'total_price_Num': 0.0, 'unit_price_Num': 0.0, 'area_Num': 0.0}
      

      2、特征工程

      2.1、數(shù)據(jù)分析之單變量統(tǒng)計(jì)可視化分析:

      2.1.1、統(tǒng)計(jì)每個(gè)字段

      統(tǒng)計(jì)字段名及其對(duì)應(yīng)長(zhǎng)度: roomtype 22
      ['2室1廳' '2室2廳' '1室1廳' '3室2廳' '1室0廳' '3室1廳' '2室0廳' '1室2廳' '4室3廳' '5室2廳'
       '4室2廳' '5室3廳' '3室0廳' '5室1廳' '5室4廳' '6室4廳' '6室2廳' '6室3廳' '7室2廳' '9室6廳'
       '3室3廳' '4室1廳']
      roomtype字段下所有類(lèi)別     對(duì)應(yīng)數(shù)量
      2室2廳    751
      3室2廳    706
      2室1廳    622
      1室1廳    323
      4室2廳    192
      3室1廳    174
      1室0廳     47
      2室0廳     37
      1室2廳     37
      5室2廳     35
      4室3廳     25
      5室3廳     17
      6室2廳      9
      6室3廳      5
      5室1廳      5
      3室3廳      4
      3室0廳      3
      5室4廳      3
      4室1廳      2
      7室2廳      1
      6室4廳      1
      9室6廳      1
      Name: roomtype, dtype: int64
      統(tǒng)計(jì)字段名及其對(duì)應(yīng)長(zhǎng)度: height 138
      ['高樓層/共6層' '低樓層/共6層' '中樓層/共6層' '高樓層/共18層' '低樓層/共9層' '中樓層/共5層' '高樓層/共11層'
       '高樓層/共4層' '高樓層/共32層' '中樓層/共7層' '高樓層/共30層' '中樓層/共12層' '中樓層/共24層' '低樓層/共4層'
       '低樓層/共5層' '中樓層/共13層' '中樓層/共11層' '低樓層/共7層' '高樓層/共8層' '中樓層/共18層' '中樓層/共14層'
       '低樓層/共17層' '中樓層/共30層' '低樓層/共18層' '高樓層/共13層' '中樓層/共31層' '中樓層/共29層'
       '獨(dú)棟/共2層' '高樓層/共29層' '低樓層/共30層' '低樓層/共15層' '高樓層/共28層' '聯(lián)排/共3層' '中樓層/共8層'
       '中樓層/共56層' '低樓層/共16層' '低樓層/共56層' '低樓層/共32層' '高樓層/共7層' '高樓層/共5層' '中樓層/共9層'
       '高樓層/共33層' '高樓層/共22層' '低樓層/共26層' '中樓層/共35層' '低樓層/共23層' '低樓層/共35層'
       '中樓層/共19層' '中樓層/共17層' '高樓層/共31層' '低樓層/共38層' '低樓層/共28層' '低樓層/共22層'
       '低樓層/共24層' '中樓層/共16層' '高樓層/共25層' '低樓層/共14層' '雙拼/共2層' '中樓層/共4層' '高樓層/共17層'
       '低樓層/共34層' '中樓層/共28層' '高樓層/共24層' '中樓層/共20層' '低樓層/共12層' '高樓層/共16層'
       '中樓層/共25層' '聯(lián)排/共1層' '中樓層/共15層' '高樓層/共34層' '低樓層/共49層' '中樓層/共10層'
       '低樓層/共11層' '高樓層/共14層' '中樓層/共21層' '中樓層/共32層' '共3層' '中樓層/共38層' '共1層'
       '低樓層/共19層' '中樓層/共22層' '中樓層/共33層' '低樓層/共13層' '低樓層/共20層' '高樓層/共12層'
       '中樓層/共37層' '高樓層/共15層' '低樓層/共25層' '低樓層/共31層' '高樓層/共26層' '高樓層/共9層' '雙拼/共3層'
       '低樓層/共33層' '高樓層/共20層' '高樓層/共40層' '低樓層/共21層' '低樓層/共10層' '上疊別墅/共4層'
       '低樓層/共2層' '低樓層/共8層' '低樓層/共61層' '中樓層/共59層' '高樓層/共36層' '中樓層/共27層'
       '下疊別墅/共6層' '高樓層/共10層' '高樓層/共27層' '高樓層/共21層' '低樓層/共3層' '高樓層/共37層'
       '高樓層/共49層' '低樓層/共27層' '高樓層/共19層' '中樓層/共34層' '低樓層/共1層' '高樓層/共35層'
       '低樓層/共43層' '低樓層/共51層' '中樓層/共39層' '低樓層/共29層' '中樓層/共36層' '高樓層/共43層'
       '聯(lián)排/共2層' '中樓層/共23層' '獨(dú)棟/共3層' '高樓層/共23層' '高樓層/共39層' '共2層' '高樓層/共38層'
       '高樓層/共45層' '中樓層/共63層' '中樓層/共26層' '下疊別墅/共5層' '下疊別墅/共3層' '下疊別墅/共4層'
       '低樓層/共37層' '低樓層/共41層' '高樓層/共58層']
      height字段下所有類(lèi)別     對(duì)應(yīng)數(shù)量
      高樓層/共6層     557
      中樓層/共6層     335
      低樓層/共6層     260
      中樓層/共5層      90
      低樓層/共18層     84
                 ... 
      下疊別墅/共3層      1
      中樓層/共59層      1
      低樓層/共41層      1
      高樓層/共58層      1
      高樓層/共43層      1
      Name: height, Length: 138, dtype: int64
      統(tǒng)計(jì)字段名及其對(duì)應(yīng)長(zhǎng)度: direction 34
      ['南' '南 北' '東南' '東 南' '北 西北' '東北' '西' '西南' '東南 南' '南 西南' '東' '南 西 北' '西 東'
       '東 東南' '北' '南 西' '東 西' '北 南' '西南 西北' '暫無(wú)數(shù)據(jù)' '東 北' '東南 西北' '西北' '東南 西'
       '東北 南 北' '東 南 北' '西 東北' '南 東南' '南 北 東 東南' '南 東' '南 北 西' '西 北 南' '西 北'
       '東南 南 西北 北']
      direction字段下所有類(lèi)別     對(duì)應(yīng)數(shù)量
      南            2131
      南 北           653
      東南             50
      西南             46
      西              19
      東              13
      北              12
      南 西             8
      北 南             7
      東南 南            7
      南 西南            6
      東北              5
      暫無(wú)數(shù)據(jù)            5
      東 南             5
      南 西 北           4
      西 東             3
      東 西             3
      西北              3
      東 東南            3
      東 北             2
      北 西北            2
      西 北 南           1
      東 南 北           1
      南 北 東 東南        1
      西南 西北           1
      西 北             1
      東北 南 北          1
      東南 南 西北 北       1
      南 北 西           1
      南 東             1
      東南 西北           1
      西 東北            1
      南 東南            1
      東南 西            1
      Name: direction, dtype: int64
      統(tǒng)計(jì)字段名及其對(duì)應(yīng)長(zhǎng)度: decorate 18
      ['平層/簡(jiǎn)裝' '平層/精裝' '簡(jiǎn)裝' '平層/毛坯' '精裝' '復(fù)式/精裝' '平層/其他' '躍層/精裝' '錯(cuò)層/精裝' '復(fù)式/簡(jiǎn)裝'
       '復(fù)式/其他' '錯(cuò)層/其他' '錯(cuò)層/簡(jiǎn)裝' '復(fù)式/毛坯' '躍層/簡(jiǎn)裝' '毛坯' '錯(cuò)層/毛坯' '躍層/毛坯']
      decorate字段下所有類(lèi)別     對(duì)應(yīng)數(shù)量
      平層/精裝    1428
      平層/簡(jiǎn)裝     997
      平層/毛坯     247
      復(fù)式/精裝     166
      平層/其他      57
      復(fù)式/簡(jiǎn)裝      39
      復(fù)式/毛坯      17
      錯(cuò)層/精裝      16
      精裝          9
      簡(jiǎn)裝          5
      復(fù)式/其他       5
      躍層/精裝       5
      錯(cuò)層/簡(jiǎn)裝       2
      躍層/簡(jiǎn)裝       2
      躍層/毛坯       2
      錯(cuò)層/毛坯       1
      毛坯          1
      錯(cuò)層/其他       1
      Name: decorate, dtype: int64
      統(tǒng)計(jì)字段名及其對(duì)應(yīng)長(zhǎng)度: garden 1859
      ['國(guó)和一村' '虹康花苑(三期)' '紀(jì)念小區(qū)' ... '南新東園' '遵義西大樓' '象嶼名城']
      garden字段下所有類(lèi)別     對(duì)應(yīng)數(shù)量
      新南家園         15
      世茂濱江花園       13
      田林十二村        10
      萬(wàn)馨佳園          9
      文怡花園          9
                   ..
      中海萬(wàn)錦城(三期)     1
      天山華庭          1
      靜安晶華園         1
      檀香花苑(公寓)      1
      陸家嘴花園(一期)     1
      Name: garden, Length: 1859, dtype: int64
      統(tǒng)計(jì)字段名及其對(duì)應(yīng)長(zhǎng)度: district 15
      ['楊浦' '長(zhǎng)寧' '虹口' '松江' '閔行' '寶山' '靜安' '徐匯' '浦東' '黃浦' '普陀' '嘉定' '奉賢' '金山'
       '青浦']
      district字段下所有類(lèi)別     對(duì)應(yīng)數(shù)量
      浦東    794
      閔行    400
      徐匯    268
      靜安    228
      寶山    208
      普陀    169
      嘉定    155
      松江    146
      楊浦    141
      長(zhǎng)寧    135
      奉賢     95
      黃浦     89
      青浦     63
      金山     55
      虹口     54
      Name: district, dtype: int64
      Name: district, dtype: int64
      {'浦東': 794, '閔行': 400, '徐匯': 268, '靜安': 228, '寶山': 208, '普陀': 169, '嘉定': 155, '松江': 146, '楊浦': 141, '長(zhǎng)寧': 135, '奉賢': 95, '黃浦': 89, '青浦': 63, '金山': 55, '虹口': 54}
      

      2.1.2、對(duì)指定特征單變量統(tǒng)計(jì)可視化

      (1)、常用于R預(yù)測(cè)對(duì)標(biāo)簽特征分析

      count    3000.000000
      mean      631.953450
      std       631.308855
      min        90.000000
      25%       300.000000
      50%       437.000000
      75%       738.000000
      max      9800.000000
      Name: total_price_Num, dtype: float64

      (2)、常用于C預(yù)測(cè)對(duì)標(biāo)簽特征分析

      T1、各個(gè)特征內(nèi)統(tǒng)計(jì)類(lèi)別柱狀圖可視化?

      2.2、關(guān)聯(lián)分析

      2.3、分析之Num

      2.3.1、Num變量之間PCC可視化

                        total_price_Num  unit_price_Num       age  area_Num
      total_price_Num         1.000000        0.638882 -0.101234  0.787404
      unit_price_Num          0.638882        1.000000 -0.037053  0.184717
      age                    -0.101234       -0.037053  1.000000 -0.075594
      area_Num                0.787404        0.184717 -0.075594  1.000000
      data_Frame_corr_df.csv已經(jīng)成功保存到當(dāng)前文件夾!

      2.3.2、Num變量之間MIC可視化

      2.3.3、Num尋找異常點(diǎn)

      T1、利用散點(diǎn)圖scatter尋找異常點(diǎn)

      T2、利用BP尋找異常點(diǎn)

      2.3.4、Num PCP圖可視化

      2.4、處理之Num

      2.4.1、刪除指定成對(duì)列的異常值點(diǎn)

      2.4.2、修正目標(biāo)特征的數(shù)據(jù)分布

      (1)、標(biāo)簽特征數(shù)據(jù)分布曲線(xiàn)、散點(diǎn)圖可視化

      (2)、符合正態(tài)分布的特征進(jìn)行l(wèi)og操作
      (3)、非正態(tài)分布特征進(jìn)行box-cox操作

       mu = 631.95 and sigma = 631.20
      
      繪制Q-Q分位數(shù)圖:看是否與理論的一致
      skewness: 
                            Skew
      area_Num         3.448604
      unit_price_Num   1.121800
      total_price_Num  0.639867
      age             -4.876660

      (4)、再次觀察所有特征分布

      skewness:                      Skew
      area_Num         3.448604
      unit_price_Num   1.121800
      total_price_Num       NaN
      age             -4.876660
      總共有 4 數(shù)值型的特征做變換
      dataset.head: 
         total_price unit_price roomtype  ... total_price_Num unit_price_Num  area_Num
      0        290萬(wàn)  46186元/平米     2室1廳  ...        2.195911      26.721049  5.767642
      1        599萬(wàn)  76924元/平米     2室1廳  ...        2.333830      29.376162  6.169801
      2        420萬(wàn)  51458元/平米     2室1廳  ...        2.267808      27.266778  6.259553
      3      269.9萬(wàn)  34831元/平米     2室2廳  ...        2.181588      25.337425  6.160505
      4        383萬(wàn)  79051元/平米     1室1廳  ...        2.250204      29.523924  5.301667
      
      [5 rows x 13 columns]
      age [14 14 14 ... 14 14 14]
      area_Num [5 6 6 ... 6 5 6]
      unit_price_Num [26 29 27 ... 27 28 27]
      total_price_Num [2 2 2 ... 2 2 2]

      ?

      2.5、處理之Cat

      2.5.1、單獨(dú)分析兩個(gè)特征的分布

      2.5.2、數(shù)值化

      T1法、T2法

      DF_types: 
       total_price         object
      unit_price          object
      roomtype            object
      height              object
      direction           object
      decorate            object
      area                object
      age                float64
      garden              object
      district            object
      total_price_Num    float64
      unit_price_Num     float64
      area_Num           float64
      dtype: object
      Col_dtypes_objects: 
       Index(['total_price', 'unit_price', 'roomtype', 'height', 'direction',
             'decorate', 'area', 'garden', 'district'],
            dtype='object')
         total_price  unit_price  roomtype  ...  total_price_Num  unit_price_Num  area_Num
      0          316        1125         4  ...         2.195911       26.721049  5.767642
      1          560        2258         4  ...         2.333830       29.376162  6.169801
      2          445        1350         4  ...         2.267808       27.266778  6.259553
      3          287         634         5  ...         2.181588       25.337425  6.160505
      4          410        2315         1  ...         2.250204       29.523924  5.301667
      
      [5 rows x 13 columns]
      非樹(shù)類(lèi)算法,正在進(jìn)行啞變量化
      DF_types: 
       total_price          int64
      unit_price           int64
      roomtype             int64
      height               int64
      direction            int64
      decorate             int64
      area                 int64
      age                float64
      garden               int64
      district             int64
      total_price_Num    float64
      unit_price_Num     float64
      area_Num           float64
      dtype: object
      Col_dtypes_int64s: 
       Index(['total_price', 'unit_price', 'roomtype', 'height', 'direction',
             'decorate', 'area', 'garden', 'district'],
            dtype='object')
      Col_dtypes_float64s: 
       Index(['age', 'total_price_Num', 'unit_price_Num', 'area_Num'], dtype='object')
               age  total_price_Num  ...  district_8  district_9
      0  14.171884         2.195911  ...           0           0
      1  14.190647         2.333830  ...           0           0
      2  14.175018         2.267808  ...           1           0
      3  14.196881         2.181588  ...           0           0
      4  14.176584         2.250204  ...           0           0
      
      [5 rows x 7784 columns]
      dataset             age  total_price_Num  ...  district_8  district_9
      0     14.171884         2.195911  ...           0           0
      1     14.190647         2.333830  ...           0           0
      2     14.175018         2.267808  ...           1           0
      3     14.196881         2.181588  ...           0           0
      4     14.176584         2.250204  ...           0           0
      ...         ...              ...  ...         ...         ...
      2995  14.198437         2.149222  ...           0           0
      2996  14.192207         2.244601  ...           0           0
      2997  14.175018         2.241467  ...           0           0
      2998  14.167178         2.240939  ...           0           0
      2999  14.199993         2.267808  ...           0           0
      
      [3000 rows x 7784 columns]
      

      設(shè)計(jì)思路

        本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶(hù)發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶(hù) 評(píng)論公約

        類(lèi)似文章 更多