乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      不足 20 行 Python 代碼,高效實(shí)現(xiàn) k-means 均值聚類算法!

       Four兄 2019-10-03

      scikti-learn 將機(jī)器學(xué)習(xí)分為4個(gè)領(lǐng)域,分別是分類(classification)、聚類(clustering)、回歸(regression)和降維(dimensionality reduction)。k-means均值算法雖然是聚類算法中比較簡單的一種,卻包含了豐富的思想內(nèi)容,非常適合作為初學(xué)者的入門習(xí)題。
      關(guān)于 k-means 均值聚類算法的原理介紹、實(shí)現(xiàn)代碼,網(wǎng)上有很多,但運(yùn)行效率似乎都有點(diǎn)問題。今天稍微有點(diǎn)空閑,寫了一個(gè)不足20行的 k-means 均值聚類算法,1萬個(gè)樣本平均耗時(shí)20毫秒(10次均值)。同樣的數(shù)據(jù)樣本,網(wǎng)上流行的算法平均耗時(shí)3000毫秒(10次均值)。差距竟然達(dá)百倍以上,令我深感意外,不由得再次向 numpy 獻(xiàn)上膝蓋!
      以下是我的代碼,包含注釋、空行總共26行,有效代碼16行。
      1import numpy as np
      2
      3def kmeans_xufive(ds, k):
      4    '''k-means聚類算法
      5
      6    k       - 指定分簇?cái)?shù)量
      7    ds      - ndarray(m, n),m個(gè)樣本的數(shù)據(jù)集,每個(gè)樣本n個(gè)屬性值
      8    '''

      9
      10    m, n = ds.shape # m:樣本數(shù)量,n:每個(gè)樣本的屬性值個(gè)數(shù)
      11    result = np.empty(m, dtype=np.int) # m個(gè)樣本的聚類結(jié)果
      12    cores = np.empty((k, n)) # k個(gè)質(zhì)心
      13    cores = ds[np.random.choice(np.arange(m), k, replace=False)] # 從m個(gè)數(shù)據(jù)樣本中不重復(fù)地隨機(jī)選擇k個(gè)樣本作為質(zhì)心
      14
      15    while True# 迭代計(jì)算
      16        d = np.square(np.repeat(ds, k, axis=0).reshape(m, k, n) - cores)
      17        distance = np.sqrt(np.sum(d, axis=2)) # ndarray(m, k),每個(gè)樣本距離k個(gè)質(zhì)心的距離,共有m行
      18        index_min = np.argmin(distance, axis=1# 每個(gè)樣本距離最近的質(zhì)心索引序號(hào)
      19
      20        if (index_min == result).all(): # 如果樣本聚類沒有改變
      21            return result, cores # 則返回聚類結(jié)果和質(zhì)心數(shù)據(jù)
      22
      23        result[:] = index_min # 重新分類
      24        for i in range(k): # 遍歷質(zhì)心集
      25            items = ds[result==i] # 找出對應(yīng)當(dāng)前質(zhì)心的子樣本集
      26            cores[i] = np.mean(items, axis=0# 以子樣本集的均值作為當(dāng)前質(zhì)心的位置
      這是網(wǎng)上比較流行的 k-means 均值聚類算法代碼,包含注釋、空行總共57行,有效代碼37行。
       1import numpy as np
      2
      3# 加載數(shù)據(jù)
      4def loadDataSet(fileName):
      5    data = np.loadtxt(fileName,delimiter='\t')
      6    return data
      7
      8# 歐氏距離計(jì)算
      9def distEclud(x,y):
      10    return np.sqrt(np.sum((x-y)**2))  # 計(jì)算歐氏距離
      11
      12# 為給定數(shù)據(jù)集構(gòu)建一個(gè)包含K個(gè)隨機(jī)質(zhì)心的集合
      13def randCent(dataSet,k):
      14    m,n = dataSet.shape
      15    centroids = np.zeros((k,n))
      16    for i in range(k):
      17        index = int(np.random.uniform(0,m)) #
      18        centroids[i,:] = dataSet[index,:]
      19    return centroids
      20
      21# k均值聚類
      22def kmeans_open(dataSet,k):
      23
      24    m = np.shape(dataSet)[0]  #行的數(shù)目
      25    # 第一列存樣本屬于哪一簇
      26    # 第二列存樣本的到簇的中心點(diǎn)的誤差
      27    clusterAssment = np.mat(np.zeros((m,2)))
      28    clusterChange = True
      29
      30    # 第1步 初始化centroids
      31    centroids = randCent(dataSet,k)
      32    while clusterChange:
      33        clusterChange = False
      34
      35        # 遍歷所有的樣本(行數(shù))
      36        for i in range(m):
      37            minDist = 100000.0
      38            minIndex = -1
      39
      40            # 遍歷所有的質(zhì)心
      41            #第2步 找出最近的質(zhì)心
      42            for j in range(k):
      43                # 計(jì)算該樣本到質(zhì)心的歐式距離
      44                distance = distEclud(centroids[j,:],dataSet[i,:])
      45                if distance < minDist:
      46                    minDist = distance
      47                    minIndex = j
      48            # 第 3 步:更新每一行樣本所屬的簇
      49            if clusterAssment[i,0] != minIndex:
      50                clusterChange = True
      51                clusterAssment[i,:] = minIndex,minDist**2
      52        #第 4 步:更新質(zhì)心
      53        for j in range(k):
      54            pointsInCluster = dataSet[np.nonzero(clusterAssment[:,0].A == j)[0]]  # 獲取簇類所有的點(diǎn)
      55            centroids[j,:] = np.mean(pointsInCluster,axis=0)   # 對矩陣的行求均值
      56
      57    return clusterAssment.A[:,0], centroids
      函數(shù)create_data_set(),用于生成測試數(shù)據(jù)??勺儏?shù) cores 是多個(gè)三元組,每一個(gè)三元組分別是質(zhì)心的x坐標(biāo)、y坐標(biāo)和對應(yīng)該質(zhì)心的數(shù)據(jù)點(diǎn)的數(shù)量。
      1def create_data_set(*cores):
      2    '''生成k-means聚類測試用數(shù)據(jù)集'''
      3
      4    ds = list()
      5    for x0, y0, z0 in cores:
      6        x = np.random.normal(x0, 0.1+np.random.random()/3, z0)
      7        y = np.random.normal(y0, 0.1+np.random.random()/3, z0)
      8        ds.append(np.stack((x,y), axis=1))
      9
      10    return np.vstack(ds)
      測試代碼如下:
       1import time
      2import matplotlib.pyplot as plt
      3
      4k = 4
      5ds = create_data_set((0,0,2500), (0,2,2500), (2,0,2500), (2,2,2500))
      6
      7t0 = time.time()
      8result, cores = kmeans_xufive(ds, k)
      9t = time.time() - t0
      10
      11plt.scatter(ds[:,0], ds[:,1], s=1, c=result.astype(np.int))
      12plt.scatter(cores[:,0], cores[:,1], marker='x', c=np.arange(k))
      13plt.show()
      14
      15print(u'使用kmeans_xufive算法,1萬個(gè)樣本點(diǎn),耗時(shí)%f0.3秒'%t)
      16
      17t0 = time.time()
      18result, cores = kmeans_open(ds, k)
      19t = time.time() - t0
      20
      21plt.scatter(ds[:,0], ds[:,1], s=1, c=result.astype(np.int))
      22plt.scatter(cores[:,0], cores[:,1], marker='x', c=np.arange(k))
      23plt.show()
      24
      25print(u'使用kmeans_open算法,1萬個(gè)樣本點(diǎn),耗時(shí)%f0.3秒'%t)

      測試結(jié)果如下:

      1PS D:\XufiveGit\CSDN\codepy -3 .\k-means.py
      2使用kmeans_xufive算法,1萬個(gè)樣本點(diǎn),耗時(shí)0.0156550.3
      3使用kmeans_open算法,1萬個(gè)樣本點(diǎn),耗時(shí)3.9990890.3
      效果如下:
      作者:許文武,博客昵稱「天元浪子」,本文首發(fā)于作者CSDN博客https://blog.csdn.net/xufive/article/details/101448969。

        本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多