(點(diǎn)擊上方公號(hào),可快速關(guān)注)
常用數(shù)據(jù)結(jié)構(gòu)的時(shí)間復(fù)雜度
如何選擇數(shù)據(jù)結(jié)構(gòu) Array (T[])
Linked list (LinkedList
Resizable array list (List
Stack (Stack
Queue (Queue
Hash table (Dictionary
Tree-based dictionary (SortedDictionary
Hash table based set (HashSet
Tree based set (SortedSet
Array在計(jì)算機(jī)程序設(shè)計(jì)中,數(shù)組(Array)是最簡(jiǎn)單的而且應(yīng)用最廣泛的數(shù)據(jù)結(jié)構(gòu)之一。在任何編程語(yǔ)言中,數(shù)組都有一些共性:
對(duì)于數(shù)組的常規(guī)操作包括:
在 C# 中,可以通過(guò)如下的方式聲明數(shù)組變量。
上面的代碼將在 CLR 托管堆中分配一塊連續(xù)的內(nèi)存空間,用以容納數(shù)量為 allocationSize ,類型為 arrayType 的數(shù)組元素。如果 arrayType 為值類型,則將會(huì)有 allocationSize 個(gè)未封箱(unboxed)的 arrayType 值被創(chuàng)建。如果 arrayType 為引用類型,則將會(huì)有 allocationSize 個(gè) arrayType 類型的引用被創(chuàng)建。
如果我們?yōu)?FileInfo[] 數(shù)組中的一些位置賦上值,則引用關(guān)系為下圖所示。
.NET 中的數(shù)組都支持對(duì)元素的直接讀寫操作。語(yǔ)法如下:
訪問(wèn)一個(gè)數(shù)組元素的時(shí)間復(fù)雜度為 O(1),因此對(duì)數(shù)組的訪問(wèn)時(shí)間是恒定的。也就是說(shuō),與數(shù)組中包含的元素?cái)?shù)量沒(méi)有直接關(guān)系,訪問(wèn)一個(gè)元素的時(shí)間是相同的。 ArrayList由于數(shù)組是固定長(zhǎng)度的,并且數(shù)組中只能存儲(chǔ)同一種類型或類型的衍生類型。這在使用中會(huì)受到一些限制。.NET 提供了一種數(shù)據(jù)結(jié)構(gòu) ArrayList 來(lái)解決這些問(wèn)題。
ArrayList 是長(zhǎng)度可變的數(shù)組,并且它可以存儲(chǔ)不同類型的元素。
但這些靈活性是以犧牲性能為代價(jià)的。在上面 Array 的描述中,我們知道 Array 在存儲(chǔ)值類型時(shí)是采用未裝箱(unboxed)的方式。由于 ArrayList 的 Add 方法接受 object 類型的參數(shù),導(dǎo)致如果添加值類型的值會(huì)發(fā)生裝箱(boxing)操作。這在頻繁讀寫 ArrayList 時(shí)會(huì)產(chǎn)生額外的開(kāi)銷,導(dǎo)致性能下降。 List當(dāng) .NET 中引入泛型功能后,上面 ArrayList 所帶來(lái)的性能代價(jià)可以使用泛型來(lái)消除。.NET 提供了新的數(shù)組類型 List 泛型允許開(kāi)發(fā)人員在創(chuàng)建數(shù)據(jù)結(jié)構(gòu)時(shí)推遲數(shù)據(jù)類型的選擇,直到使用時(shí)才確定選擇哪種類型。泛型(Generics)的主要優(yōu)點(diǎn)包括:
List
List
List LinkedList在鏈表(Linked List)中,每一個(gè)元素都指向下一個(gè)元素,以此來(lái)形成了一個(gè)鏈(chain)。
向鏈表中插入一個(gè)新的節(jié)點(diǎn)的漸進(jìn)時(shí)間取決于鏈表是否是有序的。如果鏈表不需要保持順序,則插入操作就是常量時(shí)間O(1),可以在鏈表的頭部或尾部添加新的節(jié)點(diǎn)。而如果需要保持鏈表的順序結(jié)構(gòu),則需要查找到新節(jié)點(diǎn)被插入的位置,這使得需要從鏈表的頭部 head 開(kāi)始逐個(gè)遍歷,結(jié)果就是操作變成了O(n)。下圖展示了插入節(jié)點(diǎn)的示例。
鏈表與數(shù)組的不同之處在于,數(shù)組的中的內(nèi)容在內(nèi)存中時(shí)連續(xù)排列的,可以通過(guò)下標(biāo)來(lái)訪問(wèn),而鏈表中內(nèi)容的順序則是由各對(duì)象的指針?biāo)鶝Q定,這就決定了其內(nèi)容的排列不一定是連續(xù)的,所以不能通過(guò)下標(biāo)來(lái)訪問(wèn)。如果需要更快速的查找操作,使用數(shù)組可能是更好的選擇。 使用鏈表的最主要的優(yōu)勢(shì)就是,向鏈表中插入或刪除節(jié)點(diǎn)無(wú)需調(diào)整結(jié)構(gòu)的容量。而相反,對(duì)于數(shù)組來(lái)說(shuō)容量始終是固定的,如果需要存放更多的數(shù)據(jù),則需要調(diào)整數(shù)組的容量,這就會(huì)發(fā)生新建數(shù)組、數(shù)據(jù)拷貝等一系列復(fù)雜且影響效率的操作。即使是 List 鏈表的另一個(gè)優(yōu)點(diǎn)就是特別適合以排序的順序動(dòng)態(tài)的添加新元素。如果要在數(shù)組的中間的某個(gè)位置添加新元素,不僅要移動(dòng)所有其余的元素,甚至還有可能需要重新調(diào)整容量。 所以總結(jié)來(lái)說(shuō),數(shù)組適合數(shù)據(jù)的數(shù)量是有上限的情況,而鏈表適合元素?cái)?shù)量不固定的情況。 在 .NET 中已經(jīng)內(nèi)置了 LinkedList Queue當(dāng)我們需要使用先進(jìn)先出順序(FIFO)的數(shù)據(jù)結(jié)構(gòu)時(shí),.NET 為我們提供了 Queue Queue
默認(rèn)情況下,Queue Enqueue 方法會(huì)判斷 Queue 默認(rèn)情況下,增長(zhǎng)因子(growth factor)的值為 2.0,所以內(nèi)部數(shù)組的長(zhǎng)度會(huì)增加一倍。也可以通過(guò)構(gòu)造函數(shù)中指定增長(zhǎng)因子。Queue Dequeue 方法根據(jù) head 索引返回當(dāng)前元素,之后將 head 索引指向 null,再遞增 head 的值。 Stack當(dāng)需要使用后進(jìn)先出順序(LIFO)的數(shù)據(jù)結(jié)構(gòu)時(shí),.NET 為我們提供了 Stack Stack
Stack 如果 Stack Hashtable現(xiàn)在我們要使用員工的社保號(hào)作為唯一標(biāo)識(shí)進(jìn)行存儲(chǔ)。社保號(hào)的格式為 DDD-DD-DDDD(D 的范圍為數(shù)字 0-9)。 如果使用 Array 存儲(chǔ)員工信息,要查詢社保號(hào)為 111-22-3333 的員工,則將會(huì)嘗試遍歷數(shù)組的所有選擇,即執(zhí)行復(fù)雜度為 O(n) 的查詢操作。好一些的辦法是將社保號(hào)排序,以使查詢復(fù)雜度降低到 O(log(n))。但理想情況下,我們更希望查詢復(fù)雜度為 O(1)。 一種方案是建立一個(gè)大數(shù)組,范圍從 000-00-0000 到 999-99-9999 。
這種方案的缺點(diǎn)是浪費(fèi)空間。如果我們僅需要存儲(chǔ) 1000 個(gè)員工的信息,那么僅利用了 0.0001% 的空間。 第二種方案就是用哈希函數(shù)(Hash Function)壓縮序列。 我們選擇使用社保號(hào)的后四位作為索引,以減少區(qū)間的跨度。這樣范圍將從 0000 到 9999。
在數(shù)學(xué)上,將這種從 9 位數(shù)轉(zhuǎn)換為 4 位數(shù)的方式稱為哈希轉(zhuǎn)換(Hashing)??梢詫⒁粋€(gè)數(shù)組的索引空間(indexers space)壓縮至相應(yīng)的哈希表(Hash Table)。 在上面的例子中,哈希函數(shù)的輸入為 9 位數(shù)的社保號(hào),輸出結(jié)果為后 4 位。 H(x) = last four digits of x
上圖中也說(shuō)明在哈希函數(shù)計(jì)算中常見(jiàn)的一種行為:哈希沖突(Hash Collisions)。即有可能兩個(gè)社保號(hào)的后 4 位均為 0000。 當(dāng)要添加新元素到 Hashtable 中時(shí),哈希沖突是導(dǎo)致操作被破壞的一個(gè)因素。如果沒(méi)有沖突發(fā)生,則元素被成功插入。如果發(fā)生了沖突,則需要判斷沖突的原因。因此,哈希沖突提高了操作的代價(jià),Hashtable 的設(shè)計(jì)目標(biāo)就是要盡可能減低沖突的發(fā)生。 避免哈希沖突的一個(gè)方法就是選擇合適的哈希函數(shù)。哈希函數(shù)中的沖突發(fā)生的幾率與數(shù)據(jù)的分布有關(guān)。例如,如果社保號(hào)的后 4 位是隨即分布的,則使用后 4 位數(shù)字比較合適。但如果后 4 位是以員工的出生年份來(lái)分配的,則顯然出生年份不是均勻分布的,則選擇后 4 位會(huì)造成大量的沖突。 我們將選擇合適的哈希函數(shù)的方法稱為沖突避免機(jī)制(Collision Avoidance)。 在處理沖突時(shí),有很多策略可以實(shí)施,這些策略稱為沖突解決機(jī)制(Collision Resolution)。其中一種方法就是將要插入的元素放到另外一個(gè)塊空間中,因?yàn)橄嗤墓N恢靡呀?jīng)被占用。 例如,最簡(jiǎn)單的一種實(shí)現(xiàn)就是線性挖掘(Linear Probing),步驟如下:
現(xiàn)在如果我們要將五個(gè)員工的信息插入到哈希表中:
則插入后的哈希表可能如下:
元素的插入過(guò)程:
線性挖掘(Linear Probing)方式雖然簡(jiǎn)單,但并不是解決沖突的最好的策略,因?yàn)樗鼤?huì)導(dǎo)致同類哈希的聚集。這導(dǎo)致搜索哈希表時(shí),沖突依然存在。例如上面例子中的哈希表,如果我們要訪問(wèn) Edward 的信息,因?yàn)?Edward 的社保號(hào) 111-00-1235 哈希為 1235,然而我們?cè)?1235 位置找到的是 Bob,所以再搜索 1236,找到的卻是 Danny,以此類推直到找到 Edward。 一種改進(jìn)的方式為二次挖掘(Quadratic Probing),即每次檢查位置空間的步長(zhǎng)為平方倍數(shù)。也就是說(shuō),如果位置 s 被占用,則首先檢查 s + 12 處,然后檢查s – 12,s + 22,s – 22,s + 32 依此類推,而不是象線性挖掘那樣以 s + 1,s + 2 … 方式增長(zhǎng)。盡管如此,二次挖掘同樣也會(huì)導(dǎo)致同類哈希聚集問(wèn)題。 .NET 中的 Hashtable 的實(shí)現(xiàn),要求添加元素時(shí)不僅要提供元素(Item),還要為該元素提供一個(gè)鍵(Key)。例如,Key 為員工社保號(hào),Item 為員工信息對(duì)象。可以通過(guò) Key 作為索引來(lái)查找 Item。
Hashtable 類中的哈希函數(shù)比前面介紹的社保號(hào)的實(shí)現(xiàn)要更為復(fù)雜。哈希函數(shù)必須返回一個(gè)序數(shù)(Ordinal Value)。對(duì)于社保號(hào)的例子,通過(guò)截取后四位就可以實(shí)現(xiàn)。但實(shí)際上 Hashtable 類可以接受任意類型的值作為 Key,這都要?dú)w功于 GetHashCode 方法,一個(gè)定義在 System.Object 中的方法。GetHashCode 的默認(rèn)實(shí)現(xiàn)將返回一個(gè)唯一的整數(shù),并且保證在對(duì)象的生命周期內(nèi)保持不變。 Hashtable 類中的哈希函數(shù)定義如下: H(key) = [GetHash(key) + 1 + (((GetHash(key) >> 5) + 1) % (hashsize – 1))] % hashsize
這里的 GetHash(key) 默認(rèn)是調(diào)用 key 的 GetHashCode 方法以獲取返回的哈希值。hashsize 指的是哈希表的長(zhǎng)度。因?yàn)橐M(jìn)行求模,所以最后的結(jié)果 H(key) 的范圍在 0 至 hashsize – 1 之間。 當(dāng)在哈希表中添加或獲取一個(gè)元素時(shí),會(huì)發(fā)生哈希沖突。前面我們簡(jiǎn)單地介紹了兩種沖突解決策略:
在 Hashtable 類中則使用的是一種完全不同的技術(shù),稱為二度哈希(rehashing)(有些資料中也將其稱為雙精度哈希(double hashing))。 二度哈希的工作原理如下: 有一個(gè)包含一組哈希函數(shù) H1…Hn 的集合。當(dāng)需要從哈希表中添加或獲取元素時(shí),首先使用哈希函數(shù) H1。如果導(dǎo)致沖突,則嘗試使用 H2,以此類推,直到 Hn。所有的哈希函數(shù)都與 H1 十分相似,不同的是它們選用的乘法因子(multiplicative factor)。 通常,哈希函數(shù) Hk 的定義如下: Hk(key) = [GetHash(key) + k * (1 + (((GetHash(key) >> 5) + 1) % (hashsize – 1)))] % hashsize 當(dāng)使用二度哈希時(shí),重要的是在執(zhí)行了 hashsize 次挖掘后,哈希表中的每一個(gè)位置都有且只有一次被訪問(wèn)到。也就是說(shuō),對(duì)于給定的 key,對(duì)哈希表中的同一位置不會(huì)同時(shí)使用 Hi 和 Hj。在 Hashtable 類中使用二度哈希公式,其始終保持 (1 + (((GetHash(key) >> 5) + 1) % (hashsize – 1)) 與 hashsize 互為素?cái)?shù)(兩數(shù)互為素?cái)?shù)表示兩者沒(méi)有共同的質(zhì)因子)。 二度哈希較前面介紹的線性挖掘(Linear Probing)和二次挖掘(Quadratic Probing)提供了更好的避免沖突的策略。 Hashtable 類中包含一個(gè)私有成員變量 loadFactor,loadFactor 指定了哈希表中元素?cái)?shù)量與位置(slot)數(shù)量之間的最大比例。例如:如果 loadFactor 等于 0.5,則說(shuō)明哈希表中只有一半的空間存放了元素值,其余一半都為空。 哈希表的構(gòu)造函數(shù)允許用戶指定 loadFactor 值,定義范圍為 0.1 到 1.0。然而,不管你提供的值是多少,范圍都不會(huì)超過(guò) 72%。即使你傳遞的值為 1.0,Hashtable 類的 loadFactor 值還是 0.72。微軟認(rèn)為loadFactor 的最佳值為 0.72,這平衡了速度與空間。因此雖然默認(rèn)的 loadFactor 為 1.0,但系統(tǒng)內(nèi)部卻自動(dòng)地將其改變?yōu)?0.72。所以,建議你使用缺省值1.0(但實(shí)際上是 0.72)。
向 Hashtable 中添加新元素時(shí),需要檢查以保證元素與空間大小的比例不會(huì)超過(guò)最大比例。如果超過(guò)了,哈希表空間將被擴(kuò)充。步驟如下:
由此看出,對(duì)哈希表的擴(kuò)充將是以性能損耗為代價(jià)。因此,我們應(yīng)該預(yù)先估計(jì)哈希表中最有可能容納的元素?cái)?shù)量,在初始化哈希表時(shí)給予合適的值進(jìn)行構(gòu)造,以避免不必要的擴(kuò)充。 DictionaryHashtable 類是一個(gè)類型松耦合的數(shù)據(jù)結(jié)構(gòu),開(kāi)發(fā)人員可以指定任意的類型作為 Key 或 Item。當(dāng) .NET 引入泛型支持后,類型安全的 Dictionary
如果繼續(xù)使用上面描述的社保號(hào)和員工的示例,我們可以創(chuàng)建一個(gè) Dictionary
這樣我們就可以添加和刪除員工信息了。 Dictionary 前面使用的挖掘技術(shù)(probing),如果發(fā)生沖突,則將嘗試列表中的下一個(gè)位置。如果使用二度哈希(rehashing),則將導(dǎo)致所有的哈希被重新計(jì)算。而新的鏈技術(shù)(chaining)將采用額外的數(shù)據(jù)結(jié)構(gòu)來(lái)處理沖突。Dictionary 下面的示意圖中描述了 Dictionary 上圖中,該 Dictionary 包含了 8 個(gè)桶,也就是自頂向下的黃色背景的位置。一定數(shù)量的 Employee 對(duì)象已經(jīng)被添加至 Dictionary 中。如果一個(gè)新的 Employee 要被添加至 Dictionary 中,將會(huì)被添加至其 Key 的哈希所對(duì)應(yīng)的桶中。如果在相同位置已經(jīng)有一個(gè) Employee 存在了,則將會(huì)將新元素添加到列表的前面。 向 Dictionary 中添加元素的操作涉及到哈希計(jì)算和鏈表操作,但其仍為常量,復(fù)雜度為 O(1)。 對(duì) Dictionary 進(jìn)行查詢和刪除操作時(shí),其平均時(shí)間取決于 Dictionary 中元素的數(shù)量和桶(bucket)的數(shù)量。具體的說(shuō)就是運(yùn)行時(shí)間為 O(n/m),這里 n 為元素的總數(shù)量,m 是桶的數(shù)量。但 Dictionary 幾乎總是被實(shí)現(xiàn)為 n = m,也就是說(shuō),元素的總數(shù)絕不會(huì)超過(guò)桶的總數(shù)。所以 O(n/m) 也變成了常量 O(1)。 參考資料
我的桌面非常無(wú)聊,因?yàn)樗褪怯蓭讉€(gè)xterm窗口組成,窗口里運(yùn)行的是我正在使用的Unix系統(tǒng)。這臺(tái)機(jī)器本身很可能是在在運(yùn)行X Window Server,而不是Windows,因?yàn)檫@么多年來(lái),我只用x terminal。 |
|