C語言中壓縮字符串的簡單算法小結(jié)

gearss 2016-04-14

展開全文

應(yīng)用中，經(jīng)常需要將字符串壓縮成一個整數(shù)，即字符串散列。比如下面這些問題：
（1）搜索引擎會通過日志文件把用戶每次檢索使用的所有檢索串都記錄下來，每個查詢串的長度為1-255字節(jié)。請找出最熱門的10個檢索串。
（2）有一個1G大小的一個文件，里面每一行是一個詞，詞的大小不超過16字節(jié)，內(nèi)存限制大小是1M。返回頻數(shù)最高的100個詞。
（3）有10個文件，每個文件1G，每個文件的每一行存放的都是用戶的query，每個文件的query都可能重復(fù)。要求你按照query的頻度排序。
（4）給定a、b兩個文件，各存放50億個url，每個url各占64字節(jié)，內(nèi)存限制是4G，讓你找出a、b文件共同的url。
（5）一個文本文件，大約有一萬行，每行一個詞，要求統(tǒng)計出其中最頻繁出現(xiàn)的前10個詞。

這些問題都需要將字符串壓縮成一個整數(shù)，或者說是散列到某個整數(shù) M 。然后再進行取余操作，比如 M%16，就可以將該字符串放到編號為M%16的文件中，相同的字符串肯定是在同一個文件中。通過這種處理，就可以將一個大文件等價劃分成若干小文件，而對于小文件，就可以用常規(guī)的方法處理，內(nèi)排序、hash_map等等。最后將這些小文件的處理結(jié)果綜合起來，就可以求得原問題的解。
下面介紹一些字符串壓縮的算法。

方法1：最簡單就是將所有字符加起來，代碼如下：

unsigned long HashString(const char *pString, unsigned long tableSize)

{

unsigned long hashValue = 0;

while(*pString)

hashValue += *pString++;

return hashValue % tableSize;

}

分析：如果字符串的長度有限，而散列表比較大的話，浪費比較大。例如，如果字符串最長為16字節(jié)，那么用到的僅僅是散列表的前16*127=2032。假如散列表含2729項，那么2032以后的項都用不到。

方法2：將上次計算出來的hash值左移5位（乘以32），再和當(dāng)前關(guān)鍵字相加，能得到較好的均勻分布的效果。

unsigned long HashString(const char *pString,unsigned long tableSize)

{

unsigned long hashValue = 0;

while (*pString)

hashValue = (hashValue << 5) + *pString++;

return hashValue % tableSize;

}

分析：這種方法需要遍歷整個字符串，如果字符串比較大，效率比較低。

方法3：利用哈夫曼算法，假設(shè)只有0-9這十個字符組成的字符串，我們借助哈夫曼算法，直接來看實例：

#define Size 10

int freq[Size];

string code[Size];

string word;

struct Node

{

int id;

int freq;

Node *left;

Node *right;

Node(int freq_in):id(-1), freq(freq_in)

{

left = right = NULL;

}

};

struct NodeLess

{

bool operator()(const Node *a, const Node *b) const

{

return a->freq < b->freq;

}

};

void init()

{

for(int i = 0; i < Size; ++i)

freq[i] = 0;

for(int i = 0; i < word.size(); ++i)

++freq[word[i]];

}

void dfs(Node *root, string res)

{

if(root->id >= 0)

code[root->id] = res;

else

{

if(NULL != root->left)

dfs(root->left, res+"0");

if(NULL != root->right)

dfs(root->right, res+"1");

}

void deleteNodes(Node *root)

{

if(NULL == root)

return ;

if(NULL == root->left && NULL == root->right)

delete root;

else

{

deleteNodes(root->left);

deleteNodes(root->right);

delete root;

}

void BuildTree()

{

priority_queue<Node*, vector<Node*>, NodeLess> nodes;

for(int i = 0; i < Size; ++i)

{

//0 == freq[i] 的情況未處理

Node *newNode = new Node(freq[i]);

newNode->id = i;

nodes.push(newNode);

}

while(nodes.size() > 1)

{

Node *left = nodes.top();

nodes.pop();

Node *right = nodes.top();

nodes.pop();

Node *newNode = new Node(left->freq + right->freq);

newNode->left = left;

newNode->right = right;

nodes.push(newNode);

}

Node *root = nodes.top();

dfs(root, string(""));

deleteNodes(root);

}

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自： gearss > 《C語言》

舉報/認領(lǐng)

0條評論

發(fā)表

請遵守用戶評論公約

類似文章 更多

gearss

關(guān)注對話

TA的最新館藏

想點大事：法律的缺點、特點和思維的重要性
政治正確與正確政治：各個國家、各個朝代的都奉行政治正確
我現(xiàn)在都賣給你了，那我下午賣什么
[轉(zhuǎn)] 世界是個草臺班子，都給我大膽點！其實很多職業(yè)很多人都很水
[轉(zhuǎn)] 劉震云說：“不必崇拜任何人，其實這個社會，本質(zhì)上就是一個草臺班子
[轉(zhuǎn)] 戰(zhàn)國歷史典故篇：焚券市義，馮諼客孟嘗君

喜歡該文的人也喜歡更多

熱門閱讀換一換

乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

C語言中壓縮字符串的簡單算法小結(jié)