(通俗易懂小白入門)字符串Hash+map判重——暴力且優雅
- 2019 年 10 月 3 日
- 筆記
字符串Hash
今天我們要講解的是用於處理字符串匹配查重的一個算法,當我們處理一些問題如給出10000個字符串輸出其中不同的個數,或者給一個長度100000的字符串,找出其中相同的字符串有多少個(這樣描述有點不清楚但是大致的意思就是當字符串長度很長,而且涉及到多個字符串之間反覆比較時,由於比較的次數多,字符串長,很容易就超時了,而字符串Hash則是一種將字符串轉換成整數,再藉助一些STL工具如map可以很快完成查重工作)
這裡給出兩個例題輔助講解
例題一
比如有t組輸入,每次輸入n個字符串(1<=n<=10000),且字符串只有小寫字母,每個字符串長度1~10000(當然這只是個例子,也可能更長,題目也會更多變),對於這n個字符串,輸出不同的字符串的數量,(如aaa, bbb, aaa則輸出2)
例題分析
這是字符串Hash的模板題,我們要做的就是將一個個字符串轉換成整數,然後扔到map中判斷一下重複即可,而轉換的方法則是重點,在此就不得不提一下,我們所知曉的二進制(base-2),一個二進制數1010可以轉換成十進制2^3 + 2^1 == 10,而我們對於一個字符串“abab”,也可以把它當做是一個更大進制的數,如31,37,41…(因為我們通常將字符‘a’~‘z’以:單個字符 – ‘a’ 轉換成整數,而進制的選擇最好比單個整數大,且為質數更好),並且如果我們單單用:單個字符 – ‘a’ 轉換成整數則還會遇到一個問題,就是當兩個字符串“aab”和“ab”前綴相同時,由於a轉換成0,則兩個字符串轉換成的整數(以base-31為例)0*31^2 + 0*31^1 + 1*31^0 == 0*31^1 + 1*31^0將無法從數值上進行區分,就沒有達到我們需要的效果,所以我們採用:單個字符 – ‘a’ + 1的形式進行字符的轉換,這樣‘a’~‘z’則代表1~26,有效對其進行了區分
對於例題一,我們要做的就是輸入的同時,將每一個字符串轉換成一個大整數,而此時又要注意一個問題,就是當我們的字符串過長,以31進制為例,我們所塑造出的大整數很容易就超過int,long long,乃至unsigned long long的範圍,此時我們很容易想到hash的方法,就是對這個很大的整數進行MOD操作,給定一個MOD數值,這樣一個很大的數就可以被限制在一個固定區間內,但是還是會出現問題,MOD如果不夠大則很容易出現兩個大整數MOD後的值相同的情況,這裡我們希望MOD的值是一個很大數如2^64,這樣重複的進率就會很小,在這裡我們需要提及一個巧妙的技巧,對於數據類型為unsigned long long的整數,它會自動進行取模,所以不用擔心它會溢出(也省略了mod操作),所以我們用unsigned long long存放每一個字符串對於轉換成base-31後的整數,然後將這些數放入一個map映射中就可以得到不同的字符串的個數
代碼:
1 #include<iostream> 2 #include<stdio.h> 3 #include<string.h> 4 #include<string> 5 #include<map> 6 using namespace std; 7 8 typedef unsigned long long ull; 9 const int N = 10005; 10 const int base = 31; 11 12 ull operate(string s){ 13 int len = s.size(); 14 ull ans = 1; 15 for(int i = 0; i < len ; i++){ 16 ans = ans * base + s[i] - 'a' + 1; 17 } 18 return ans; 19 } 20 21 int main(){ 22 int t; 23 scanf("%d", &t); 24 map<ull, int> mp; 25 while(t--){ 26 int n; 27 scanf("%d", &n); 28 mp.clear(); 29 for(int i = 1; i <= n; i++){ 30 string s; 31 cin>>s; 32 ull sum = operate(s); 33 mp[sum]++; 34 } 35 printf("%dn", mp.size()); 36 } 37 return 0; 38 }
例題二 HDU4821 String
本題只為了藉助題干中的問題輔助講解字符串Hash,並不要求完全搞清楚題目該怎麼解,理解題意和題解核心即可,同樣是有t組輸入,每組輸入一個字符串(長度1~100000),同時輸入兩個整數m和l,求在這個字符串中,長度為m*l的子串(子串由m個長度為l的小子串拼接而成)且滿足這個子串的小子串兩兩互不完全相同(如:aab和aaa不同)
題目核心分析
對於一個字符串如abcabcbcaabc,l==3,m==3,則需要找到這個長串中長度為3*3==9的子串,且組成它的3個長度為3的小子串兩兩不完全相同,同樣的我們需要將這個長串轉換成一個進制為base的大整數同時執行MOD操作,同樣用unsigned long long作為數據存儲的類型,我們在輸入這個字符串後從下標0開始不斷求出長度為i的子串的對應的base進制的值(自動取模)存放在Hash[i]中,有點類似前綴和
1 Hash[0] = 1; 2 for(int i = 1; i < len; i++){ 3 Hash[i] = Hash[i-1] * seed + s[i] - 'a' + 1; 4 }
這裡需要注意的點是,對於一個字符串abcabc中的,前一個abc和第二個abc我們如何操作才能使得它們所代表的值是一樣的,因為字符串相同,但是出現的位置不同,如果用前綴和的形式相減得到ans = Hash[l + i – 1] – Hash[i – 1],則由於隨着字符串的增長,越靠後的子串中字符×base的次方就越高,則ans = Hash[l + i – 1] – Hash[i – 1]當l==0和l==3時儘管它們都是對abcabc中的abc子串執行計算差的操作,後面的那個得到的ans一定會更大,所以我們需要一種方法取平衡這種由於base^n次方造成的影響,我們需要引入一個輔助數組base[],base[i]存放base進制時base^i的值,而對於字符串abcabc,我們已經求出了下標為i時的前綴和(base進制且自動取模),ans = Hash[i + l – 1] – Hash[i – 1] * base[l]則無論子串的位置如何都能通過成base[l]將多的次方平衡掉,使得只要小子串是相同的,則差ans就是相同的,這樣我們又可以通過map進行去重操作了
由於是初步講解字符串hash操作,針對例題二的具體思路中還有一個(去頭添尾)的操作沒有講解,具體可以看代碼,也有一些注釋,而普通的做法會超時,但是出於對字符串的Hash的介紹到此已經夠了
這裡需要注意的是,在解題時你的字符串輸入後是從下標0開始還是從下標1開始的,會對ans = Hash[i + l – 1] – Hash[i – 1] * base[l]這個部分有着輕微的數值上的+1-1影響,請不要盲目照搬
代碼:
(我的這個字符串從0開始處理,會有一些邊界問題多加處理,如果從1開始則更為方便)
1 #include<set> 2 #include<map> 3 #include<stdio.h> 4 #include<string> 5 #include<string.h> 6 #include<iostream> 7 using namespace std; 8 9 typedef long long ll; 10 typedef unsigned long long ull; //自動取模?! 11 const int N = 100005; 12 const int seed = 31; 13 ull base[N]; 14 ull Hash[N]; //類似於前綴和 hash[i]存放長度為i時整個字符串代表的整數值 15 16 int main(){ 17 int m, l; 18 while(scanf("%d%d", &m, &l) != EOF){ 19 string s; 20 cin>>s; 21 int len = s.size(); 22 int ans = 0; 23 map<ull, int> mp; 24 base[0] = 1; 25 for(int i = 1; i <= l; i++) //存放seed^i的權重 26 base[i] = base[i-1] * seed; 27 Hash[0] = s[0] - 'a' + 1; 28 for(int i = 1; i < len; i++){ 29 Hash[i] = Hash[i-1] * seed + s[i] - 'a' + 1; 30 } 31 for(int i = 0; i < l && i + m*l <= len; i++){ //採用一種去頭添尾的神仙方法 32 // cout<<"LLLL"<<endl; 33 mp.clear(); 34 for(int j = i; j <= i + (m-1)*l; j += l){ 35 //每次將一個小子串代表的大數放入map中 36 if(j != 0){ 37 ull sum = Hash[j+l-1] - Hash[j-1] * base[l]; 38 // cout<<sum<<endl; 39 mp[sum]++; 40 }else{ 41 ull sum = Hash[j+l-1]; //如果是下標0開始則不需要減 42 // cout<<sum<<endl; 43 mp[sum]++; 44 } 45 } 46 // cout<<mp.size()<<endl; 47 if(mp.size() == m) ans++; 48 // cout<<"size"<<mp.size()<<endl; 49 // cout<<"mp[1]"<<mp[1]<<endl; 50 // else ans--; 51 //去頭添尾開始 52 for(int j = i + l; j + m*l <= len; j+=l){ 53 //添尾 54 ull sum = Hash[j + m*l -1] - Hash[j + (m-1)*l - 1] * base[l]; 55 // cout<<"添尾"<<endl; 56 // cout<<sum<<endl; 57 mp[sum]++; 58 // cout<<"size"<<mp.size()<<endl; 59 // cout<<"mp[1]"<<mp[1]<<endl; 60 //去頭 61 if(j-l == 0){ 62 sum = Hash[j-1]; 63 mp[sum]--; 64 if(mp[sum] == 0) mp.erase(sum); 65 // cout<<"去頭"<<endl; 66 // cout<<sum<<endl; 67 // cout<<"size"<<mp.size()<<endl; 68 }else{ 69 sum = Hash[j-1] - Hash[j-l-1] * base[l]; 70 mp[sum]--; 71 if(mp[sum] == 0) mp.erase(sum); 72 // cout<<"去頭"<<endl; 73 // cout<<sum<<endl; 74 // cout<<"size"<<mp.size()<<endl; 75 } 76 77 if(mp.size() == m) ans++; 78 } 79 } 80 if(s.size() == 1) ans=0; 81 printf("%dn", ans); 82 } 83 return 0; 84 }