博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
学习后缀数组笔记
阅读量:5067 次
发布时间:2019-06-12

本文共 3305 字,大约阅读时间需要 11 分钟。

  学习自:https://www.cnblogs.com/victorique/p/8480093.html

后缀:是字符串的一个特殊子串,以s的第i个字符为第一个元素的后缀为suff(i)。

后缀数组:后缀数组sa[i]就表示排名为i的后缀的起始位置的下标。

相反映射:rk[i]就表示起始位置的下标为i的后缀的排名。

倍增法+基数排序实现后缀数组O(nlogn)排序:思想是先对首字符排序(重复),在对相邻相加再排序,直到所有排名不同即可。(需进一步理解)

 

最长公共前缀:

我们定义LCP(i,j)为suff(sa[i])与suff(sa[j])的最长公共前缀。

  1. LCP(i,j)=LCP(j,i);
  2. LCP(i,i)=len(sa[i])=n-sa[i]+1;

LCP引理

  LCP(i,k)=min(LCP(i,j),LCP(j,k)) 对于任意1<=i<=j<=k<=n

LCP定理

  LCP(i,k)=min(min(LCP(j,j-1))) 对于1<i<=j<=k<=n

 

重要定理:

我们设height[i]为LCP(i,i-1),1<i<=n,显然height[1]=0;

由LCP Theorem可得,LCP(i,k)=min(height[j]) i+1<=j<=k

设h[i]=height[rk[i]],同样的,height[i]=h[sa[i]];

有:  

  h[i]>=h[i-1]-1;

证明:设k=rk[i-1]-1.

则有h[i-1] = height[rk[i-1]]=min(LCP(k-1,k-2) )

rk[i-1]<rk[sa[k]]

rk[i]<rk[sa[k]+1]

LCP( i,rk[sa[k]+1] )=h[i-1]-1;

h[i]>=h[i-1];

 

例题:

1 #include
2 #include
3 #include
4 #define rint register int 5 #define inv inline void 6 #define ini inline int 7 #define maxn 1000050 8 using namespace std; 9 char s[maxn];10 int y[maxn],x[maxn],c[maxn],sa[maxn],rk[maxn],height[maxn],wt[30];11 int n,m;12 inv putout(int x) {13 if(!x) {14 putchar(48);15 return;16 }17 rint l=0;18 while(x) wt[++l]=x%10,x/=10;19 while(l) putchar(wt[l--]+48);20 }21 inv get_SA() {22 for (rint i=1; i<=n; ++i) ++c[x[i]=s[i]];23 //c数组是桶24 //x[i]是第i个元素的第一关键字25 for (rint i=2; i<=m; ++i) c[i]+=c[i-1];26 //做c的前缀和,我们就可以得出每个关键字最多是在第几名27 for (rint i=n; i>=1; --i) sa[c[x[i]]--]=i;28 for (rint k=1; k<=n; k<<=1) {29 rint num=0;30 for (rint i=n-k+1; i<=n; ++i) y[++num]=i;31 //y[i]表示第二关键字排名为i的数,第一关键字的位置32 //第n-k+1到第n位是没有第二关键字的 所以排名在最前面33 for (rint i=1; i<=n; ++i) if (sa[i]>k) y[++num]=sa[i]-k;34 //排名为i的数 在数组中是否在第k位以后35 //如果满足(sa[i]>k) 那么它可以作为别人的第二关键字,就把它的第一关键字的位置添加进y就行了36 //所以i枚举的是第二关键字的排名,第二关键字靠前的先入队37 for (rint i=1; i<=m; ++i) c[i]=0;38 //初始化c桶39 for (rint i=1; i<=n; ++i) ++c[x[i]];40 //因为上一次循环已经算出了这次的第一关键字 所以直接加就行了41 for (rint i=2; i<=m; ++i) c[i]+=c[i-1]; //第一关键字排名为1~i的数有多少个42 for (rint i=n; i>=1; --i) sa[c[x[y[i]]]--]=y[i],y[i]=0;43 //因为y的顺序是按照第二关键字的顺序来排的44 //第二关键字靠后的,在同一个第一关键字桶中排名越靠后45 //基数排序46 swap(x,y);47 //这里不用想太多,因为要生成新的x时要用到旧的,就把旧的复制下来,没别的意思48 x[sa[1]]=1;49 num=1;50 for (rint i=2; i<=n; ++i)51 x[sa[i]]=(y[sa[i]]==y[sa[i-1]] && y[sa[i]+k]==y[sa[i-1]+k]) ? num : ++num;52 //因为sa[i]已经排好序了,所以可以按排名枚举,生成下一次的第一关键字53 if (num==n) break;54 m=num;55 //这里就不用那个122了,因为都有新的编号了56 }57 for (rint i=1; i<=n; ++i) putout(sa[i]),putchar(' ');58 }59 inv get_height() {60 rint k=0;61 for (rint i=1; i<=n; ++i) rk[sa[i]]=i;62 for (rint i=1; i<=n; ++i) {63 if (rk[i]==1) continue;//第一名height为064 if (k) --k;//h[i]>=h[i-1]+1;65 rint j=sa[rk[i]-1];66 while (j+k<=n && i+k<=n && s[i+k]==s[j+k]) ++k;67 height[rk[i]]=k;//h[i]=height[rk[i]];68 }69 putchar(10);70 for (rint i=1; i<=n; ++i) putout(height[i]),putchar(' ');71 }72 int main() {73 gets(s+1);74 n=strlen(s+1);75 m=122;76 //因为这个题不读入n和m所以要自己设77 //n表示原字符串长度,m表示字符个数,ascll('z')=12278 //我们第一次读入字符直接不用转化,按原来的ascll码来就可以了79 //因为转化数字和大小写字母还得分类讨论,怪麻烦的80 get_SA();81 //get_height();82 }
View Code

 

转载于:https://www.cnblogs.com/bestefforts/p/9412282.html

你可能感兴趣的文章
java string(转)
查看>>
__all__有趣的属性
查看>>
利用循环播放dataurl的视频来防止锁屏:NoSleep.js
查看>>
python3 生成器与迭代器
查看>>
java编写提升性能的代码
查看>>
ios封装静态库技巧两则
查看>>
Abstract Factory Pattern
查看>>
C# 实现Bresenham算法(vs2010)
查看>>
list 容器 排序函数.xml
查看>>
Activity启动过程中获取组件宽高的五种方式
查看>>
SQLite数据库简介
查看>>
利用堆实现堆排序&amp;优先队列
查看>>
Mono源码学习笔记:Console类(四)
查看>>
《Genesis-3D开源游戏引擎完整实例教程-跑酷游戏篇03:暂停游戏》
查看>>
CPU,寄存器,一缓二缓.... RAM ROM 外部存储器等简介
查看>>
windows下编译FreeSwitch
查看>>
git .gitignore 文件不起作用
查看>>
Alan Turing的纪录片观后感
查看>>
c#自定义控件中的事件处理
查看>>
django Models 常用的字段和参数
查看>>