我要投稿
  • 您当前的位置:57365.com -> 技术教程 -> 数据库教程 -> Mysql教程 -> 教程内容
  • [ 收藏本页教程 ]
  • 数据库优化之删除重复记录只保留单条

    教程作者:佚名    教程来源:不详   教程栏目:Mysql教程    收藏本页

      由于前端提交处理做的不到位或者数据库设计的不够合理,库中通常会存在一些冗余数据,比如重复记录就是一种,那这样的记录如何删除呢?

      我们先看一下相关数据结构的知识。

      在学习线性表的时候,曾有这样一个例题。

      已知一个存储整数的顺序表La,试构造顺序表Lb,要求顺序表Lb中只包含顺序表La中所有值不相同的数据元素。

      算法思路:

      先把顺序表La的第一个元素付给顺序表Lb,然后从顺序表La的第2个元素起,每一个元素与顺序表Lb中的每一个元素进行比较,如果不相同,则 把该元素附加到顺序表Lb的末尾。

      1 public SeqList Purge(SeqList La) 2 { 3 SeqList Lb = new SeqList(La.Maxsize); 4 //将a表中的第1个数据元素赋给b表 5 Lb.Append(La[0]); 6 //依次处理a表中的数据元素 7 for (int i = 1; i <= La.GetLength() - 1; ++i) 8 { 9 int j = 0;10 //查看b表中有无与a表中相同的数据元素11 for (j = 0; j <= Lb.GetLength() - 1; ++j)12 {13 //有相同的数据元素14 if (La[i].CompareTo(Lb[j]) == 0)15 {16 break;17 }18 }19 //没有相同的数据元素,将a表中的数据元素附加到b表的末尾。20 if (j > Lb.GetLength() - 1)21 {22 Lb.Append(La[i]);23 }24 return Lb;25 }26 }

      如果理解了这个思路,那么数据库中的处理就好办了。

      我们可以做一个临时表来解决问题

      1 select distinct * into #Tmp from tableName 2 drop table tableName 3 select * into tableName from #Tmp 4 drop table #Tmp

      发生这种重复的原因是表设计不周产生的,增加唯一索引列即可解决。

      但是你说了,我不想增加任何字段,但这时候又没有显式的标识列,怎么取出标识列呢?(可以是序号列,GUID,等)

      上个问题先不讲,先看看这个问题。

      我们分别在三种数据库中看一下处理办法,就是通常我们用的Sqlserver2000,Sqlserver2005,Oracle 10g.

      1. SQL Server 2000 构造序号列

      方法一:SELECT 序号= (SELECT COUNT(客户编号) FROM 客户 AS a WHERE a.客户编号<= b.客户编号), 客户编号,公司名称 FROM 客户 AS b ORDER BY 1;方法二:SELECT 序号= COUNT(*), a.客户编号, a.公司名称 FROM 客户 AS a, 客户 AS b WHERE a.客户编号>= b.客户编号 GROUP BY a.客户编号, b.公司名称 ORDER BY 序号;

      2. SQL Server 2005 构造序号列

      方法一:SELECT RANK() OVER (ORDER BY 客户编号 DESC) AS 序号, 客户编号,公司名称 FROM 客户;方法二:WITH TABLE AS (SELECT ROW_NUMBER() OVER (ORDER BY 客户编号 DESC) AS 序号, 客户编号,公司名称 FROM 客户)SELECT * FROM TABLEWHERE 序号 BETWEEN 1 AND 3;

      3. Oracle 里 rowid 也可看做默认标识列

      在Oracle中,每一条记录都有一个rowid,rowid在整个数据库中是唯一的,rowid确定了每条记录是在Oracle中的哪一个数 据文件、块、行上。

      在重复的记录中,可能所有列的内容都相同,但rowid不会相同,所以只要确定出重复记录中那些具有最大rowid的就可以了,其余全部删除。

      select * from test;select * from test group by id having count(*)>1select * from test group by idselect distinct * from testdelete from test a where a.rowid!=(select max(rowid) from test b where a.id=b.id);

      扯远了,回到原来的问题,除了采用数据结构的思想来处理,因为数据库特有的事务处理,能够把数据缓存在线程池里,这样也相当于临时表的功能,所 以,我们还可以用游标来解决删除重复记录的问题。

      1 declare @max int, 2 @id int 3 declare cur_rows cursor local for select id ,count(*) from test group by id having count(*) > 1 4 open cur_rows 5 fetch cur_rows into @id ,@max 6 while @@fetch_status=0 7 begin 8 select @max = @max -1 9 set rowcount @max --让这个时候的行数等于少了一行的统计数,想想看,为什么 10 delete from test where id = @id 11 fetch cur_rows into @id ,@max 12 end 13 close cur_rows 14 set rowcount 0

    我要投稿   -   广告合作   -   关于本站   -   友情连接   -   网站地图   -   联系我们   -   版权声明   -   设为首页   -   加入收藏   -   网站留言
    Copyright © 2009 - 20012 www.www.hxswjs.com All Rights Reserved.57365.com 版权所有