SQL查询重复数据的方法与实战技巧

为什么需要查重复数据

在日常工作中，数据库里出现重复记录几乎是不可避免的事。比如用户注册系统中，可能因网络延迟导致同一用户提交了两次信息；订单系统里，也可能因为程序bug生成了两条完全一样的订单。这些重复数据如果不及时发现和处理，轻则影响报表统计，重则引发财务对账问题。

这时候，掌握如何用SQL找出重复数据，就成了排查问题的第一步。

最常见的方法是结合GROUP BY对关键字段分组，再用HAVING筛选出数量大于1的组。假设有一个用户表user_info，包含id、name和email，我们怀疑email有重复：

SELECT email, COUNT(*) AS cnt FROM user_info GROUP BY email HAVING COUNT(*) > 1;

这条语句会列出所有出现次数超过一次的邮箱地址，以及它们各自重复了多少次。结果一目了然，可以直接交给开发或运营去核对处理。

有时候光知道哪个字段重复还不够，还需要看到完整的记录内容。可以借助子查询把所有涉及重复email的行都查出来：

SELECT * FROM user_info WHERE email IN (    SELECT email FROM user_info GROUP BY email HAVING COUNT(*) > 1);

这样就能看到每一条重复的数据详情，方便判断是不是真的重复，还是恰好信息一致的不同用户。

有些业务场景下，单个字段重复不算问题，但多个字段组合起来重复就有问题。例如订单明细表中，同一个用户在同一时间下了相同商品的订单，可能是系统重复推送。这时可以用多个字段联合分组：

SELECT user_id, product_id, order_time, COUNT(*) FROM order_items GROUP BY user_id, product_id, order_time HAVING COUNT(*) > 1;

这种写法能精准定位到“完全相同”的记录组合，适用于更严格的去重需求。

在确认要清理重复数据时，通常的做法是每组重复只保留一条，其余删除。虽然这不是查询本身的功能，但可以通过加上主键最小值的方式辅助决策：

SELECT MIN(id) as keep_id, email FROM user_info GROUP BY email HAVING COUNT(*) > 1;

得到每个重复组中应该保留的最小id后，再构造DELETE语句删除其他记录，避免误删。

当表数据量很大时，这类查询可能会变慢，尤其是没有索引的情况下。建议在用于分组的字段（如email）上建立索引，能显著提升查询速度。另外，测试时先用LIMIT限制返回行数，避免一次性拉取过多数据拖垮连接。