Mysql
 sql >> Base de Dados >  >> RDS >> Mysql

MYSQL Deduplicar e remover a linha duplicada com menos dados


Você pode usar esta consulta DELETE, que é genérica e pode ser facilmente adaptada para oferecer suporte a mais campos:
DELETE tablename.*
FROM
  tablename LEFT JOIN (
    SELECT MIN(id) min_id
    FROM
      tablename t INNER JOIN (
        SELECT
          emails, MAX((name IS NOT NULL) + (surname IS NOT NULL)) max_non_nulls
        FROM
          tablename
        GROUP BY
          emails) m
      ON t.emails=m.emails
         AND ((t.name IS NOT NULL) + (t.surname IS NOT NULL))=m.max_non_nulls
    GROUP BY
      t.emails) ids
  ON tablename.id=ids.min_id
WHERE
  ids.min_id IS NULL

Por favor, veja violino aqui .

Esta consulta retorna o número máximo de campos não nulos, para cada email:
SELECT
  emails,
  MAX((name IS NOT NULL) + (surname IS NOT NULL)) max_non_nulls
FROM
  tablename
GROUP BY
  emails

Estou, então, juntando esta consulta com tablename, para obter o ID mínimo para cada email que possui o número máximo de campos não nulos:
SELECT MIN(id) min_id
FROM
  tablename t INNER JOIN (
    SELECT
      emails, MAX((name IS NOT NULL) + (surname IS NOT NULL)) max_non_nulls
    FROM
      tablename
    GROUP BY
      emails) m
  ON t.emails=m.emails
     AND ((t.name IS NOT NULL) + (t.surname IS NOT NULL))=m.max_non_nulls
GROUP BY
  t.emails

e então estou excluindo todas as linhas que possuem um ID que não é retornado por esta consulta.