Oracle
 sql >> Base de Dados >  >> RDS >> Oracle

Como faço para pegar o evento “próximo” quando o deslocamento é variável para itens que podem ser processados ​​​​repetidamente?


Este é um problema de lacunas e ilhas, mas as ilhas sendo definidas por um REQ transação torná-lo um pouco mais complicado do que alguns.

Você pode usar funções de lead e lag aninhadas e alguma manipulação para obter o que precisa:
select distinct item,
  coalesce(start_tran,
    lag(start_tran) over (partition by item order by timestamp)) as start_tran,
  coalesce(end_tran,
    lead(end_tran) over (partition by item order by timestamp)) as end_tran,
  coalesce(end_time, 
    lead(end_time) over (partition by item order by timestamp))
    - coalesce(start_time,
        lag(start_time) over (partition by item order by timestamp)) as time
from (
  select item, timestamp, start_tran, start_time, end_tran, end_time
  from (
    select item,
      timestamp,
      case when lag_tran is null or transaction like 'REQ%'
        then transaction end as start_tran,
      case when lag_tran is null or transaction like 'REQ%'
        then timestamp end as start_time,
      case when lead_tran is null or lead_tran like 'REQ%'
        then transaction end as end_tran,
      case when lead_tran is null or lead_tran like 'REQ%'
        then timestamp end as end_time
    from (
      select item, transaction, timestamp,
        lag(transaction)
          over (partition by item order by timestamp) as lag_tran,
        lead(transaction)
          over (partition by item order by timestamp) as lead_tran
      from transactions
    )
  )
  where start_tran is not null or end_tran is not null
)
order by item, start_tran;

Com registros adicionais para um segundo ciclo para os itens 1 e 2 que poderiam dar:
      ITEM START_TRAN END_TRAN   TIME      
---------- ---------- ---------- -----------
         1 REQ-A      PICKUP     0 1:53:30.0 
         1 REQ-E      PICKUP     0 1:23:30.0 
         2 REQ-B      MAIL       0 0:24:13.0 
         2 REQ-F      REQ-F      0 0:0:0.0   
         3 REQ-C      PICKUP     0 1:46:30.0 
         4 REQ-D      PULL       0 0:23:59.0 
         5 REQ-A      PICKUP     0 1:43:59.0 

SQL Fiddle mostrando todas as etapas intermediárias.

Não é tão assustador quanto pode parecer à primeira vista. A consulta mais interna pega os dados brutos e adiciona uma coluna extra para as transações de lead e lag. Tomando apenas o primeiro conjunto de registros item-1 que seriam:
      ITEM TRANSACTION TIMESTAMP                LAG_TRAN   LEAD_TRAN
---------- ----------- ------------------------ ---------- ----------
         1 REQ-A       2014-07-31T09:51:32Z                PULL       
         1 PULL        2014-07-31T10:22:21Z     REQ-A      TRANSFER   
         1 TRANSFER    2014-07-31T10:22:23Z     PULL       ARRIVE     
         1 ARRIVE      2014-07-31T11:45:01Z     TRANSFER   PICKUP     
         1 PICKUP      2014-07-31T11:45:02Z     ARRIVE     REQ-E      

Aviso REQ-E aparecendo como o último lead_tran ? Essa é a primeira transaction para o segundo ciclo de registros para este item, e será útil mais tarde. O próximo nível de consulta usa esses valores de lead e lag e trata REQ valores como marcadores de início e fim e usa essas informações para anular tudo, exceto o primeiro e o último registro de cada ciclo.
      ITEM TIMESTAMP                START_TRAN START_TIME               END_TRAN   END_TIME               
---------- ------------------------ ---------- ------------------------ ---------- ------------------------
         1 2014-07-31T09:51:32Z     REQ-A      2014-07-31T09:51:32Z                                         
         1 2014-07-31T10:22:21Z                                                                             
         1 2014-07-31T10:22:23Z                                                                             
         1 2014-07-31T11:45:01Z                                                                             
         1 2014-07-31T11:45:02Z                                         PICKUP     2014-07-31T11:45:02Z     

O próximo nível de consulta remove quaisquer linhas que não representem o início ou o fim (ou ambos - veja REQ-F no Fiddle), pois não estamos interessados ​​neles:
      ITEM TIMESTAMP                START_TRAN START_TIME               END_TRAN   END_TIME               
---------- ------------------------ ---------- ------------------------ ---------- ------------------------
         1 2014-07-31T09:51:32Z     REQ-A      2014-07-31T09:51:32Z                                         
         1 2014-07-31T11:45:02Z                                         PICKUP     2014-07-31T11:45:02Z     

Agora temos pares de linhas para cada ciclo (ou uma única linha para REQ-F ). O nível final usa lead e lag novamente para preencher as lacunas; se o start_tran for null então esta é uma linha final e devemos usar os dados iniciais da linha anterior; se end_tran for null então esta é uma linha inicial e devemos usar os dados finais da próxima linha.
  ITEM START_TRAN START_TIME               END_TRAN   END_TIME                 TIME      
     1 REQ-A      2014-07-31T09:51:32Z     PICKUP     2014-07-31T11:45:02Z     0 1:53:30.0 
     1 REQ-A      2014-07-31T09:51:32Z     PICKUP     2014-07-31T11:45:02Z     0 1:53:30.0 

Isso torna as duas linhas iguais, então o distinct remove as duplicatas.