A média móvel ou média móvel é uma métrica útil que ajuda a acompanhar o valor médio em um período móvel (por exemplo, vendas médias nos últimos 7 dias). O cálculo da média móvel ao longo do tempo fornece uma tendência mais razoável, em comparação com a plotagem de números diários. Como não há função interna para calcular a média móvel no Redshift, aqui está a consulta SQL para fazer isso.
Como calcular a média móvel no Redshift
Aqui estão as etapas para calcular a média móvel no Redshift. Digamos que você tenha a tabela a seguir que contém informações de vendas diárias no Redshift.
# create table sales(order_date date,sale int);
# insert into sales values('2020-01-01',20),
('2020-01-02',25),('2020-01-03',15),('2020-01-04',30),
('2020-01-05',20),('2020-01-10',20),('2020-01-06',25),
('2020-01-07',15),('2020-01-08',30),('2020-01-09',20);
# select * from sales;
+------------+------+
| order_date | sale |
+------------+------+
| 2020-01-01 | 20 |
| 2020-01-02 | 25 |
| 2020-01-03 | 15 |
| 2020-01-04 | 30 |
| 2020-01-05 | 20 |
| 2020-01-10 | 20 |
| 2020-01-06 | 25 |
| 2020-01-07 | 15 |
| 2020-01-08 | 30 |
| 2020-01-09 | 20 |
+------------+------+
Digamos que você queira calcular a média móvel no Redshift dos últimos 5 dias. O Redshift (que é basicamente o Postgresql) torna isso muito fácil com a ajuda do Redshift Window Functions. Aqui está a consulta SQL para calcular a média móvel dos últimos 5 dias. Veremos isso em detalhes a seguir.
SELECT a.order_date,a.sale,
AVG(a.sale)
OVER(ORDER BY a.order_date ROWS BETWEEN 4 PRECEDING AND CURRENT ROW) AS avg_sales
FROM sales a ;
Se você quiser arredondar os resultados, você pode usar a função ROUND conforme mostrado para calcular a média de corrida no Redshift
SELECT a.order_date,a.sale,
round(AVG(a.sale)
OVER(ORDER BY a.order_date ROWS BETWEEN 4 PRECEDING AND CURRENT ROW),2) AS avg_sales
FROM sales a;
order_date | sale | avg_sales
------------+------+---------------
2020-01-01 | 20 | 20.00
2020-01-02 | 25 | 22.50
2020-01-03 | 15 | 20.00
2020-01-04 | 30 | 22.50
2020-01-05 | 20 | 22.00
2020-01-06 | 25 | 23.00
2020-01-07 | 15 | 21.00
2020-01-08 | 30 | 24.00
2020-01-09 | 20 | 22.00
2020-01-10 | 20 | 22.00
Vejamos a consulta acima em detalhes. A função AVG calcula o valor médio de venda coluna. No entanto, quando a usamos junto com a função WINDOW OVER ela calcula o valor médio apenas para a janela que definimos.
Primeiro, usamos ORDER BY em nossos dados para garantir que as linhas sejam classificadas cronologicamente. Em seguida, definimos nossa janela para a média usando a função OVER e mencionamos ROWS BETWEEN 4 PRECEDING AND CURRENT ROW. Ou seja, para cada linha, calcule a média das 4 linhas anteriores e da linha atual. À medida que o quadro da janela muda para cada linha, apenas os 4 dias anteriores e a data atual serão usados.
Você também pode adicionar filtros adicionando a cláusula WHERE na consulta SQL acima.
SELECT a.order_date,a.sale,
round(AVG(a.sale)
OVER(ORDER BY a.order_date ROWS BETWEEN 4 PRECEDING AND CURRENT ROW),2) AS avg_sales
FROM sales a
WHERE condition; Se você deseja calcular a média móvel no Redshift nos últimos 30 dias/1 mês, modifique a consulta acima para usar PRECEDING 29 ROWS AND CURRENT ROW
SELECT a.order_date,a.sale,
round(AVG(a.sale)
OVER(ORDER BY a.order_date ROWS BETWEEN 29 PRECEDING AND CURRENT ROW),2) AS avg_sales
FROM sales a;
Bônus de leitura: Como criar uma tabela dinâmica no PostgreSQL
Como calcular a média móvel no Redshift nos últimos 3 meses
Digamos que você tenha dados de vendas mensais em vez de dados diários e queira calcular a média móvel dos últimos 3 meses.
# create table monthly_sales(order_month date,sale int);
postgres=# insert into monthly_sales values('2019-12-01',20),
('2020-01-30',25),('2020-02-28',15),('2020-03-31',30),
('2020-04-30',20),('2020-05-31',20),('2020-06-30',25),
('2020-07-31',15),('2020-08-31',30),('2020-09-30',20);
postgres=# select * from monthly_sales;
order_month | sale
-------------+------
2019-12-01 | 20
2020-01-30 | 25
2020-02-28 | 15
2020-03-31 | 30
2020-04-30 | 20
2020-05-31 | 20
2020-06-30 | 25
2020-07-31 | 15
2020-08-31 | 30
2020-09-30 | 20
Usamos a mesma lógica para calcular a média móvel no Redshift, neste caso. Primeiro ORDER BY order_month coluna para garantir que as linhas sejam classificadas cronologicamente. Em seguida, calcule a média para 2 LINHAS ANTERIORES E LINHA ATUAL
SELECT a.order_month,a.sale,
round(AVG(a.sale)
OVER(ORDER BY a.order_month ROWS BETWEEN 2 PRECEDING AND CURRENT ROW),2) AS avg_sales
FROM monthly_sales a ;
order_month | sale | avg_sales
-------------+------+-----------
2019-12-01 | 20 | 20.00
2020-01-30 | 25 | 22.50
2020-02-28 | 15 | 20.00
2020-03-31 | 30 | 23.33
2020-04-30 | 20 | 21.67
2020-05-31 | 20 | 23.33
2020-06-30 | 25 | 21.67
2020-07-31 | 15 | 20.00
2020-08-31 | 30 | 23.33
2020-09-30 | 20 | 21.67
Bônus de leitura: Como calcular o total em execução no Redshift
Você também pode adicionar filtros incluindo a cláusula WHERE na consulta SQL acima.
SELECT a.order_month,a.sale,
round(AVG(a.sale)
OVER(ORDER BY a.order_month ROWS BETWEEN 2 PRECEDING AND CURRENT ROW),2) AS avg_sales
FROM monthly_sales a
WHERE condition; Você pode personalizar a consulta acima para calcular a média móvel no Redshift, conforme suas necessidades.
Depois de calcular a média móvel no Redshift, você pode usar uma ferramenta de gráficos para plotá-la em um gráfico de linhas e compartilhá-la com sua equipe. Aqui está um exemplo de um gráfico de linhas que visualiza a média móvel, criado usando o Ubiq.
Se você deseja criar gráficos, painéis e relatórios do banco de dados Redshift, experimente o Ubiq. Oferecemos um teste gratuito de 14 dias.