Eu tenho um testbed de 2 nós executando o Oracle RAC 11.2.0.4 no OL6. Praticamente tudo está no disco do sistema. Afinal, este é apenas um banco de testes. A partição raiz está sendo preenchida. Recebi um alerta do EM sobre o problema de espaço em disco e entrei e limpei alguns arquivos de log. Enquanto eu estava limpando arquivos de log antigos, meu cérebro estava me dizendo que a utilização do espaço do arquivo de log não estava fora de controle e que deveria haver outro problema subjacente. Com certeza, três dias depois recebi o alerta de que o disco estava enchendo novamente. Eu sabia que precisava aprofundar isso. Deve haver outro arquivo ou dois ocupando o espaço. Depois de algumas escavações, cheguei a este diretório na minha instalação do Grid Infrastructure:
[oracle@host01 host01]$ pwd /u01/app/crs11.2.0.4/crf/db/host01 [oracle@host01 host01]$ ls -l total 10945448 -rw-r--r-- 1 root root 1773999 Jul 2 13:54 02-JUL-2014-13:54:50.txt -rw-r--r-- 1 root root 1120665 Jul 2 14:00 02-JUL-2014-14:00:06.txt -rw-r--r-- 1 root root 16953 Mar 25 2014 25-MAR-2014-19:51:58.txt -rw-r----- 1 root root 280764416 Nov 13 16:15 crfalert.bdb -rw-r----- 1 root root 9850126336 Nov 13 16:14 crfclust.bdb -rw-r----- 1 root root 8192 Jul 2 13:59 crfconn.bdb -rw-r----- 1 root root 352174080 Nov 13 16:15 crfcpu.bdb -rw-r----- 1 root root 249356288 Nov 13 16:15 crfhosts.bdb -rw-r----- 1 root root 265261056 Nov 13 16:14 crfloclts.bdb -rw-r----- 1 root root 172232704 Nov 13 16:14 crfts.bdb -rw-r----- 1 root root 24576 Jul 2 13:54 __db.001 -rw-r----- 1 root root 401408 Nov 13 16:15 __db.002 -rw-r----- 1 root root 2629632 Nov 13 16:15 __db.003 -rw-r----- 1 root root 2162688 Nov 13 16:15 __db.004 -rw-r----- 1 root root 1187840 Nov 13 16:15 __db.005 -rw-r----- 1 root root 57344 Nov 13 16:15 __db.006 -rw-r----- 1 root root 16777216 Nov 13 16:06 log.0000008765 -rw-r----- 1 root root 16777216 Nov 13 16:15 log.0000008766 -rw-r--r-- 1 root root 120000000 Jul 2 13:55 host01.ldb -rw-r----- 1 root root 8192 Jul 2 13:54 repdhosts.bdb
O arquivo crfclust.bdb tem cerca de 9,8 GB. Meu disco do sistema tem apenas 30 GB, então este arquivo está ocupando 33% de todo o espaço. E continua crescendo. Para corrigir o problema, executei estas etapas:
[oracle@host01 host01]$ /u01/app/crs11.2.0.4/bin/crsctl stop resource ora.crf -init
CRS-2673:Tentativa de parar 'ora.crf' em 'host01'
CRS-2677:Parada de 'ora.crf' em 'host01' bem-sucedida
[oracle@host01 host01] $ su
Senha:
[root@host01 host01]# rm -rf *
[oracle@host01 host01]$ /u01/app/crs11.2.0.4/bin/crsctl iniciar recurso ora.crf -init
CRS-2672:Tentativa de iniciar 'ora.crf' em 'host01'
CRS-2676:Inicialização de 'ora.crf' em 'host01' bem-sucedida
Por que isso funcionou? Esses arquivos são o banco de dados Berkeley usado para o Cluster Health Monitor (CHM). Um dos arquivos deve ter apenas cerca de 1 GB de tamanho e limpar regularmente os dados mais antigos. Mas a etapa de limpeza não está funcionando. Ao remover manualmente os arquivos, perderei dados históricos de desempenho, mas isso é aceitável para mim neste momento. Na inicialização, o CHM criará os arquivos novamente se estiverem ausentes.
Depois de corrigir o problema, encontrei o Metalink Note 1343105.1 que descreve o problema. Ainda não consegui encontrar um número de Bug específico, mas está claro que existe um bug.