IA prevê sepse horas antes: o que a evidência de 2025 realmente diz

Sepse mata cerca de 11 milhões de pessoas por ano no mundo — mais do que muitos cânceres combinados. E um dos fatores mais determinantes para a sobrevivência é simples de enunciar, difícil de executar: o tempo.⁵

Nas últimas duas décadas, o consenso clínico consolidou que cada hora de atraso no diagnóstico e no início de antibióticos aumenta a mortalidade.⁵ O problema é que sepse não tem uma cara fácil: os sinais iniciais — febre, frequência cardíaca elevada, confusão, pressão caindo — são inespecíficos e comuns a dezenas de outras condições. Identificar quem está realmente progredindo para sepse num pronto-socorro ou numa UTI lotada é, na prática, muito difícil.

É nesse cenário que algoritmos de aprendizado de máquina entram. A promessa: analisar centenas de variáveis do prontuário eletrônico em tempo real — sinais vitais, exames laboratoriais, histórico clínico — e gerar um alerta antes que o médico ou enfermeiro consiga identificar o padrão manualmente.

Uma revisão sistemática publicada em dezembro de 2025 compilou 52 estudos sobre o tema.¹ O que os dados mostram — e, igualmente importante, o que ainda não mostram — é o que este artigo analisa.

Como lemos este conjunto de evidências

Item	Detalhe
Fonte principal	Revisão sistemática e meta-análise, 52 estudos, 2015–2025
Desfecho medido	Desempenho discriminativo dos modelos (AUC), não mortalidade
AUC dos modelos	0,79 a 0,96 (mediana ~0,88)
AUC do qSOFA (escore clínico padrão)	~0,64 em comparação direta
Principal lacuna	Apenas ~5 dos 52 estudos testaram os modelos em implantação clínica real prospectiva
Limitação crítica	~60% dos estudos sem validação externa; maioria retrospectiva
O que NÃO permite concluir	Que implementar IA em UTI reduz mortalidade — esse dado ainda não existe com robustez
Fonte principal	DOI: 10.1097/CCE.0000000000001360

O que é sepse e por que o tempo importa tanto

Sepse é a resposta disfuncional e potencialmente fatal do organismo a uma infecção.⁵ O critério diagnóstico atual — definido pelo consenso Sepsis-3 de 2016 — é disfunção de órgão causada por infecção. Sepse grave com choque séptico tem mortalidade hospitalar que pode ultrapassar 40%.

As diretrizes internacionais do Surviving Sepsis Campaign, atualizadas em 2021, recomendam o chamado "pacote de 1 hora": colher culturas, dosar lactato e iniciar antibióticos dentro dos primeiros 60 minutos da identificação do quadro.⁵ A lógica é simples: bactérias se multiplicam. A janela para agir se fecha rapidamente.

O problema prático é que a identificação do quadro é o gargalo. Os escores clínicos tradicionais — SIRS (síndrome de resposta inflamatória sistêmica), qSOFA e NEWS — têm sensibilidade e especificidade limitadas. O qSOFA, muito usado à beira do leito por ser simples, tem área sob a curva ROC (AUC — índice de capacidade discriminativa do teste) em torno de 0,64 em populações hospitalares gerais.¹ Isso significa que ele acerta pouco mais da metade das vezes ao tentar separar quem vai desenvolver sepse de quem não vai.

É essa lacuna que motiva a pesquisa com inteligência artificial em medicina.

A revisão de 2025: o que 52 estudos mostram

A revisão sistemática de Abbas e colaboradores, publicada em dezembro de 2025 na Critical Care Explorations, incluiu 52 estudos publicados entre 2015 e 2025 que avaliaram modelos de aprendizado de máquina para detecção precoce de sepse em pacientes hospitalizados.¹

O resultado consolidado é claro em um aspecto: modelos de aprendizado de máquina superam consistentemente os escores clínicos tradicionais no desempenho discriminativo. A AUC dos modelos variou de 0,79 a 0,96 (mediana em torno de 0,88), comparada com AUC de 0,64 do qSOFA nas comparações diretas. Um modelo do tipo ensemble (combinação de múltiplos algoritmos) chegou a AUC de 0,93 no conjunto de dados em que foi testado.¹

Esses números dizem que, nos conjuntos de dados em que foram avaliados, os modelos de IA identificam padrões preditivos que os escores simples não capturam. Isso é relevante. Mas é preciso entender o que a AUC mede — e o que ela não diz.

AUC mede capacidade de separar casos de não-casos num conjunto de dados. Ela não mede, diretamente, se o alerta vai chegar no momento certo para o profissional certo, se vai ser agido, se vai reduzir o tempo até antibióticos, ou se vai salvar vidas. Esses são os desfechos que importam clinicamente — e que a maioria dos 52 estudos simplesmente não mediu.

NAVOY Sepsis: um dos estudos prospectivos mais rigorosos disponíveis

Entre os trabalhos que avançaram além da análise retrospectiva de dados, o NAVOY Sepsis se destaca por ter passado por validação prospectiva randomizada.

O algoritmo NAVOY Sepsis foi desenvolvido com 20 variáveis coletadas rotineiramente em UTIs — sinais vitais, parâmetros laboratoriais e dados clínicos do prontuário.² No estudo de prova de conceito, publicado em 2021, o modelo demonstrou AUC de 0,90 na capacidade de prever sepse com até 3 horas de antecedência.²

O passo seguinte foi um ensaio clínico prospectivo e randomizado publicado em 2024, com 304 pacientes internados em UTI.³ Nesse estudo, metade dos pacientes recebeu alertas ativos gerados pelo NAVOY Sepsis; a outra metade recebeu cuidado padrão sem alerta automatizado. O algoritmo demonstrou sensibilidade de 0,80 e especificidade de 0,78 para predição de sepse com 3 horas de antecedência, com acurácia geral de 0,79.³

Sensibilidade de 0,80 significa: de cada 100 pacientes que vão desenvolver sepse nas próximas 3 horas, o algoritmo identificou corretamente 80. Os outros 20 não foram alertados. Especificidade de 0,78 significa: de cada 100 pacientes que não vão desenvolver sepse, o algoritmo sinalizou incorretamente 22 como positivos — os chamados falsos positivos.

Esse ponto sobre falsos positivos merece atenção especial.

O problema dos falsos positivos — e por que importa no Brasil

Falso positivo num sistema de alerta de sepse não é apenas um dado estatístico: é um profissional de saúde deslocado de outro paciente para investigar um quadro que não existe. Em UTIs com alta proporção paciente/enfermeiro, como é comum no SUS, esse custo operacional pode ser substancial.

Um estudo publicado na JAMA Internal Medicine em 2021 avaliou um sistema de alerta de sepse amplamente implantado nos Estados Unidos (o Sepsis Early Warning da Epic) e encontrou que, de 38.455 pacientes internados, o algoritmo gerou alertas para 6.971 — mas não identificou 1.709 pacientes com sepse confirmada (67% de taxa de perda, ou seja, sensibilidade de apenas 33% nessa população real).⁶ A relação sinal-ruído foi considerada problemática pelos autores.

Esse dado não invalida os estudos mais rigorosos como o NAVOY. Mas ilustra algo que qualquer implantação real precisa enfrentar: desempenho em banco de dados de desenvolvimento é diferente de desempenho em produção clínica. Quando um modelo é transferido de um hospital para outro, a AUC cai — a revisão de 2025 reportou quedas de 5 a 10 pontos percentuais em validações externas.¹

No contexto brasileiro, esse problema tem uma camada adicional. A maioria dos 52 estudos da revisão foi conduzida em hospitais dos EUA, Europa e Ásia com sistemas de prontuário eletrônico integrados e infraestrutura de TI robusta. A realidade de boa parte dos hospitais públicos brasileiros — fragmentação de sistemas, ausência de prontuário eletrônico unificado, conectividade instável — cria barreiras concretas para qualquer implantação de IA preditiva em sepse.

Sepsis Watch (Duke): quando a IA encontra a clínica

O programa Sepsis Watch, desenvolvido pela Universidade Duke nos EUA, foi um dos primeiros casos documentados de implantação de um sistema de deep learning para alerta de sepse em fluxo clínico real.⁴

O relato de implementação de Sendak e colaboradores, publicado em 2020, descreve um esforço de melhoria de qualidade com integração direta ao prontuário: o algoritmo gerava alertas que chegavam a enfermeiros de resposta rápida, que acionavam a equipe médica. O que o estudo documenta em detalhe é o processo — os desafios de integração de fluxo, a resistência e adaptação da equipe, os ajustes necessários para que o alerta fosse agido de forma sistemática.⁴

O que o estudo não reportou como desfecho primário: redução de mortalidade com significância estatística. A implantação clínica real de sistemas de IA em sepse está documentada — os dados de impacto em mortalidade ainda são escassos e, quando existem, vêm de estudos antes-depois sem grupo controle contemporâneo, o que limita a interpretação.

O que os dados permitem concluir — e o que ainda não permitem

O que a evidência de 2025 sustenta:

Modelos de aprendizado de máquina para detecção precoce de sepse demonstram desempenho discriminativo superior aos escores clínicos tradicionais em dados retrospectivos e em alguns estudos prospectivos.¹
Pelo menos um sistema (NAVOY Sepsis) passou por validação prospectiva randomizada com métricas razoáveis (sensibilidade 0,80; especificidade 0,78) em 3h de antecedência.³
A tecnologia existe, funciona em condições de laboratório e em hospitais com infraestrutura adequada, e está avançando para validação clínica mais rigorosa.

O que a evidência de 2025 ainda não sustenta:

Que implantar IA de sepse em qualquer hospital reduz mortalidade. Os estudos prospectivos com desfechos clínicos são poucos, pequenos e heterogêneos.
Que os modelos desenvolvidos em hospitais terciários dos EUA ou Europa funcionarão com o mesmo desempenho em hospitais brasileiros com infraestrutura diferente, mix de patógenos diferente e prontuários fragmentados.
Que falsos positivos não têm custo clínico real. Em ambientes com alta carga de trabalho, fadiga de alerta é documentada e pode reduzir a confiança da equipe em sistemas automatizados ao longo do tempo.

O que muda na prática hoje

Para o paciente que está internado ou tem familiar internado: nenhuma ação necessária. A adoção ou não de sistemas de alerta automatizado é uma decisão institucional e clínica — não individual.

Para os profissionais de saúde: a evidência de 2025 reforça que sistemas de IA com validação rigorosa estão avançando como ferramentas de apoio à decisão, não como substitutos do julgamento clínico. A avaliação da qualidade de um sistema — especificidade, taxa de falsos positivos, validação prospectiva, adaptação local — é tão importante quanto a sensibilidade.

Para gestores hospitalares: a literatura é clara que a implementação bem-sucedida não é só técnica. É de fluxo clínico, treinamento de equipe e manutenção ativa. Sistemas que geram muitos alertas não agidos rapidamente perdem efetividade.

Quando procurar atendimento

Sepse é emergência médica. Sinais de alarme — febre alta ou hipotermia, confusão mental, respiração acelerada, pressão baixa, extremidades frias — exigem avaliação hospitalar imediata. Em caso de dúvida, não aguardar.

Este conteúdo é informativo e não substitui avaliação médica individual. Diagnóstico e tratamento de sepse exigem avaliação presencial urgente por equipe médica.