LLM na cardiologia: o estudo da Nature Medicine que ajudou cardiologistas a errar menos, e o caso que lembra por que cautela ainda é necessária

Em março de 2025, um caso circulou entre profissionais de saúde nos Estados Unidos: um paciente havia recebido, via chatbot médico, uma sugestão de dose de medicamento que podia prolongar o intervalo QT do coração a níveis perigosos. A referência bibliográfica que o sistema usou para embasar a recomendação não existia. Era uma alucinação, o termo técnico para quando modelos de linguagem inventam informações com aparência de verdade.

Poucos meses depois, a Nature Medicine publicou um ensaio mostrando que o mesmo tipo de tecnologia, usada de outro jeito, ajudou 9 cardiologistas a errar significativamente menos em 107 casos complexos de cardiomiopatia genética.

Esses dois acontecimentos juntos resumem bem onde estamos com IA em medicina: o potencial é real, e os riscos também são.

O estudo

O ensaio foi conduzido por O'Sullivan, Palepu, Saab e colaboradores, em parceria com o grupo de IA em saúde do Google.¹ O objetivo era avaliar se o AMIE (Articulate Medical Intelligence Explorer), um sistema de raciocínio clínico baseado em modelo de linguagem de grande escala, ajudaria cardiologistas generalistas a manejarem casos de alta complexidade.

O desenho foi este: 9 cardiologistas avaliaram 107 casos reais de cardiomiopatia genética, com e sem acesso ao AMIE. Os casos eram complexos o suficiente para exigir consulta a subespecialistas. Ao final, especialistas em genética cardíaca avaliaram as respostas, sem saber quem as escreveu.

Os números principais:¹

Subespecialistas preferiram as respostas geradas com apoio do AMIE em 46,7% dos casos, contra 32,7% para os cardiologistas trabalhando sozinhos (p = 0,02). Em 20,6% houve empate.
Erros clinicamente significativos caíram de 24,3% para 13,1% quando o AMIE estava disponível (p = 0,033). Quase metade a menos.
Conteúdo importante omitido nas respostas: 37,4% sem IA, 17,8% com IA (p = 0,0021).
Os próprios cardiologistas relataram que o AMIE ajudou em 57% dos casos e economizou tempo em 50,5%.

Como lemos este estudo

Item	Detalhe
Tipo	Ensaio clínico prospectivo, crossover, avaliadores cegos
População	9 cardiologistas generalistas; 107 casos de cardiomiopatia genética
Desfecho principal	Preferência de subespecialistas + taxa de erro clínico significativo
Tamanho do efeito	Erro clínico: de 24,3% para 13,1%; preferência: 46,7% vs 32,7%
Principal limitação	Amostra pequena de médicos (n=9); casos de subespecialidade rara; AMIE não está disponível para uso clínico geral
Conflito de interesse	Estudo financiado e conduzido em parceria com o Google, desenvolvedor do AMIE
O que NÃO permite concluir	Que LLMs substituem especialistas; que os resultados se reproduzem em outras especialidades ou em IA comercialmente disponível
Fonte principal	DOI: 10.1038/s41591-025-04190-9

O que melhorou, especificamente

O estudo não usou IA para fazer o diagnóstico. O cardiologista continuou sendo o responsável pela avaliação, pelo raciocínio e pelas decisões. O AMIE funcionou como uma segunda opinião estruturada, disponível a qualquer momento, que organizava opções diagnósticas, sugeria exames e apontava lacunas no plano de manejo.

O benefício foi maior em dois domínios que os avaliadores mediram:¹

Raciocínio diferencial. Em cardiomiopatias genéticas, o diferencial inclui múltiplas causas com sobreposição fenotípica importante. O AMIE sistematizou hipóteses que o cardiologista não tinha colocado explicitamente no caso, reduzindo o "esquecimento de diagnóstico" que ocorre sob pressão de tempo.

Plano de manejo. O sistema sugeriu exames genéticos, estratégias de estratificação de risco e encaminhamentos que alguns cardiologistas não tinham incluído. Isso é coerente com a lógica de que, em subespecialidades raras, a memória individual do clínico é naturalmente limitada, e um sistema treinado em literatura ampla pode cobrir lacunas.

O que ainda é problemático

Até aqui parece bom. Mas há limitações que o próprio estudo reconhece, e que o caso da alucinação de dose ilustra na prática.

Alucinação de referências. Modelos de linguagem são projetados para gerar texto plausível, não necessariamente verdadeiro. Quando agem como consultores médicos, podem citar artigos que não existem, autores que nunca escreveram aquele conteúdo, ou guidelines com números ligeiramente alterados. O modelo não sabe que está errado: ele produz a saída mais provável, não a mais correta.

Dosagem e interações. O caso do QT ilustra o risco mais grave: sugestões de dose ou de combinações medicamentosas que parecem fundamentadas, mas não são. Em cardiologia, onde muitos fármacos têm janela terapêutica estreita e interações potencialmente fatais, esse risco é especialmente relevante. O AMIE, no estudo da Nature Medicine, operou num contexto altamente restrito (cardiomiopatia genética) e com supervisão de especialistas. Isso é diferente de um médico usando ChatGPT ou qualquer LLM comercial em situações abertas.

Ausência do exame físico. Nenhum modelo de linguagem atual examina o paciente, ouve bulhas, palpa abdome ou interpreta olhos vermelhos, cansaço e dor no peito no mesmo contexto clínico que um médico. O estudo da Nature Medicine avaliava casos documentados por escrito, uma condição muito diferente da consulta real.

Heterogeneidade de desempenho. Uma metanálise publicada no JMIR Medical Informatics em abril de 2025, analisando 30 estudos com 4.762 casos clínicos e 19 modelos diferentes, encontrou que a acurácia diagnóstica dos LLMs variou entre 25% e 97,8% dependendo da especialidade, do modelo e do caso.² Em 33,7% dos estudos, os profissionais de saúde superaram os modelos. Em 33,3%, os modelos superaram os profissionais. No terço restante, o desempenho foi equivalente. Dois terços dos estudos tinham alto risco de viés metodológico.

Isso não é um número animador para quem espera que a IA resolva diagnósticos com consistência. É um número que exige cautela antes de qualquer conclusão.

O que o regulador brasileiro disse

Em 2026, o Conselho Federal de Medicina editou a Resolução CFM 2.454/2026, que regulamenta o uso de inteligência artificial na prática médica no Brasil.³ O texto ainda não estava disponível para consulta pública completa no portal do CFM ao fechamento desta edição, mas a resolução foi aprovada e representa o primeiro marco regulatório formal da profissão médica sobre o tema no país.

O princípio central de toda regulação de IA em medicina, compartilhado por entidades como a OMS e diversas sociedades cardiológicas, é direto: a responsabilidade clínica não transfere para a máquina. Quando um médico usa IA para apoiar uma decisão, a decisão continua sendo dele. Se o modelo sugeriu uma dose errada e o médico a prescreveu sem verificar, o erro é do médico.

Esse princípio tem implicação prática: usar IA em medicina exige a mesma postura crítica que se aplica a qualquer fonte de informação clínica. Um valor laboratorial inesperado exige confirmação. Uma referência de IA exige verificação na fonte. Uma sugestão de dose exige checagem em bula, formulário ou base farmacológica confiável.

O que isso muda na prática, agora

Para o médico que já usa ou considera usar LLMs no dia a dia, os dados até aqui apontam para algumas conclusões razoáveis:

O que tem evidência razoável de benefício: apoio ao raciocínio diferencial em casos complexos, organização de opções diagnósticas, sistematização de plano de manejo em subespecialidades de alta densidade de conhecimento. O estudo da Nature Medicine é o exemplo mais rigoroso disponível até agora.

O que tem risco elevado: sugestões de dosagem, referências bibliográficas não verificadas, triagem autônoma sem supervisão médica, e qualquer uso em que o modelo não seja corrigível pelo profissional.

O que ainda não sabemos: se os resultados do AMIE se reproduzem com os modelos comercialmente disponíveis (GPT-4, Claude, Gemini), em outras especialidades, com médicos de diferentes níveis de treinamento, em língua portuguesa, ou no contexto do sistema de saúde brasileiro.

Para o paciente

Se você usa algum aplicativo de saúde com IA, ou já pediu ao ChatGPT para explicar um exame ou comentar sobre um medicamento, estes pontos merecem atenção:

A IA pode ser útil para entender conceitos, formular perguntas para o médico, ou pesquisar sobre condições em linguagem acessível. Mas ela não conhece seu histórico completo, não examinou você, e pode estar errada com alto grau de confiança aparente.

Quando cobrar mais atenção: qualquer sugestão de medicamento, dose, ou conduta clínica que venha de uma IA deve ser confirmada com o seu médico antes de qualquer ação. Referências que você não consegue verificar diretamente merecem ceticismo.

A boa notícia dos dados mais recentes é que a IA pode tornar consultas com especialistas mais bem preparadas e planos clínicos mais completos, especialmente em casos raros ou complexos. A notícia que exige cuidado é que o mesmo tipo de tecnologia pode errar de formas que um médico experiente não erraria, e que esses erros podem ser graves.

Este conteúdo é informativo e não substitui avaliação médica individual. Decisões clínicas, incluindo uso ou ajuste de medicamentos, devem ser tomadas com o seu médico.