O ChatGPT, que alcançou a marca de 100 milhões de usuários menos de dois meses após o seu lançamento, em novembro de 2022, é hoje amplamente reconhecido por sua capacidade de redação equiparável à de humanos em uma série de temas. Esse chatbot (programa de computador que busca simular um ser humano na conversação com pessoas) representa uma nova geração de inteligência artificial, impulsionada por avanços nos modelos de linguagem de larga escala. No entanto, os autores do estudo em tela destacam que o sistema não foi desenvolvido para prestar orientações em saúde e, até o momento, a sua capacidade de prover respostas de alta qualidade e o grau de empatia demonstrado nos textos ainda não havia sido avaliada.
Para tanto, Dr. John W. Ayers, Ph.D., afiliado à University of California nos EUA, et al. testaram a capacidade do ChatGPT prover respostas empáticas e de alta qualidade técnica por meio da comparação das respostas do chatbot com as respostas de médicos a perguntas sobre saúde feitas por pacientes no fórum público da rede social Reddit , o r/AskDocs; um subreddit com aproximadamente 474.000 membros no qual os usuários da rede postam perguntas e profissionais da saúde verificados por moderadores da plataforma se voluntariam a responder.
O estudo “Comparing Physician and Artificial Intelligence Chatbot Responses to Patient Questions Posted to a Public Social Media Forum” foi publicado em abril no periódico JAMA Internal Medicine.
Estruturação da pesquisa e resultados
O artigo descreve que a amostra final selecionada para análise no estudo transversal foi composta de 195 interações aleatórias (i.e., pergunta sui generis feita por um membro do fórum e respondida por um médico verificado) no r/AskDocs ao longo de outubro de 2022. As perguntas (título e corpo da mensagem) foram guardadas para análise e as respostas dos médicos foram guardadas como método de comparação. E, segundo os autores, foram avaliadas apenas respostas de médicos.
Nos dias 22 e 23 de dezembro de 2022, os pesquisadores inseriram as perguntas feitas no r/AskDocs pelos membros do fórum em uma “nova conversa” com o chatbot (versão GPT-3.5, OpenAI), ou seja, uma conversa zerada, aberta apenas para este fim, com o intuito de prevenir viéses associados a perguntas/conversas prévias.
As perguntas feitas no r/AskDocs, as respostas dos médicos verificados e as respostas do chatbot foram então avaliadas por três membros de uma equipe de profissionais de saúde que atua nas áreas da pediatria, geriatria, medicina interna, oncologia, doenças infecciosas e parasitárias, e medicina preventiva. A autoria das respostas foi mascarada e os avaliadores foram instruídos a ler as perguntas até o final, bem como as duas respostas, antes de avaliarem a interação. Eles foram solicitados a:
- indicar a melhor resposta (resposta 1 ou 2);
- avaliar a qualidade da informação (muito ruim, ruim, aceitável, boa ou muito boa); e
- avaliar a resposta a partir do nível de empatia demonstrado (nada empática, levemente empática, moderadamente empática, empática ou muito empática).
Os resultados médios foram ordenados em uma escala de 1 a 5 e comparados. Os avaliadores preferiram as respostas oferecidas pelo chatbot em 78,6% das 585 avaliações realizadas (intervalo de confiança [IC] 95% de 75% a 81,8%). As respostas médicas foram significativamente mais curtas do que as elaboradas pela ferramenta (52 palavras [17 a 62] versus 211 palavras [168 a 245]; t = 25,4; p < 0,001).
Na avaliação dos profissionais, a qualidade das respostas do ChatGPT foi significativamente superior às respostas dos médicos (t = 13,3; p < 0,001); por exemplo, 78,5% das respostas do chatbot foram classificadas como “boas ou muito boas” (IC 95%: 72,3% a 84,1%) e 22,1% das respostas dos médicos receberam a mesma classificação (IC 95% de 16,4% a 28,2%). A ocorrência de respostas consideradas de qualidade boa ou muito boa foi mais de três vezes maior para o ChatGPT. As respostas do chatbot também foram classificadas como significativamente mais empáticas do que as respostas dos médicos (t = 18,9; p < 0,001). A proporção de respostas classificadas como empáticas ou muito empáticas foi maior para o ChatGPT (45,1%; IC 95% de 38,5% a 51,8%) do que para os médicos (4,6%; IC 95% de 2,1% a 7,7%). Esses valores indicam que o ChatGPT deu 9,8 vezes mais respostas “empáticas ou muito empáticas” do que os médicos.
Fonte: Medscape Brasil