Un estudio conjunto de Rand Fishkin (SparkToro) y Patrick O’Donnell (Gumshoe.ai) analizó la consistencia de las recomendaciones de marca generadas por modelos de inteligencia artificial a partir de 2.961 pruebas realizadas por 600 voluntarios en Estados Unidos, usando 12 consultas distintas por participante para comparar respuestas de ChatGPT, Claude y la IA de Google.
Metodología del estudio
Los investigadores solicitaron a los voluntarios ejecutar 12 consultas diferentes en cada IA, repitiendo las pruebas un total de 2.961 veces, con el objetivo de evaluar cómo varían los listados de marcas o productos recomendados por estos sistemas en situaciones equivalentes.
Hallazgos principales
Las recomendaciones mostraron una alta inconsistencia. Frente a las mismas consultas, las IAs generaron listas de marcas distintas en cada respuesta, variando en tres dimensiones: las marcas incluidas en el listado, el orden de aparición y la cantidad de elementos presentados.
Las probabilidades de replicar exactamente el mismo listado de marcas en dos respuestas consecutivas fueron muy bajas: 0,74% para ChatGPT, 0,81% para la IA de Google y 1,65% para Claude. La probabilidad de que dos respuestas presenten exactamente el mismo orden de marcas es aún menor: 0,1% para ChatGPT, 0,28% para la IA de Google y 0,07% para Claude.
Observaciones sobre visibilidad de marca
A pesar de la baja consistencia entre respuestas, el estudio identifica que cierta visibilidad de marca persiste: determinadas marcas aparecen con mayor frecuencia en las respuestas de cada IA para consultas específicas. Esto sugiere que la presencia recurrente en múltiples respuestas puede ser más relevante que ocupar una posición fija en un único resultado.