A medida que la IA generativa avanza y se integra en distintos niveles de la vida académica, las universidades enfrentan una creciente complejidad para garantizar la integridad en las evaluaciones. En este contexto, una nueva investigación realizada por expertos de la Universidad de Maryland, Microsoft y la Universidad de Massachusetts Amherst aporta hallazgos relevantes para el ámbito de la educación superior.
Según el estudio, publicado por Forbes, las personas con experiencia en el uso de modelos de lenguaje son especialmente competentes para detectar textos generados por inteligencia artificial, incluso cuando estos han sido modificados para evadir detectores automatizados.
El experimento demostró que un panel de cinco evaluadores humanos identificó con un 99,3% de precisión los textos creados por IA, e incluso alcanzó un 100% de exactitud al distinguir los textos escritos por humanos.
Sólo un sistema comercial —Pangram— logró igualar esa tasa de efectividad.
Estos resultados abren interrogantes relevantes para el ámbito universitario.
En los últimos años, la proliferación de herramientas como ChatGPT ha desafiado los sistemas tradicionales de evaluación y ha generado nuevas formas de plagio difíciles de detectar con métodos convencionales. En ese escenario, la capacidad de ciertos perfiles humanos para identificar textos de IA con alta precisión representa una posible vía complementaria para preservar la rigurosidad académica.
Sin embargo, el estudio también destaca las limitaciones del enfoque humano. Para alcanzar niveles tan altos de precisión fue necesario involucrar a cinco expertos por cada texto, con un costo promedio de USD 2,82 por evaluación. Este modelo, si bien efectivo, resulta poco escalable para la mayoría de las instituciones educativas.
Más allá de sus implicancias inmediatas, el estudio habilita nuevas líneas de reflexión para las universidades: ¿cómo formar a docentes capaces de detectar textos generados por IA? ¿Es posible implementar modelos mixtos que combinen detección automática con revisión humana en casos sensibles? ¿Qué tipo de competencias digitales deberán desarrollar los académicos en este nuevo entorno?
Asimismo, el informe subraya un aspecto diferencial de la evaluación humana: a diferencia de los sistemas automatizados, las personas pueden explicar por qué sospechan que un texto fue generado artificialmente. Esta capacidad para fundamentar decisiones puede ser clave en procesos académicos, investigativos o legales.
Conclusiones
En un contexto donde los modelos de lenguaje evolucionan rápidamente, y donde las herramientas automatizadas aún presentan márgenes de error, las universidades se ven ante la necesidad de repensar sus métodos de evaluación y sus políticas institucionales. Fortalecer las capacidades humanas para comprender, detectar y enseñar sobre IA puede convertirse en una oportunidad pedagógica para formar profesionales con pensamiento crítico, criterio ético y habilidades digitales avanzadas.