Los modelos de lenguaje de inteligencia artificial cada vez se equivocan más
- Un estudio apunta a que la fiabilidad de los modelos de lenguaje de IA ha empeorado en sus últimas versiones
- Los modelos más avanzados obtienen buenos resultados en tareas complejas, pero sufren alucinaciones en las sencillas
La inteligencia artificial pierde credibilidad para los expertos. Un equipo de investigadores de Instituto VRAIN de la Universitat Politècnica de València (UPV), la Escuela Valenciana de Posgrado y Red de Investigación en Inteligencia Artificial (ValgrAI), y la Universidad de Cambridge ha publicado un informe sobre la escasa fiabilidad de los grandes modelos de lenguaje de inteligencia artificial (IA), como GPT-4. Según el estudio, publicado en la revista Nature, los modelos más avanzados son cada vez menos fiables en comparación con sus versiones anteriores, como GPT-3.
A pesar de los avances tecnológicos, los modelos recientes presentan fallos importantes en ejercicios aparentemente sencillos. "Los modelos pueden resolver ciertas tareas complejas de acuerdo a las habilidades humanas, pero al mismo tiempo fallan en tareas simples del mismo dominio. Por ejemplo, pueden resolver varios problemas matemáticos de nivel de doctorado, pero se pueden equivocar en una simple suma", explica José Hernández Orallo, uno de los investigadores principales del estudio y miembro del Instituto VRAIN de la UPV.
Menor precisión, incluso en tareas sencillas
Uno de los hallazgos más destacados del estudio es que no existe una "zona segura" en la que los modelos puedan garantizar un rendimiento perfecto. Según Yael Moros Daval, investigadora del Instituto VRAIN, "los modelos suelen ser menos precisos en tareas que los humanos consideran difíciles, pero no son precisos al 100% ni siquiera en tareas sencillas".
Estas diferencias de fiabilidad favorecen que haya una gran discordancia entre las expectativas humanas y el rendimiento real de los modelos. Resulta difícil para los usuarios comprender que GPT-4 sea mejor en tareas de alta dificultad, pero peor en las sencillas, lo que repercute negativamente en la confianza.
Propensos a ofrecer respuestas incorrectas
La tendencia de estos modelos a ofrecer respuestas incorrectas en lugar de abstenerse de contestar cuando no están seguros es una de las claves de esta disminución de la fiabilidad. Aumenta el riesgo de que los usuarios, que inicialmente confían en la tecnología, se sientan decepcionados y se expongan a errores en ámbitos críticos como la medicina o la educación.
"A diferencia de las personas, la tendencia a evitar proporcionar respuestas no aumenta con la dificultad. Por ejemplo, los humanos suelen evitar dar su opinión en problemas que superan su capacidad. Esto relega a los usuarios la responsabilidad de detectar fallos durante todas sus interacciones con los modelos", señala Lexin Zhou, otra de las investigadoras del equipo.
Los investigadores insisten en la importancia de que los usuarios de estas tecnologías sean conscientes de su baja fiabilidad. “Me pasa constantemente con estudiantes, que tienden a no tener una visión crítica de la respuesta que les da, lo toman como si fueran hechos verdaderos con rigor”, apunta Martínez Plumed en declaraciones a TVE Valencia. Cuando el modelo de lenguaje desconoce la respuesta y la rellena con texto falso inventado se produce lo que se conoce como ‘alucinaciones’. Por eso, es necesario cerciorarse de la precisión de la respuesta.
Venga, seguimos, seguimos hablando de educación.
Sabemos que el avance es imparable en la inteligencia artificial
y que está provocando un cambio de paradigma,
planteando nuevos retos y desafíos en la sociedad.
Hoy nos acercamos a la sede del INTEF,
que es el Instituto Nacional de Tecnologías Educativas
y de Formación del Profesorado,
donde se ha celebrado la Jornada de
Inteligencia Artificial en Educación.
Un día para debatir,
para reflexionar sobre el impacto que puede tener
esta herramienta en nuestras aulas.
(Música)
Para el científico Edsger Dijkstra,
preguntarse si una computadora puede pensar
es tan interesante como preguntarse si un submarino es capaz de bucear.
(Música)
Aunque los primeros programas
empezaron a desarrollarse a finales de los años 50,
el avance incontenible de la inteligencia artificial
ha provocado un cambio de paradigma en la sociedad,
zarandeando los pilares del sistema educativo.
La tecnología puede servir para mejorar el aprendizaje
y de hecho es muy buen elemento para potenciar determinados aprendizajes.
Pero hay otros que los dificulta e incluso que los opaca un poco.
Entonces, casi siempre cuando es tecnología sí, tecnología no
la respuesta más razonable es decir, ¿tecnología cuándo?
Y ¿tecnología para qué?
Muchas veces se dice que la solución fácil es comprar dispositivos,
llevarlos al aula y que ahí pasen cosas, ¿no?
Y eso nunca pasa, o sea, es de la misma forma que si dijéramos,
bueno, pues yo pongo un montón de átomos en un sitio
y de repente se creará algo bonito, ¿no?
O pongo un montón de células y saldrá un ser vivo.
No es así, ¿no? necesitamos a alguien que coordine todo eso,
necesitamos gente que sea experta en la aplicación de la tecnología
y luego también de metodología y de pedagogía.
Tenemos que ser muy precavidos,
no podemos permitir que la inteligencia artificial
entre sin control en nuestro sistema educativo
y nosotros tenemos que ser los que decidamos en qué, cuándo y cómo.
La inteligencia artificial la vemos como una especie de caballo alado,
que cabalga por los aires en un paisaje idílico,
pero no es más que un instrumento del que tenemos que sacar partido,
tenemos que sacar beneficios y evitar daños.
(Música)
En el Instituto Nacional de Tecnologías Educativas
y de Formación del Profesorado
se celebra la Jornada de Inteligencia Artificial
en Educación.
Un día para reflexionar sobre el impacto que puede tener
esta herramienta en las aulas,
proyectando también escenarios futuros.
La idea es ofrecer una guía que
hemos estado laborando desde el INTE.
Es una guía sobre inteligencia artificial en educación.
Se señala al profesorado y al resto de la comunidad educativa
un documento que recoge qué recursos se pueden ofrecer,
qué normativa cubre la inteligencia artificial,
qué han hecho comunidades autónomas sobre la inteligencia
artificial y cómo se puede tratar en la aula.
Desde tres perspectivas, docentes, centros y alumnos.
Estudios recientes afirman que el uso de la inteligencia artificial
está optimizando el tiempo de trabajo de los docentes
además de fomentar una enseñanza de mayor calidad
si la tecnología se usa de manera adecuada.
Hay una parte que creemos que va a ayudar mucho,
es la parte de reducción de la burocracia.
Hay una parte muy tediosa en la labor de los docentes,
de generación de informes, de pasar notas.
Esa parte se puede mecanizar.
No tiene que ser inteligencia artificial,
pero sí recursos tecnológicos que pueden ayudar mucho
y ahorrar tiempo a los docentes.
Ese ciclo de expectativas
que se está generando con la inteligencia artificial,
estamos ahora mismo en un pico de esa expectativa total.
Todo el mundo está superansioso, esto es el culmen.
El Reglamento General de Protección de Datos
desarrollado por la Comisión Europea,
ha trazado las primeras líneas a seguir
para avanzar en un uso de la tecnología eficaz y seguro.
La IA tiene varias fuentes de datos.
Una fuente de datos para el aprendizaje en primera fase,
y un aprendizaje continuado que absorbe
de los propios usuarios, que somos todos,
de la inteligencia artificial.
¿Cómo se puede controlar eso?
Pues es complicado,
pero ya el Reglamento de Inteligencia Artificial
da pistas para ello.
Y da pistas en términos de,
de trazabilidad y en términos de explicabilidad.
Y eso es lo que el Reglamento de Inteligencia Artificial
denomina transparencia.
Desde el embarazo hasta los seis años,
el cerebro del menor experimenta avances rápidos y significativos,
convirtiendo esa etapa en una fase crucial
para su desarrollo cognitivo, emocional y social.
No podemos evitar que la tecnología esté presente en la educación.
Estamos en 2024, es parte de nuestra vida,
nuestro día a día está mediado por la tecnología
y hacer una educación que no tenga en cuenta la tecnología
y que no esté presente la tecnología
es hacer una burbuja que no prepara para la sociedad.
Pero por otro lado, no toda tecnología
está ayudando al aprendizaje,
sino que hay veces que algunas aplicaciones
de la tecnología dificultan algunos aprendizajes
y por eso, hay que saber un poco por dónde va la cosa, ¿no?
¿En qué edades es más crítico?
¿En qué edades es menos crítico?
¿Cuándo estamos aprendiendo a leer?, por ejemplo.
Pues la tecnología ahí no está ayudando del todo,
salvo que tengamos alguna necesidad especial,
que entonces sí, veamos un poco más allá,
veamos los casos concretos y sobre todo
cuando tenemos un caso muy específico,
ahí la tecnología sí que es una ayuda increíble
y cuando estamos haciendo ya un uso razonable de la información
que sabemos gestionar,
ahí ya es cuando la tecnología nos permite volar.
Adaptarse a los nuevos tiempos en la era digital
requiere de ingenio y creatividad
para no fomentar barreras en la educación y comunicación directa
entre alumnos y profesores.
En el ámbito específico de la educación,
yo lo que personalmente considero prioritario es la educación digital,
tanto del profesorado como de los alumnos.
Y educación digital no es manejar una interfaz
como hemos interpretado cuando hablamos de nativos digitales,
es saber todo lo que ocurre detrás.
Eso es educación digital.
Yo me he buscado en internet,
y aparezco como un experto en términos digitales,
en términos de seguridad cibernética.
Y yo no recibí formación digital hasta los 21 o 22 años.
Aquí estoy.
Hay ilusión desmedida con la IA,
hay muchas empresas que nos están metiendo la IA un poco así,
y hay gente que se puede plantear
¿esto es el nuevo metaverso?, ¿El nuevo blockchain? ¿El nuevo NFT?
No.
Pero claro, si le preguntamos a un peluquero
si nos hace falta un corte de pelo, nos va a decir que sí.
Así que hay que tener un poco de cuidado también con esto.
Lo siento por las empresas que han venido.
Mahatma Gandhi pensaba que el futuro depende siempre de lo que hagas hoy.
Ante el avance imparable de la IA en nuestras aulas,
reflexionar sobre los retos y desafíos
que nos plantean en la docencia es materia obligada para el INTEF.
Al final, como cualquier tecnología digital,
nos ofrece dos elementos, unas ventajas enormes,
pero también tenemos que ser conscientes de esos riesgos.
Y hablando de educación, mucho más.
Yo, por ejemplo, en la universidad hemos decidido
que para las asignaturas más críticas,
Yo de informática, para programación y para cálculo,
vamos a dividir la ratio por la mitad.
Y entonces hemos duplicado el profesorado
y ahora estamos con grupos de 30 personas.
Yo, con 30 personas, sé cómo está cada cual.
Sé si alguien necesita algo y, sobre todo,
la gente que está recibiendo esas clases
y que está trabajando esas competencias,
le cuesta mucho menos acercarse a mí y decirme,
"oye, ¿me podrías ayudar en esto?"
Porque sabe que no tengo yo a 60 o a 120 o lo que sea,
sino que tengo un grupo reducido.
Pero a mí me ha ayudado mucho, por ejemplo,
en compartir una clase con otro docente para la misma asignatura
y estar pasándonos un poco la voz, como quien dice.
Y entonces, bueno, vas viendo que si hay algún problema tecnológico,
no pasa nada, porque hay otra persona que te puede ayudar.
Además, puedes estar aprendiendo de ese otro docente,
de nuevas maneras de explicar las cosas
y estar atento también de qué es lo que está pasando en el aula
cuando tú estás dando clase, pues
muchas veces no ves otras cosas, ¿no?
(Música)
La pregunta importa
El estudio explora cómo la efectividad de los modelos de lenguaje se ve afectada por la manera en la que se formulan las preguntas. Los investigadores advierten que los usuarios deben seguir preocupándose por enunciar bien las preguntas, ya que una instrucción eficaz en tareas complejas podría fallar en situaciones más simples.
Además, la investigación revela que la supervisión humana es incapaz de corregir completamente estos problemas. Incluso cuando las personas tienen la opción de decir “no estoy seguro”, tienden a confiar demasiado en los modelos y considerar respuestas incorrectas como correctas.
Impacto en múltiples familias de modelos
Estos problemas no son exclusivos de un solo modelo de lenguaje. Afectan a varias familias, como GPT de OpenAI, LLaMA de Meta y BLOOM.
Wout Schellaert, uno de los autores del estudio, concluye que “son cada vez menos fiables desde el punto de vista humano” y que "es necesario un cambio fundamental en el diseño y desarrollo de la IA de propósito general, sobre todo para las aplicaciones de alto riesgo, en las que la predicción del desempeño de los modelos de lenguaje y la detección de sus errores son primordiales”.