¿Qué podría alterar el futuro de la IA generativa?

Publicado: 2023-09-22

Hoy en día se habla mucho de cómo la IA generativa podría dejar a la gente sin trabajo. No se piensa tanto en cómo la gente podría dejar de funcionar la IA generativa. Pero podrían hacerlo, y muy posiblemente lo harán.

GenAI y los modelos básicos sobre los que se basa se encuentran actualmente en la cima vertiginosa del ciclo de exageración de Gartner. Si el modelo de Gartner es sólido, esas herramientas pueden estar a punto de hundirse en el “canal de la desilusión” antes de emerger dentro de unos años a una meseta de productividad útil.

Sin embargo, existe el argumento de que el abismo de la desilusión podría tragarse los productos genAI para siempre. Además de los riesgos inherentes al confiar en lo que es esencialmente una “inteligencia” inconsciente y amoral, los usuarios también enfrentan perspectivas muy reales de que los problemas de derechos de autor y privacidad podrían herir mortalmente a los grandes modelos lingüísticos (LLM) como ChatGPT.

Tomémoslos en orden.

¿Un registro nacional de No Scrape?

Los editores monetizan el contenido. No buscan que terceros moneticen ese contenido sin permiso, especialmente porque los editores probablemente ya hayan pagado por él. Los autores profesionales monetizan lo que escriben. Tampoco buscan que terceros se lucren con su trabajo sin recompensa para el creador. Todo lo que digo aquí sobre el contenido escrito se aplica igualmente al contenido gráfico, al vídeo y a cualquier otro contenido creativo.

Por supuesto, tenemos leyes de derechos de autor que protegen a los editores y autores del robo directo. Esos no ayudan con genAI porque rastrea tantas fuentes que el resultado final puede no parecerse mucho a solo una de las fuentes individuales (aunque eso puede suceder).

En este momento, los editores están buscando activamente formas de impedir que los LLM eliminen su contenido. Es un desafío técnico difícil.

En este vídeo, Greg Krehbiel, colaborador de MarTech, analiza las formas en que los editores podrían intentar bloquear los LLM. También aboga por cambiar los términos y condiciones para preparar el terreno para futuras demandas. Como parece reconocer, ninguna de sus sugerencias es un fracaso. Por ejemplo, ¿es factible impedir que Google rastree su sitio para capturar contenido sin detener también el rastreo de su sitio para colocarlo en los resultados de búsqueda? Además, los juicios son costosos.

Pero ¿qué tal una solución regulatoria? ¿Recuerdas la interminable molestia de las llamadas de telemercadeo? El registro nacional No Llame puso fin a esto. Todos los interesados pudieron registrar su número y los vendedores telefónicos podían seguir llamándolo sólo a riesgo de que la FTC les impusiera fuertes multas.

Registrar dominios con un registro Nacional No Scrape podría suponer un mayor esfuerzo, pero en términos generales se puede ver cómo podría funcionar una estrategia regulatoria de este tipo. ¿Se detectarían todas las infracciones? Seguramente no. Pero lo mismo ocurre, por ejemplo, con el RGPD. El RGPD exige cumplimiento no porque se detecten todas las infracciones, sino porque las infracciones que se detectan pueden dar lugar a fuertes sanciones: "multas sin precedentes de hasta el 4 por ciento de los ingresos globales totales de una empresa".

Es demasiado tarde. GenAI ya tiene los datos

Ya sea que exista una solución técnica o regulatoria para detener el robo de contenido de GenAI, ¿ese caballo ya no ha abandonado el establo? Los LLM ya han sido capacitados en conjuntos de datos inconcebiblemente grandes. Puede que sean propensos a cometer errores, pero en cierto sentido lo saben todo.

Bueno, lo saben todo hasta hace un par de años. ChatGPT-4 fue entrenado previamente con datos con fecha límite de septiembre de 2021. Eso significa que hay muchas cosas que no sabe. Recordemos a qué nos enfrentamos aquí.

Profundice: Inteligencia artificial: una guía para principiantes

GenAI utiliza algoritmos para predecir el siguiente mejor fragmento de texto a crear, en función de todos esos millones de fragmentos de texto en los que se entrenó. Lo que lo hace “inteligente” es que puede mejorar sus propios algoritmos basándose en la retroalimentación y la respuesta (un humano no tiene que trastear con los algoritmos, aunque por supuesto podría hacerlo).

Lo que genAI no hace (no puede hacer) es descubrir cosas sobre el mundo que se encuentran fuera de su conjunto de entrenamiento de datos. Esto subraya el punto, planteado por filósofos como Donald Davidson, ¹ de que la IA no tiene conexiones causales con el mundo. Si quiero saber si está lloviendo, no me baso en un conjunto de datos; Miro por la ventana. Para decirlo técnicamente, genAI puede tener una excelente sintaxis (gramática), pero es ajeno a la semántica (significado).

La conclusión que se puede extraer de esto es que la IA depende totalmente de criaturas, como nosotros, que están causalmente conectadas con el mundo; ¿Quién puede saber si está lloviendo, si hay luna en el cielo, si Jefferson redactó la Declaración de Independencia? Hasta ahora, ha dependido de lo que la gente haya hecho en el pasado. Para seguir siendo relevante debe seguir dependiendo de lo que la gente por sí sola pueda hacer.

Si la capacidad de los LLM para continuar extrayendo contenido creado por humanos se retrasa significativamente, no podrán agregar, actualizar, corregir y aumentar sus conjuntos de datos en el futuro. La desaparición de su utilidad podría ser lenta, pero estaría más o menos garantizada.

¡Manos fuera de mi PII!

Además de la urgencia de los editores, autores y otros creadores de mantener la genAI alejada de su contenido, existe otro problema muy real al que se enfrenta en el futuro inmediato. La necesidad de garantizar de alguna manera que, en el acto de extraer millones de gigabytes de datos de la web, no se estén apoderando inadvertidamente de información de identificación personal (PII) u otros tipos de datos protegidos por las regulaciones existentes.

La FTC abrió una investigación sobre OpenAI por cuestiones de protección al consumidor.
Italia, como se informó ampliamente, simplemente prohibió OpenAI y ChatGPT por el manejo de datos personales, así como por la ausencia de controles de verificación de edad. Las operaciones se restablecieron una vez que se cumplieron las demandas italianas.
Los desafíos europeos no han terminado en absoluto. Una amplia denuncia presentada en Polonia afirma que OpenAI infringe el RGPD de forma sistemática.

Baste decir que los tribunales europeos tienden a ser más comprensivos con los derechos de los ciudadanos que con las ganancias de las grandes tecnologías.

Ni siquiera hemos mencionado la confianza y la seguridad. Esas preocupaciones se abordaron en mi reciente conversación con Afraz Jaffri, experto en ciclos de exageración de la IA de Gartner, quien dijo:

La primera cuestión es en realidad el aspecto de la confianza. Independientemente de las regulaciones externas, todavía existe una sensación fundamental de que es muy difícil controlar los resultados de los modelos y garantizar que los resultados sean realmente correctos. Ese es un gran obstáculo.
¿Qué le depara el futuro a la genAI? El ciclo de exageración de Gartner

¿Todo esto activará el interruptor de apagado?

Es fácil decir que genAI llegó para quedarse. Mucha gente lo ha dicho. Y, de hecho, es muy poco probable que se olvide o abandone un avance tecnológico significativo, si no enteramente novedoso. Como mínimo, las organizaciones seguirán utilizando estas capacidades en sus propios conjuntos de datos o en conjuntos de datos externos determinados con cautela, y eso satisfará muchos casos de uso importantes.

Sin embargo, las posibilidades de que la genAI se vea perturbada, limitada y muy alterada por alguna combinación de bloques regulatorios, desafíos legales, problemas de confianza (y otros obstáculos aún no vistos) están muy por encima de cero.

Donald Davison, “La prueba de Turing”, Mente 59 (1950) ↩︎

Agregue MarTech a su feed de Google News.

Historias relacionadas

Nuevo en MarTech

El discurso de odio en las redes sociales puede dañar significativamente las marcas: estudio

Repensar la gobernanza de contenidos en la era de la IA generativa

Los últimos trabajos en martech

Lanzamientos de martech impulsados por IA de esta semana

State Farm e iHeartMedia albergarán la experiencia de Ed Sheeran en Fortnite