Las empresas de IA se enfrentan a un ajuste de cuentas por el robo de datos

Hola y bienvenido a Eye on AI. La semana pasada, 12 organismos guardianes de la protección de datos de todo el mundo se reunieron para emitir una declaración conjunta sobre la extracción de datos y sus efectos en la privacidad.

La declaración, firmada por funcionarios de privacidad de Australia, Canadá, México, China, Suiza, Colombia, Argentina y el Reino Unido, por nombrar algunos, apunta a los operadores de sitios web, específicamente a las empresas de redes sociales, y afirma que tienen obligaciones en materia de protección de datos. y leyes de privacidad para proteger la información en sus plataformas contra la extracción ilegal de datos. Incluso la información personal de acceso público está sujeta a estas leyes en la mayoría de las jurisdicciones, afirma la declaración. En particular, la declaración también describe que los incidentes de extracción de datos que recopilan información personal pueden constituir violaciones de datos reportables en muchas jurisdicciones.

Además de publicar la declaración, los autores afirman que la enviaron directamente a Alphabet (YouTube), ByteDance (TikTok), Meta (Instagram, Facebook y Threads), Microsoft (LinkedIn), Sina Corp (Weibo) y X Corp. (X, anteriormente Twitter). También sugieren una serie de controles que estas empresas deberían implementar para proteger a los usuarios contra los daños asociados con el raspado de datos, incluida la designación de un equipo para monitorear y responder a las actividades de raspado.

Los daños potenciales descritos incluyen ataques cibernéticos, fraude de identidad, vigilancia, recopilación política o de inteligencia no autorizada y marketing y spam no deseados. Pero aunque la inteligencia artificial no se menciona ni una sola vez en la declaración, se está convirtiendo cada vez más en un importante punto álgido en este tema.

Explorando Internet, incluida la información de los sitios de redes sociales, es exactamente cómo las potencias de la IA como OpenAI, Meta y Google obtuvieron gran parte de los datos para entrenar sus modelos. Y apenas en las últimas semanas, la extracción de datos se ha convertido en un importante frente de batalla en el nuevo panorama de la IA. El New York Times, por ejemplo, a principios de este mes actualizó sus términos de servicio para evitar que la IA elimine su contenido, y ahora el editor está explorando demandar a OpenAI por el asunto. Esto sigue a una propuesta de demanda colectiva contra OpenAI y el inversor Microsoft presentada en junio, que alegaba que la empresa extrajo en secreto la información personal de cientos de millones de usuarios de Internet sin previo aviso, consentimiento o compensación justa.

Es muy poco probable que una carta redactada en términos firmes afecte lo que hacen estos gigantes tecnológicos, pero las demandas y regulaciones contra la extracción de datos sí podrían hacerlo. En la UE, donde la privacidad de los datos y ahora la regulación de la IA están avanzando con bastante rapidez, por ejemplo, los organismos gubernamentales examinan cada vez más la extracción de datos.

En esencia, la IA se trata de datos. Entonces esto plantea la pregunta: si las empresas no pueden extraer datos libremente, ¿de dónde obtendrán los datos necesarios para entrenar sus modelos?

Una opción son los datos sintéticos, que se refieren a información generada artificialmente en lugar de creada por eventos del mundo real. Este proceso a menudo, pero no siempre, implica el uso de la propia IA para crear un gran conjunto de datos sintéticos a partir de un conjunto más pequeño de datos del mundo real, y los datos sintéticos resultantes reflejan las propiedades estadísticas de los datos del mundo real.

Siempre que no se eliminen los datos originales, esta podría ser una solución viable. Gartner estima que los datos sintéticos superarán a los datos del mundo real en los modelos de IA para 2030. Pero los datos sintéticos tienen sus inconvenientes. Por ejemplo, puede pasar por alto valores atípicos, introducir imprecisiones e, idealmente, implicar pasos de verificación adicionales que ralentizan el proceso. Y aunque algunas empresas afirman que los datos sintéticos eliminan el sesgo, muchos expertos lo refutan y ven formas en que algunas formas de datos sintéticos pueden en realidad introducir sesgos adicionales en los conjuntos de datos.

Otra posible solución es la inclusión voluntaria de datos propios. A diferencia de cómo históricamente los datos del mundo real han sido extraídos, utilizados sin permiso e incluso vendidos a usuarios inferiores, estos son datos del mundo real que se aceptan y se proporcionan voluntariamente.

Streamlytics, con sede en Miami, es una empresa que trabaja en el emergente espacio de datos propios con el objetivo de hacer que los flujos de datos sean más éticos. La empresa paga a los usuarios para que descarguen sus propios datos de los sitios que utilizan, como Netflix, y los carguen en Streamlytics, que luego los empaqueta y los vende a los clientes que desean comprarlos. Los clientes pueden solicitar tipos específicos de datos que necesiten, y los usuarios mantienen la propiedad de los datos y pueden solicitar su eliminación en cualquier momento.

La fundadora y directora ejecutiva, Angela Benton, dijo a Eye on AI que su empresa ha experimentado "un aumento notable en el interés" en medio del actual auge de la IA generativa. Gran parte de ese interés, dijo, proviene de pequeñas y medianas empresas que buscan soluciones para entrenar modelos de IA personalizados.

"En la mayoría de los casos, debido al tamaño de estas empresas, carecen de la escala de datos necesaria para entrenar y personalizar sus modelos", afirmó. "Están buscando activamente soluciones que puedan proporcionar los datos que necesitan y la mayoría se inclina por modelos que sean éticos desde cero".

Como resultado, Streamlytics está desarrollando nuevas ofertas para atender el aumento de empresas que se lanzan a la IA generativa, como permitir a las organizaciones elegir entre datos puramente generados por humanos, datos sintéticos o una combinación de ambos, todos los cuales se recopilan de forma consensual.

En conversaciones con clientes, Benton dijo que existe "un alto grado de preocupación con respecto a las reacciones legales por el uso de datos extraídos".

"Aunque todo el mundo está entusiasmado con la IA, nadie quiere ser demandado", afirmó. "Por lo tanto, hay una capa adicional de diligencia, especialmente por parte de organizaciones más grandes, que incluye revisar los procesos de cómo se obtienen los datos y los cronogramas para cuando se eliminan los datos".

Es irónico que las organizaciones más grandes que crearon los mismos modelos que iniciaron este auge generativo de la IA no lo hicieran con el mismo nivel de preocupación o diligencia. Es más, estas empresas tienen recursos casi ilimitados y, por lo tanto, están mejor equipadas para tomar el camino ético.

Incluso ImageNet, el conjunto de datos que contiene millones de imágenes etiquetadas que catalizó por sí solo el surgimiento de la IA después de su lanzamiento en 2010, estaba compuesto en gran parte por imágenes extraídas sin consentimiento de Internet. Desde sus inicios modernos, la IA se construyó a partir de datos robados y ahora estamos entrando en su momento de ajuste de cuentas.

Y dicho esto, aquí está el resto de las noticias sobre IA de esta semana.

Pero primero, un breve adelanto para la próxima conferencia Brainstorm AI de Fortune en San Francisco el11 y 12 de diciembre , donde obtendrá información vital sobre cómo la tecnología más poderosa y de mayor alcance de nuestro tiempo está cambiando las empresas, transformando la sociedad e impactando nuestro futuro. Los oradores confirmados incluyen luminarias de la IA como PayPalJuan Kim,Director ejecutivo de IA de SalesforceClara Shih,IBMCristina Montgomery, director ejecutivo de QuizletLex Bayer,y más.¡Solicite asistir hoy!

Sabio Lázaro[email protected]

OpenAI lanza ChatGPT Enterprise. La nueva oferta puede realizar las mismas tareas que ChatGPT, pero ofrece acceso GPT-4 de mayor velocidad, opciones de personalización, capacidades avanzadas de análisis de datos, herramientas de administración para administrar cómo lo usan los empleados y seguridad y privacidad de "grado empresarial". Esencialmente, aunque ingresar la información confidencial de su empresa en el ChatGPT original no sería una buena idea, ChatGPT Enterprise está diseñado específicamente para permitir que las empresas hagan precisamente eso. En su publicación de blog anunciando la nueva versión, OpenAI enfatizó que "no se entrena con los datos o conversaciones de su negocio, y nuestros modelos no aprenden de su uso".

DoorDash lanza pedidos por voz basados en IA para restaurantes. Citando que el 20% de los clientes prefieren pedir comida para llevar por teléfono, pero que hasta el 50% de las llamadas a los restaurantes quedan sin respuesta, DoorDash anunció una nueva función que combinará el uso de IA con agentes en vivo para garantizar que todas las llamadas de los clientes sean respondidas con prontitud. La compañía afirma que la tecnología permitirá a los empleados del restaurante centrarse más en los clientes de la tienda sin perder los ingresos potenciales de los clientes que intentan llamar para pedir pedidos para llevar.

Los Archivos Nacionales revelan su plan para utilizar IA para la gestión de registros. Según FedScoop, la agencia encargada de gestionar todos los documentos del gobierno de EE. UU., la Administración Nacional de Archivos y Registros, reveló su interés en utilizar la IA para completar automáticamente los metadatos y responder a las solicitudes de la FOIA. La mayoría de las agencias del gobierno federal deben divulgar sus inventarios de casos de uso de IA como resultado de una orden ejecutiva de 2020.

Hugging Face recauda 235 millones de dólares de las grandes empresas tecnológicas. Google, Amazon, Nvidia, Intel, AMD, Qualcomm, IBM y Salesforce, así como Sound Ventures, participaron en la ronda Serie D, que valoró el popular repositorio de modelos y la empresa MLOps en 4.500 millones de dólares. Hugging Face es una de las empresas de inteligencia artificial mejor financiadas, detrás de OpenAI, Anthropic, Inflection AI y algunas otras, según TechCrunch. La inclusión de Nvidia es especialmente interesante (y beneficiosa para Hugging Face), ya que empresas grandes y pequeñas compiten por la atención de la empresa para asegurar sus valiosas GPU H100. Incluso antes de la ronda de financiación, Hugging Face y Nvidia ya tenían una asociación de trabajo.

La división de nube de Alibaba anuncia dos nuevos modelos de inteligencia artificial mientras contempla una oferta pública inicial (IPO). Esto es según CNBC, que informa que los nuevos lanzamientos, Qwen-VL y Qwen-VL-Chat, pueden comprender mejor las imágenes y llevar a cabo conversaciones más complejas en comparación con los modelos anteriores de Alibaba. Los nuevos modelos provienen del Cloud Intelligence Group de Alibaba, una de las seis unidades de negocios en las que se dividió la megaempresa china a principios de este año, que está presionando a la IA para revitalizar su negocio mientras se prepara para salir a bolsa, según CNBC. La compañía dice que Qwen-VL y Qwen-VL-Chat son de código abierto (aunque los detalles que revelarían qué tan abiertos son realmente aún no están disponibles) y, de hecho, permitir a los desarrolladores desarrollar sus modelos podría crear una vía de acceso fácil para el grupo de nube para ganar más negocios.

Cuestionarios de LLM. Si un LLM como ChatGPT se presentara a un examen, cruzaría los dedos (¿claves?) para que las preguntas vinieran en formato de respuesta corta o ensayo. Esto se debe a que, según un nuevo artículo de investigación de Megagon Labs, los LLM son terribles para responder preguntas de opción múltiple.

Citando investigaciones anteriores que demostraron que los LLM son sensibles a la redacción de las indicaciones y al hecho de que las preguntas de opción múltiple son comunes para los modelos de prueba, los investigadores buscaron comprender cómo el orden de las respuestas afectaría la respuesta de un modelo. Realizaron una serie de pruebas utilizando GPT-4 e InstructGPT de OpenAI y encontraron una "brecha de rendimiento considerable" de aproximadamente el 13 % al 75 % en la serie de preguntas que plantearon a los LLM. Esencialmente, simplemente cambiar el orden en el que se organizaron las opciones a menudo hacía que el modelo pasara de seleccionar la respuesta correcta a seleccionar una incorrecta.

En general, los investigadores encontraron que la sensibilidad ocurre cuando el modelo no está seguro entre las 2 o 3 mejores opciones, y aparentemente descubrieron un patrón de cómo el orden afecta la respuesta que finalmente elige el modelo. “Para amplificar el sesgo, descubrimos que la estrategia óptima implica posicionar las dos opciones principales como primera y última opción. Por el contrario, para mitigar el sesgo, recomendamos colocar estas opciones entre las opciones adyacentes”, escribieron en el artículo.

Las principales organizaciones de medios están colocando carteles de "no entrar" en ChatGPT —Rachyl Jones

Las ganancias de Nvidia se consideran un momento histórico para la tecnología, pero algunos advierten que la IA está alcanzando un punto álgido: "este nivel de exageración es peligroso" —Chloe Taylor

China da un paso adelante en la carrera armamentista de la IA cuando Alibaba lanza un nuevo chatbot que puede "leer" imágenes —Paolo Confino

Hollywood no debería rechazar por completo la IA: ya está generando una nueva era de magia cinematográfica: Howard Wright

Enfrenté a ChatGPT a un asesor financiero real para que me ayudara a ahorrar para la jubilación, y el ganador es claro: Coryanne Hicks

La conferencia Cloud Next de tres días de Google comenzó hoy en San Francisco, y ya ha tenido un buen comienzo con varios lanzamientos nuevos que llegarán temprano en la mañana.

La compañía anunció nuevas herramientas de infraestructura optimizadas para IA, incluida TPU v5e, la quinta generación de sus unidades de procesamiento de tensores para entrenamiento e inferencia de IA. Con esta versión, Google promociona la eficiencia con una mejora del doble en el rendimiento del entrenamiento por dólar y una mejora de 2,5 veces en el rendimiento de inferencia por dólar, en comparación con la última generación. En general, "Cloud TPU v5e ofreció constantemente un rendimiento hasta 4 veces mayor por dólar que soluciones comparables en el mercado para ejecutar inferencias en nuestro modelo ASR de producción", se lee en la publicación del blog del anuncio. Dado que los altos costos asociados con el entrenamiento y luego la ejecución de modelos de IA son uno de los mayores obstáculos y barreras de entrada, junto con el acceso a los datos de entrenamiento y la potencia de cómputo, es probable que veamos un enfoque aún mayor en la eficiencia con futuros lanzamientos de Google y más allá.

Google también anunció varios modelos y herramientas nuevos disponibles en su plataforma en la nube Vertex AI, incluidos modelos de Meta (Llama 2 y Code Llama), Anthropic (Claude 2) y Falcon LLM, un popular modelo de código abierto del Technology Innovative Institute. Esto significa que las empresas podrán utilizar estos modelos para sus propios fines desde la plataforma de Google, posicionando a la empresa como una plataforma todo en uno donde los clientes pueden satisfacer sus necesidades en la nube y acceder a los principales modelos que impulsan el auge generativo de la IA.

Dentro de Vertex, Google también anunció marcas de agua digitales impulsadas por DeepMind SynthID. La compañía dice que esto proporciona un "enfoque escalable para crear e identificar imágenes generadas por IA de manera responsable" y afirma que es el primer proveedor de nube a hiperescala que ofrece esta tecnología para imágenes generadas por IA. Las marcas de agua digitales se han utilizado cada vez más como una solución para descifrar qué es creado por humanos y qué es creado por IA a medida que nuestro mundo se llena rápidamente de contenido generado por IA, y este podría ser un primer paso para ver si realmente funciona.

Además, Google anunció nuevas actualizaciones de sus experiencias Duet AI para Google Meet y Google Chat. Quizás lo más interesante sean las nuevas funciones de toma de notas impulsadas por IA, en las que la aplicación resumirá una reunión en tiempo real, proporcionará elementos de acción y guardará las notas, así como los videoclips de los momentos importantes de la reunión, en Google Docs para su consulta. referencia futura. Si un participante llega tarde a una reunión, puede incluso hablar en privado con un chatbot de Google que le pondrá al día con lo que se perdió, todo mientras la reunión continúa. Casi todo el mundo está de acuerdo en que las reuniones apestan. Con características como estas, es posible que pronto nos preguntemos si es necesario tener reuniones. O, si las empresas siguen teniéndolos, ¿tendremos que presentarnos?

Esta es la versión en línea de Eye on AI, un boletín gratuito que se envía a las bandejas de entrada los martes. Registrate aquí.

11 y 12 de diciembreJuan Kim,Clara Shih,Cristina MontgomeryLex Bayer,.Sabio Lázaro