La IA se está convirtiendo rápidamente en una de las principales fuerzas impulsoras de la transición digital; sin embargo, para que sea realmente efectiva, la IA requiere acceso a grandes cantidades de datos para entrenar máquinas cada vez más complejas. Aunque recopilar y gestionar toda esta información puede ser un desafío en sí mismo, el problema se agrava considerablemente cuando se trata de información altamente sensible a la privacidad. Los datos brutos necesarios suelen estar guardados por separado en varias instituciones independientes, por lo que compartirlos no siempre es posible debido a la existencia de estrictas regulaciones de privacidad y protección de datos, como la RGPD. El aprendizaje federado o federated learning (FL) ha surgido recientemente como una solución conveniente para abordar las preocupaciones y regulaciones de privacidad en este problema de aprendizaje de datos distribuidos. En concreto, FL es una tecnología que permite el aprendizaje automático colaborativo o machine learning (ML) mediante el entrenamiento de modelos locales en datos distribuidos en múltiples entidades sin exponer sus conjuntos de datos privados. Aunque este tipo de entrenamiento colaborativo evita la subcontratación de los datos locales a un agregador central, en los últimos años se han publicado investigaciones avanzadas que apuntan a la viabilidad de la reidentificación de los interesados en el entorno de FL.
Otro riesgo que se magnifica considerablemente al recurrir a un modelo de aprendizaje colaborativo tiene que ver con las violaciones de derechos de autor y los problemas de propiedad. En la mayoría de los escenarios prácticos actuales, el entrenamiento colaborativo se considera un dispositivo conveniente para tratar con la privacidad, y el modelo global es propiedad/administrado por el agregador (o un tercero que adquiere los derechos de autor). Sin embargo, por la forma en que se lleva a cabo el entrenamiento, el agregador debe compartir modelos intermedios, parcial o totalmente, con los propietarios de los datos, para que puedan calcular localmente las actualizaciones utilizando sus datos disponibles. Esta multiplicidad de copias del mismo modelo aumenta drásticamente el riesgo de fuga o robo, con enormes repercusiones económicas, ya que el entrenamiento de un modelo complejo exige enormes cantidades de datos y energía.
El objetivo principal de FELDSPAR es la eliminación o mitigación de los riesgos residuales de privacidad de FL para restablecer la confianza y el cumplimiento legal. La investigación sobre el uso de tecnologías de mejora de la privacidad se aplicará a las actualizaciones del modelo FL, e incluirá computación multipartita segura (SMPC), cifrado homomórfico (HE) y entornos de ejecución confiables (TEE). El equilibrio adecuado entre ellos se logrará equilibrando la complejidad computacional, los costos de comunicación y la necesidad de una arquitectura especializada. Otra contribución fundamental novedosa de FELDSPAR será la medición y contención de los riesgos de privacidad, que se logrará mediante el diseño de una nueva métrica de privacidad, basada en fundamentos teóricos de la información y que se ajuste a las necesidades de FL. Una tercera contribución importante de FELDSPAR será proponer nuevos algoritmos para la marca de agua de ML que sean adecuados para escenarios de FL con el fin de proteger los derechos de autor y evaluar el cumplimiento. Finalmente, inspirándose en los códigos de rastreo de traidores utilizados en la marca de agua clásica, FELDSPAR proporcionará mecanismos para producir copias del modelo global que son identificadas por el agregador con el fin de rastrear posibles usos ilegales por parte de los propietarios de datos. Con estos fines, FELDSPAR tiene como objetivo realizar investigaciones de vanguardia en temas como la criptografía de red basada en anillos multivariantes, el cifrado homomórfico de clave múltiple o los mecanismos de activación para la marca de agua de caja negra.