banner

blog

Oct 06, 2023

Uma nova abordagem de aprendizagem federada descentralizada para treinar em dados médicos privados protegidos, de baixa qualidade e distribuídos globalmente

Scientific Reports volume 12, Número do artigo: 8888 (2022) Citar este artigo

4400 Acessos

2 Citações

3 Altmétrica

Detalhes das métricas

O treinamento em várias fontes de dados diversas é fundamental para garantir uma IA imparcial e generalizável. Na área da saúde, as leis de privacidade de dados proíbem que os dados sejam movidos para fora do país de origem, evitando que conjuntos de dados médicos globais sejam centralizados para treinamento de IA. O aprendizado federado centrado em dados e entre silos representa um caminho a seguir para o treinamento em conjuntos de dados médicos distribuídos. As abordagens existentes geralmente exigem que as atualizações de um modelo de treinamento sejam transferidas para um servidor central, violando potencialmente as leis de privacidade de dados, a menos que as atualizações sejam suficientemente disfarçadas ou abstraídas para impedir a reconstrução do conjunto de dados. Aqui apresentamos uma abordagem de aprendizagem federada completamente descentralizada, usando destilação de conhecimento, garantindo privacidade e proteção de dados. Cada nó opera de forma independente sem a necessidade de acessar dados externos. A precisão da IA ​​usando essa abordagem é comparável ao treinamento centralizado e, quando os nós compreendem dados de baixa qualidade, o que é comum na área da saúde, a precisão da IA ​​pode exceder o desempenho do treinamento centralizado tradicional.

O viés na IA e suas subsequentes limitações de escalabilidade estão começando a surgir como temas comuns no setor de saúde com IA. Foi proposto recentemente que essas limitações são consequência do treinamento em conjuntos de dados 'estreitos' que não representam a diversidade clínica ou de pacientes do mundo real1,2. A diversidade de dados e o uso de dados de várias fontes demonstraram maior potencial para treinar IA mais precisa e generalizável em comparação com IA treinada em um conjunto de dados maior (menos diversificado) de uma única fonte3,4,5,6,7,8.

Na área da saúde, o acesso a esses diversos conjuntos de dados pode ser um desafio. Não apenas os dados médicos são distribuídos em muitas instituições globalmente, mas a agregação centralizada de dados para treinamento em IA é cada vez mais restrita devido a barreiras legais e regulatórias que impedem a movimentação de dados fora da região de origem, a fim de proteger a privacidade dos dados9,10.

A qualidade dos dados também pode representar um desafio se não houver como avaliar a qualidade dos conjuntos de dados individuais que são distribuídos. Para muitos problemas do mundo real, os dados podem ser inerentemente de baixa qualidade devido à incerteza, subjetividade, erros ou sujeitos a ataques adversários11,12,13. Este problema é exagerado quando os dados privados em cada localidade não podem ser vistos ou verificados manualmente. Portanto, minimizar o impacto negativo de dados de baixa qualidade no desempenho da IA ​​é fundamental, e a capacidade de qualquer abordagem de lidar com níveis realistas de ruído de dados representará uma parte essencial de sua escalabilidade.

Este estudo avalia a eficácia da abordagem de treinamento de IA descentralizada, primeiro em um conjunto de dados não médicos com ruído de dados sintéticos e, em segundo lugar, em um conjunto de dados médicos, para medir a generalização em vários locais. Também empregamos métodos para otimizar topologias de uma estrutura baseada em padrão que permite que um trade-off entre precisão e custo seja especificado. É importante ressaltar que mostramos que a precisão da IA ​​resultante de nossa abordagem é comparável a um cenário em que todos os dados são centralizados. Além disso, quando os nós contêm dados de baixa qualidade, o que é comum em cenários do mundo real, a precisão da IA ​​pode exceder o treinamento centralizado tradicional. Concluímos que o treinamento de IA descentralizado pode ser prático e escalável dentro de uma tolerância desejada de generalização, ao mesmo tempo em que protege a privacidade dos dados.

Este artigo está organizado da seguinte forma. Após resumir os trabalhos relacionados em "Trabalhos relacionados". abaixo, os Resultados são apresentados na segunda seção. Os experimentos são divididos naqueles que consideram um conjunto de dados não médicos ("Conjunto de dados não médicos"), incluindo cenários rotulados i. a iv., e aqueles que consideram um conjunto de dados médicos ("Conjunto de dados médicos"). A "Discussão" é apresentada na terceira seção. Por fim, os "Métodos" são descritos na quarta seção, incluindo o design do experimento, o procedimento de treinamento e a composição dos conjuntos de dados não médicos e médicos como "Projeto de experimento e procedimento de treinamento", "Composição do conjunto de dados não médicos" e Conjunto de dados médicos composição, respectivamente.

COMPARTILHAR