Contents

ReffAKD: um método de aprendizado de máquina para gerar rótulos flexíveis para facilitar a destilação de conhecimento em modelos de alunos

Contents

As redes neurais profundas, particularmente as redes neurais convolucionais (CNNs), impactaram significativamente uma ampla gama de aplicações de visão computacional, incluindo classificação de imagens, reconhecimento de objetos e segmentação semântica. O surgimento de modelos mais avançados levou a melhorias notáveis ​​no desempenho. No entanto, o emprego dessas arquiteturas computacionalmente intensivas em plataformas de hardware que possuem capacidades de processamento restritas, como sistemas embarcados ou dispositivos de ponta, apresenta obstáculos formidáveis.

A destilação do conhecimento ganhou destaque como uma abordagem eficaz para o desenvolvimento de modelos menores de “alunos” que são guiados por modelos mais extensos de “professores”. Este método envolve extrair e transferir o conhecimento do modelo professor para o modelo aluno durante a fase de treinamento. No entanto, existem certos desafios associados a este processo, tais como a necessidade de formar o modelo de professor que exige recursos.

Estudos anteriores investigaram uma série de abordagens para aproveitar o potencial dos rótulos suaves-que representam as probabilidades de pertencer a diferentes classes e capturam variações intraclasse-no contexto da destilação do conhecimento. Isto envolveu examinar a influência de enormes modelos de professores, bem como testar a eficácia de rótulos suaves de crowdsourcing ou separar a transferência de conhecimento entre etapas. Além disso, alguns pesquisadores tentaram realizar a destilação do conhecimento livre de professores por meio da criação manual de distribuições de regularização derivadas de rótulos rígidos.

Uma solução potencial para gerar rótulos suaves precisos sem recorrer a um extenso modelo de professor ou crowdsourcing caro é através da utilização de autoencoders, que são redes neurais capazes de aprender representações de dados compactados por reconstrução. O método ReffAKD, ilustrado na Figura 3, capitaliza esse conceito ao empregar autoencoders para extrair recursos cruciais e calcular pontuações de similaridade entre classes, simulando assim a função de um modelo de professor sem exigir seu treinamento.

A abordagem do ReffAKD difere da atribuição aleatória de rótulos suaves, treinando seu autoencoder para gerar uma representação codificada de imagens de entrada que incorpora inerentemente as características que distinguem cada classe. Esta codificação implícita captura as diferenças essenciais entre as várias classes de uma maneira análoga à forma como um instrutor qualificado compreende as complexidades das distinções de classe. A representação resultante adquire um alto grau de sensibilidade aos atributos discriminativos que diferenciam as diversas categorias, abrangendo informações substanciais tanto sobre os aspectos visuais quanto sobre as classificações associadas, simulando a sabedoria de um educador experiente.

ReffAKD emprega um autoencoder convolucional (CAE) primorosamente projetado em seu núcleo. O codificador consiste em três camadas convolucionais sequenciais, em que cada camada tem tamanho de kernel 4x4, preenchimento de 1 pixel e passo de 2. Esta configuração aumenta progressivamente o número de filtros de 12 para 24 e subsequentemente para 48. O ponto de constrição gera um compactado vetor de recursos que assume dimensões variadas de acordo com o conjunto de dados específico utilizado, como 768 para CIFAR-100, 3072 para Tiny ImageNet ou 48 para Fashion MNIST. Por outro lado, o decodificador imita a estrutura do codificador remontando

O processo de destilação do conhecimento é facilitado pelo autoencoder durante sua fase de treinamento. O autoencoder codifica imagens de entrada em uma representação latente que incorpora inerentemente atributos específicos de classe. Isso significa que a representação fica sintonizada com os fatores distintivos que diferenciam as diversas categorias.

Para verificar as relações intraclasse e interclasse dentro de um conjunto de dados, os investigadores empregaram uma abordagem dupla. Inicialmente, eles selecionaram aleatoriamente quarenta instâncias de cada uma das múltiplas classes presentes no conjunto de dados. Posteriormente, essas instâncias foram submetidas a um processo de codificação, que envolveu a conversão delas em vetores numéricos para análise. Calculando a similaridade de cossenos entre os vetores resultantes, construiu-se uma matriz; esta matriz tinha linhas correspondentes a classes individuais e colunas denotando as medidas de similaridade entre essas classes e outras. Para refinar ainda mais os resultados, os pesquisadores aplicaram técnicas de agregação média e de normalização softmax. Em última análise, este método gerou uma distribuição de probabilidade suave que encapsulava as intrincadas conexões entre as várias classes, ao mesmo tempo que delineava as distinções dentro de cada classe.

Os investigadores utilizam uma função de perda adaptada para treinar o modelo do aluno, integrando a perda de entropia cruzada junto com a divergência Kullback-Leibler entre a saída do aluno e os rótulos flexíveis gerados pelo autoencoder. Este método promove o aluno a compreender tanto os rótulos reais da classe quanto os relacionamentos complexos capturados nos rótulos suaves.

/pt/images/reffakd-a-machine-learning-method-for-generating-soft-labels-to-facilitate-knowledge-distillation-in-student-models.png

Referência: https://arxiv.org/pdf/2404.09886.pdf

O ReffAKD foi avaliado em vários conjuntos de dados, incluindo CIFAR-100, Tiny Imagenet e Fashion MNIST para avaliar sua eficácia em comparação com métodos tradicionais de destilação de conhecimento. Em cada tarefa, o ReffAKD demonstrou uma melhoria consistente em relação às abordagens padrão, alcançando uma precisão top-1 de 77,97% no CIFAR-100 (contra 77,57% para KD convencional) e 63,67% no Tiny Imagenet (em comparação com 63,62%). Notavelmente, o modelo alcançou resultados notáveis ​​no conjunto de dados Fashion MNIST menos desafiador, conforme ilustrado na Figura 5. Além disso, o ReffAKD mostrou notável eficiência de recursos, especialmente ao lidar com conjuntos de dados complexos.

A aplicação do ReffAKD vai além da visão computacional, com aplicações potenciais no processamento de linguagem natural. Por exemplo, um autoencoder baseado em RNN pode ser utilizado para gerar embeddings de frases, permitindo o desenvolvimento de modelos compactos semelhantes ao TinyBERT ou outras variações do BERT para tarefas de classificação de texto. Além disso, os investigadores antecipam que a sua metodologia pode oferecer supervisão direta a modelos mais extensos, o que poderia resultar em melhorias adicionais de desempenho sem necessitar de dependência de um modelo de professor pré-existente.

ReffAKD apresenta um avanço importante que promove o acesso democrático às técnicas de destilação de conhecimento no domínio do aprendizado profundo. Ao eliminar a necessidade de modelos de professores dispendiosos, permite que investigadores e profissionais que trabalham com recursos limitados utilizem estes métodos de forma mais eficiente e conveniente. Este desenvolvimento transcende as fronteiras da visão computacional, abrindo portas para a experimentação em diversos campos e facilitando a investigação de estratégias combinadas para melhores resultados.

Confira o documento. Todo o crédito desta pesquisa vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir no Twitter. Junte-se ao nosso canal Telegram, canal Discord e grupo LinkedIn.

Convidamos cordialmente aqueles que apreciam o nosso esforço a subscreverem a nossa newsletter, pois é uma excelente oportunidade para terem acesso a conteúdos e atualizações exclusivas que não gostariam de perder.

Não perca a oportunidade de fazer parte de nossa extensa comunidade de aprendizado de máquina no Reddit, que atualmente conta com mais de 40.000 membros.

Para parceria de conteúdo, preencha este formulário aqui.

Assine nosso boletim informativo de pesquisa de IA em rápida expansão, que é lido por indivíduos proeminentes na área, incluindo aqueles de instituições conceituadas como Google, NVIDIA, Meta, Universidade de Stanford, Instituto de Tecnologia de Massachusetts (MIT), Microsoft e muito mais.

*️⃣ Link da fonte:

https://arxiv.org/pdf/2404.09886.pdf , Artigo , Preencher Confira este formulário aqui. ,