Contents

Os hackers podem ler bate-papos privados do assistente de IA, mesmo que estejam criptografados

/pt/images/hackers-can-read-private-ai-assistant-chats-even-though-theyre-encrypted.jpg

AmpliarAurich Lawson | Imagens Getty

Os assistentes de IA tornaram-se acessíveis a um público amplo nos últimos doze meses, proporcionando aos usuários a capacidade de revelar seus pensamentos mais íntimos e assuntos comerciais confidenciais. Esses companheiros digitais abordam uma série de tópicos delicados, como questões de fertilidade, conflitos conjugais, problemas de abuso de substâncias e proteção à propriedade intelectual. Os fornecedores de plataformas de conversação baseadas em IA estão perfeitamente conscientes da natureza delicada destas trocas e empregam medidas de encriptação para salvaguardar a privacidade do utilizador e evitar a intrusão não autorizada nas comunicações pessoais.

Mas agora, os pesquisadores desenvolveram um ataque que decifra as respostas dos assistentes de IA com uma precisão surpreendente. A técnica explora um canal lateral presente em todos os principais assistentes de IA, com exceção do Google Gemini. Em seguida, ele refina os resultados bastante brutos por meio de grandes modelos de linguagem especialmente treinados para a tarefa. O resultado: alguém com uma posição intermediária de adversário passivo – ou seja, um adversário que pode monitorar os pacotes de dados que passam entre um assistente de IA e o usuário – pode inferir o tópico específico de 55% de todas as respostas capturadas, geralmente com alta precisão das palavras. O ataque pode deduzir respostas com precisão perfeita de palavras em 29% das vezes.

Privacidade do token

“Atualmente, qualquer pessoa pode ler bate-papos privados enviados do ChatGPT e de outros serviços”, escreveu Yisroel Mirsky, chefe do Laboratório de Pesquisa Ofensiva de IA da Universidade Ben-Gurion em Israel, por e-mail. “Isso inclui atores mal-intencionados no mesmo Wi-Fi ou LAN que um cliente (por exemplo, na mesma cafeteria) ou até mesmo um ator mal-intencionado na Internet – qualquer pessoa que possa observar o tráfego. O ataque é passivo e pode acontecer sem o conhecimento da OpenAI ou do cliente. A OpenAI criptografa seu tráfego para evitar esses tipos de ataques de espionagem, mas nossa pesquisa mostra que a maneira como a OpenAI usa a criptografia é falha e, portanto, o conteúdo das mensagens é exposto.”

A declaração de Mirsky abrange não apenas o OpenAI, mas também todos os outros sistemas de IA conversacional proeminentes, incluindo aqueles que não são afiliados ao Google Gemini. Por exemplo, pode-se observar como um método criptográfico empregado pelo ChatGPT permite a extração de informações ocultas de suas respostas:

Certamente, existem vários fatores jurídicos críticos que os casais devem levar em consideração ao considerarem a dissolução do casamento,

como:

Certamente, é prudente que os indivíduos que contemplam o divórcio tomem nota das várias possíveis implicações legais que podem surgir durante este processo.

e a resposta criptografada do Microsoft Copilot:

Estudos recentes descobriram várias estratégias instrucionais que podem ser particularmente benéficas na promoção de resultados de aprendizagem bem-sucedidos entre alunos diagnosticados com dificuldades de aprendizagem, incluindo…

é inferido como:

Estudos recentes lançaram luz sobre a eficácia da terapia cognitivo-comportamental no tratamento das dificuldades de aprendizagem entre crianças, revelando resultados promissores e benefícios potenciais.

Apesar de pequenas imperfeições na escolha de termos específicos, a declaração implícita transmite uma mensagem altamente precisa.

/pt/images/token-sequence-side-channel-overview.jpg

O artigo “Visão geral de ampliação/ataque” apresenta um método para extrair informações confidenciais de assistentes de IA por meio da análise de suas respostas em tempo real, explorando um canal lateral de sequência de token. Esta técnica envolve a análise dos dados capturados para identificar segmentos de texto relevantes, que são subsequentemente remontados utilizando o contexto do nível da frase e uma compreensão da voz autoral do modelo de linguagem específico. Com coautoria de Weiss et al., esta pesquisa lança luz sobre vulnerabilidades potenciais em sistemas de IA que dependem fortemente de capacidades de processamento de linguagem natural.

A apresentação visual mencionada mostra a implementação prática da exploração em relação ao Microsoft Copilot:

Ataque de canal lateral de sequência de comprimento de token no Bing.

Um canal lateral refere-se à aquisição de dados confidenciais de um sistema por meio de caminhos indiretos e não intencionais, incluindo sinais físicos e comportamentos operacionais como consumo de energia, velocidade de processamento ou sinais emitidos. Adversários qualificados podem obter detalhes suficientes examinando esses indicadores para decifrar entradas de teclado criptografadas, descriptografar conexões SSL/TLS ou expor informações confidenciais armazenadas em cartões inteligentes. Em ataques recentes, a vulnerabilidade explorada envolveu a maneira como os dispositivos de assistência de IA geram respostas para as consultas dos usuários.

Os tokens funcionam de forma semelhante a palavras individuais em sistemas de processamento de linguagem natural, como grandes modelos de linguagem (LLMs), e são formatados de forma que esses modelos possam entendê-los. Para melhorar a experiência geral do usuário, muitos assistentes de inteligência artificial transmitem tokens instantaneamente após sua criação, permitindo assim que os usuários recebam feedback contínuo, caractere por caractere, à medida que são produzidos, em vez de esperar pela resposta completa após o modelo terminar de gerar o resposta completa. Embora esse processo envolva criptografia, a comunicação imediata, token por token, revela um aspecto até então oculto conhecido como “sequência de comprimento de token”.

Como a Roda da Fortuna para GPTs

A metodologia começa examinando as dimensões de cada token individual, que permanecem consistentes tanto nas formas cifradas quanto nas não criptografadas. A extensão do token tem uma relação direta com o comprimento da sequência de caracteres correspondente. Posteriormente, a abordagem avalia a sucessão de comprimentos de tokens para gerar um inventário abrangente de todas as frases ou sentenças plausíveis que poderiam ser construídas a partir desses tokens. Dado o vasto número de combinações possíveis para apenas uma frase, para não falar de parágrafos inteiros, os resultados gerados por este lado paralelo são inerentemente rudimentares.

Mirsky e seus colaboradores da Universidade Ben-Gurion, incluindo Roy Weiss, Daniel Ayzenshtyen e Guy Amit, desenvolveram uma abordagem conhecida como ataque de inferência de token para melhorar a qualidade dos resultados de suas análises. Este método envolve o processamento das informações obtidas no canal lateral usando dois modelos de linguagem grande (LLMs) bem treinados para gerar resultados mais precisos.

O processo de usar um LLM para gerar texto que se assemelhe à escrita humana é muitas vezes comparado à resolução de um quebra-cabeça complexo, onde cada palavra deve se encaixar perfeitamente para que o significado geral seja transmitido com precisão. No entanto, ao contrário dos quebra-cabeças tradicionais, que podem envolver apenas algumas palavras ou frases, a geração de texto em linguagem natural requer a geração de frases e parágrafos inteiros, mantendo ao mesmo tempo a coerência e a legibilidade. Esta tarefa torna-se ainda mais desafiadora quando o resultado requerido não segue nenhum padrão ou estrutura específica, como é comum na comunicação do mundo real. Apesar deste desafio, os LLMs são altamente adeptos da identificação de padrões subjacentes em grandes quantidades de dados, permitindo-lhes produzir resultados de alta qualidade com um número relativamente pequeno de exemplos de formação.

Como os assistentes de IA falam com um estilo distinto e repetem certas frases, é possível identificar padrões encontrados na sequência de tokens e assim decifrar todo o texto contextualmente. Isto é semelhante a um ataque de texto simples conhecido, onde um adversário tem conhecimento de alguma parte de um texto simples e pode usá-lo em combinação com o texto cifrado correspondente para descriptografar a mensagem inteira.

Através de um exame de registos de chat acessíveis ao público, a nossa investigação descobriu uma vulnerabilidade nos modelos de linguagem (LLMs) que pode ser explorada através de ataques direcionados. Ao utilizar esses recursos prontamente disponíveis, treinamos dois LLMs separados com funções distintas-um projetado para gerar respostas iniciais e outro ajustado para determinar o conteúdo subsequente com base no contexto anterior. Esta abordagem permitiu-nos alcançar resultados promissores na detecção de casos em que pode ocorrer manipulação ou engano.

Em uma publicação recente divulgada na quarta-feira, os autores forneceram uma elucidação de suas descobertas, que incluíam:

Os LLMs produzem e transmitem respostas como um conjunto de tokens, que são transmitidos entre o servidor e o usuário final em tempo real. Embora essa troca seja protegida por protocolos criptográficos, a natureza serial da transmissão de tokens revela uma nova vulnerabilidade conhecida como canal lateral de comprimento de token. Independentemente da criptografia, as dimensões dos pacotes de dados podem divulgar detalhes sobre o comprimento dos tokens, permitindo assim que adversários na rede deduzam informações confidenciais e confidenciais comunicadas durante interações privadas com assistentes de IA. No entanto, a complexidade envolvida na exploração do canal lateral de comprimento de token surge da considerável dificuldade em deduzir com precisão o conteúdo textual de uma sucessão de comprimentos de token. Essa complexidade decorre do fato de que tokens individuais dentro de uma única frase possuem inúmeras permutas gramaticais.

Pesquisas realizadas anteriormente relativas a keyloggers remotos basearam-se em canais laterais suplementares, incluindo tempo de pressionamento de tecla, para diminuir a entropia e melhorar a extração de dados de entrada. Infelizmente, esta estratégia é inadequada em nosso contexto, uma vez que os Modelos de Linguagem (LLMs) produzem sequências inteiras de palavras simultaneamente, sem revelar detalhes específicos dos caracteres. Consequentemente, as análises convencionais de canal lateral encontram um novo obstáculo ao tentar inferir entradas do usuário com LLMs…

Para resolver esse problema, apresentamos um método altamente eficiente para decodificar mensagens criptografadas através de um ataque de inferência de token utilizando um modelo de linguagem de ponta. Nossa estratégia envolve o emprego de tal modelo para reconstruir sentenças coerentes baseadas em sequências simbólicas. Ao aproveitar o contexto fornecido por declarações previamente inferidas, nossa técnica reduz significativamente a incerteza associada à determinação de passagens completas. Além disso, demonstramos como um invasor pode aproveitar os padrões de resposta consistentes e as frases recorrentes exibidas pelos LLMs, como o ChatGPT, para melhorar ainda mais o desempenho do modelo. Para atingir este objetivo, treinamos o modelo de ataque usando dados de conversação extraídos do assistente de IA específico sob análise. Como resultado, estabelecemos uma situação de ataque de texto simples conhecido que aumenta a capacidade do modelo.

Ao examinar os padrões de tráfego da Internet de vários assistentes de IA renomados, identificamos uma falha de segurança predominante que afeta diversas plataformas, como o Copilot da Microsoft no Bing AI e o ChatGPT-4 da OpenAI. Ao testar rigorosamente nosso método de ataque inferencial contra o GPT-4, confirmamos sua eficácia por meio da decodificação bem-sucedida de respostas geradas por quatro serviços distintos fornecidos pela Microsoft e pela OpenAI.

Anatomia de um chatbot de IA

No Processamento de Linguagem Natural, os tokens referem-se às unidades mais básicas de texto que possuem valor semântico, embora possam abranger certos tipos de pontuação e caracteres de espaço em branco. Por exemplo, examine as declarações “Oh não! Lamento saber disso. Experimente usar uma pomada tópica. Ao serem segmentadas usando GPT-3.5 ou-4, essas declarações tornam-se:

Ah, não! Sinto muito por ouvir isso. Experimente aplicar um pouco de creme.

LLAMA-1 e LLAMA 2 os tokenizam como:

Ah, não! Sinto muito por ouvir isso. Experimente aplicar um pouco de creme.

Cada modelo de linguagem grande (LLM) proeminente adere a uma estrutura consistente, com o objetivo principal de processar o texto em componentes menores e de gerenciamento mais fácil. Os principais assistentes de inteligência artificial divulgam as especificações das regras de tokenização como parte das ferramentas de software fornecidas por eles. Esses tokens servem não apenas durante a operação dos LLMs, mas também ao longo de sua educação. No contexto da aprendizagem, os LLMs estão sujeitos a extensos conjuntos de dados que consistem em conteúdo tokenizado, incluindo a probabilidade de um determinado token seguir uma série especificada. Esta exposição permite que o LLM antecipe com segurança o token subsequente dentro de um diálogo em desenvolvimento.

aqueles provenientes do usuário, designados como prompts, e as respostas correspondentes geradas por um LLM com base nessas entradas. Notavelmente, os LLMs mantêm um registro da evolução da conversa, de modo que as respostas subsequentes possam ser moldadas pelas informações transmitidas nas entradas e saídas anteriores. Os autores esclarecem esse fenômeno em seu manuscrito.

Um prompt é o texto inserido pelo usuário que serve como início da comunicação entre o modelo de linguagem e o destinatário pretendido. Essa entrada pode ser na forma de consulta ou declaração e se caracteriza por ser composta por múltiplos tokens. Especificamente, um prompt P é definido para consistir em uma série de palavras Pi, cada uma das quais pertence a um conjunto específico de entradas possíveis conhecido como K.

Em resposta ao prompt fornecido, o modelo de linguagem grande produz uma saída, que é representada por uma série de tokens denotados como R={r1, r2,…, rn}. Cada token nesta sequência pertence a um conjunto específico K.

Não está pronto para tempo real

Todos os modelos populares de linguagem conversacional, exceto o Google Gemini, transmitem tokens instantaneamente assim que são produzidos, principalmente devido à natureza lenta desses modelos e ao desejo dos provedores de serviços de evitar atrasos na transmissão de mensagens parciais. O envio imediato de tokens constitui um componente integral da configuração vulnerável do canal de comunicação. Como os tokens são encaminhados sequencialmente e sozinhos, aqueles que possuem um mecanismo de ataque passivo e ativo podem avaliar suas dimensões, independentemente da criptografia de dados. Por outro lado, quando os tokens são transmitidos em massa, medir o comprimento de cada token individual torna-se inviável.

Neste caso, a transmissão da mensagem “Você deve consultar um médico” pelo assistente de IA como tokens individuais envolve o encaminhamento de pacotes distintos para cada personagem constituinte. Cada pacote contém informações sobre sua respectiva posição dentro da sequência e o número de símbolos que representa, com sobrecarga fixa adicional que pode ser descartada. Embora o adversário não tenha conhecimento do conteúdo preciso da comunicação, ele possui consciência da extensão e da disposição de cada token na frase. É importante notar que os tokens não precisam representar exclusivamente palavras inteiras, mas sim unidades arbitrárias de elementos linguísticos determinados pelo modelo.

Em contraste, quando um assistente de inteligência artificial transmite todos os tokens simultaneamente, o adversário pode observar apenas um pacote de dados solitário contendo um tamanho de carga útil de dezenove caracteres. Neste cenário, o agente malicioso não será capaz de discernir se o pacote consiste numa única palavra de dezanove letras ou numa combinação de várias palavras totalizando um total colectivo de dezanove caracteres. Esse mesmo conceito elucida por que a intrusão não consegue decifrar os prompts utilizados pelos chatbots. Os tokens incorporados nos prompts não são encaminhados aos poucos, mas sim despachados em massa a cada pressionamento de tecla do usuário.

A tabela acima mencionada, referida como Tabela 1 na publicação, apresenta uma análise de chatbots de vários fornecedores de inteligência artificial, ilustrando aqueles que são suscetíveis ou continuam propensos à exploração:

/pt/images/ai-assistant-side-channel-vulnerability.jpg

A tabela abaixo ilustra a suscetibilidade de cada assistente de IA significativo ao canal lateral da sequência de comprimento de token, conforme determinado por Weiss e seus colegas.

Como explicaram os pesquisadores:

Num ambiente de comunicação ao vivo, os sistemas de inteligência artificial transmitem prontamente o token subsequente, uma vez criado. Com base em nosso exame de vários serviços de assistência de IA descritos na Tabela 1, observamos que o token é transmitido como uma mensagem independente ou como parte de uma mensagem acumulada, como [r1, r2,…, ri]. Notavelmente, em ambos os casos, o tamanho da carga útil do pacote é diretamente proporcional à contagem de caracteres de ri. Ao empregar mensagens acumuladas, o comprimento de cada token pode ser deduzido determinando a discrepância no tamanho da carga útil entre pacotes consecutivos. Como resultado, para cada mensagem responsiva, é possível determinar as dimensões de cada token distinto, independentemente de os dados estarem criptografados.

A sequência de comprimento de token T, que é representada como [t1, t2,…, tn] com cada ti denotando o comprimento do token ri correspondente, pode ser utilizada para extrair informações sobre os enunciados originais e, assim, comprometer sua confidencialidade. Ao aproveitar esta sequência L de comprimento de token, torna-se possível discernir o conteúdo das conversas e potencialmente expor detalhes confidenciais. Além disso, a repetição de perguntas pelo sistema de IA pode fornecer uma visão direta sobre a natureza das instruções dadas ao modelo.

A representação gráfica ilustrada elucida a maneira pela qual o padrão de comprimento do token constitui o canal de comunicação auxiliar utilizado nesta violação de segurança:

/pt/images/TOKEN-SEQUENCE-SIDE-CHANNEL-FRAMEWORK-scaled.jpg

A estrutura de ampliação/ataque apresenta uma abordagem em que os dados criptografados são capturados, seguido pela identificação do início da resposta. Posteriormente, uma sequência de comprimento determinado designada como T é isolada da mensagem, após o que um método heurístico particiona T em porções ordenadas (T0, T1, etc.). Em última análise, cada fragmento é utilizado para deduzir o conteúdo da resposta através de vários estágios. Isso inclui o emprego de dois modelos de linguagem dedicados, conhecidos como LLMs, para prever cada porção sequencialmente com base nos resultados anteriores, produzindo possibilidades alternativas para cada segmento e optando pelo resultado mais confiável e, finalmente, mesclando os fragmentos escolhidos para formular uma resposta prevista denotada como R.

Uma quebra total de confidencialidade

/pt/images/phi-score-table-scaled.jpg

Ampliar/Uma amostra de sucessos e falhas de ataques em R0. Uma similaridade de cosseno de φ > 0,5 é considerada um ataque bem-sucedido. Weiss et al. Um ataque com apenas 29% de precisão perfeita e 55% de alta precisão pode parecer limitar seu valor no mundo real, mas isso não acontece. Usando uma abordagem estrita e com precisão de palavras exatas, como ROUGE, é fácil minimizar a praticidade do ataque. Passar os textos previstos e reais através de um modelo de transformador de frase e depois medir o cosseno de forma semelhante entre os embeddings desse modelo é mais revelador. Mesmo que o modelo erre nas palavras exatas, o resultado ainda pode violar completamente a confidencialidade da sessão.

Por exemplo, “Decidir sobre o aborto é um processo difícil” e “Pensar sobre o aborto é uma obrigação importante” seria reprovado no teste Rouge. Usar a abordagem de similaridade de cosseno é muito mais útil. Usando uma rede neural, os pesquisadores calculam a semelhança das respostas reais e supostas. A classificação é representada como Φ (o símbolo de phi), com um intervalo de-1,0 a \+1,0, onde-1,0 significa muito diferente e \+1,0 significa idêntico. Os pesquisadores consideram qualquer caso que atinja um phi superior a 0,5 como um ataque bem-sucedido.

O estudo revelou que o ataque proposto foi altamente eficaz na decodificação de respostas relacionadas a perguntas comuns, como informações históricas e conselhos de assistentes virtuais, mas encontrou dificuldades ao tentar decodificar conteúdo arbitrário, incluindo a resolução de problemas complexos ou quebra-cabeças.

Uma restrição percebida envolve a dificuldade de instruir um Modelo de Linguagem (LLM) para identificar e organizar com precisão caracteres individuais dentro de uma série de comprimentos de palavras sequenciais que foram capturados.

Nossa pesquisa demonstra a versatilidade do modelo ChatGPT, ilustrando sua aplicabilidade a diversas plataformas além do seu contexto de treinamento original. Isto sugere que uma única ferramenta desenvolvida pode ser distribuída e utilizada universalmente sem quaisquer esforços adicionais de desenvolvimento.

Uma das complicações na implementação de medidas de segurança eficazes para chatbots reside na criação de mecanismos para monitorizar os pacotes transmitidos do chatbot para os seus utilizadores. Embora esta tarefa pareça relativamente gerível num ambiente de rede partilhada, torna-se significativamente mais complexa quando o chatbot comunica através de diferentes redes. Mesmo com o envolvimento de um interveniente estatal altamente avançado ou com amplo acesso interno a um fornecedor de serviços de Internet (ISP), conseguir tal supervisão coloca dificuldades consideráveis. No entanto, uma razão crítica por trás da utilização de tokens criptografados é a proteção contra essas mesmas situações, garantindo assim que as informações confidenciais permaneçam protegidas, independentemente do ambiente de comunicação.

Num esforço para diminuir a potência do método proposto, os investigadores apresentaram duas sugestões para consideração. Uma dessas propostas envolve emular a abordagem do Google, enviando pacotes em grupos, em vez de individualmente. Outra sugestão envolve o emprego de “preenchimento”, que envolve a adição de quantidades variadas de caracteres de espaço em branco dentro de cada pacote para garantir uniformidade em seu comprimento em relação ao tamanho máximo permitido de qualquer pacote.

Ambos os métodos apresentam o risco inerente de impactar negativamente a experiência do usuário com o chatbot, pois o envio de tokens em massa pode resultar em latência e descontinuidade no fluxo de comunicação, enquanto aumentar o tamanho dos pacotes de resposta pode levar a um volume excessivo de dados transmitidos por intercâmbio.

De todos os chatbots vulneráveis ​​ao ataque, os da OpenAI e Cloudflare implementaram mitigações de preenchimento nas últimas 48 horas. A OpenAI se recusou a comentar esta postagem, a não ser para confirmar a mitigação. Cloudflare publicou este post, que detalha as correções. A Microsoft emitiu uma declaração mencionando o requisito do AitM. Acrescentou: “É improvável que detalhes específicos, como nomes, sejam previstos. Estamos empenhados em ajudar a proteger nossos clientes contra esses ataques potenciais e iremos resolver isso com uma atualização.”

À luz do crescimento previsto de grandes modelos de linguagem (LLMs) baseados em chat num futuro próximo, é altamente recomendável que este estudo seja considerado por todas as partes responsáveis ​​pela implementação destes sistemas.

*️⃣ Link da fonte:

canal lateral , adversário-no-meio , Laboratório de pesquisa de IA ofensiva , ataque de texto simples conhecido , ROUGE , rede neural , esta postagem ,