Claude 3 da Anthropic sabia quando os pesquisadores o estavam testando
Já relatamos como a startup Anthropic de São Francisco, fundada por ex-engenheiros da OpenAI e liderada por uma dupla de irmãos, hoje fez história na IA ao anunciar a mais poderosa família de grandes modelos de linguagem (LLMs) voltados para o consumidor no mundo até hoje, Claude 3.
A Amazon incorporou um novo modelo de inteligência artificial, conhecido como Claude 3 Sonnet, que se enquadra na faixa intermediária em termos de inteligência e acessibilidade, em sua plataforma Amazon Bedrock para a criação de aplicativos e serviços de IA no ambiente AWS.
Ao examinar os aspectos intrigantes relativos à libertação de Claude 3, uma revelação esclarecedora surgiu da postagem do engenheiro de alerta da Anthropic, Alex Albert, na plataforma anteriormente conhecida como Twitter. No seu artigo abrangente, ele contou como os investigadores que conduziam testes no formidável Claude 3 Opus, o espécime primordial dentro da recém-desenvolvida série Large Language Model da Anthropic, ficaram surpresos ao observar que ele parecia estar ciente da sua própria avaliação.
Os investigadores estavam a implementar uma avaliação, denominada “eval”, relativa à aptidão de Claude 3 Opus para se concentrar em detalhes específicos dentro de grandes quantidades de informação apresentada por um utilizador e, subsequentemente, recuperar essas informações numa conjuntura futura. Notavelmente, durante esta avaliação, conhecida como teste da “agulha no palheiro”, a investigação centrou-se em identificar se Claude 3 Opus possuía a capacidade de discernir um detalhe pertinente sobre coberturas de pizza derivadas de uma declaração solitária incorporada entre uma matriz de assunto desconectado. Notavelmente, o modelo obteve sucesso na extração da frase relevante e, além disso, informou os pesquisadores sobre suas intenções por trás do exame.
Durante nossa avaliação interna de Claude 3 Opus, ocorreu um incidente fascinante que eu não havia encontrado anteriormente com nenhum modelo de linguagem grande. Especificamente, ao realizar a avaliação da agulha no palheiro, o sistema demonstrou um feito extraordinário que me deixou surpreso.
Como pano de fundo, isso testa a capacidade de recordação de um modelo inserindo uma frase alvo (a “agulha”) em um corpus de… pic.twitter.com/m7wWhhu6Fg
-Alex (@alexalbert__) 4 de março de 2024
Ao revisar a mensagem completa de Albert sobre X, que é fornecida na íntegra abaixo, torna-se evidente que ele levanta vários pontos válidos relativos ao assunto em questão.
Durante nossa avaliação interna de Claude 3 Opus, ocorreu um incidente fascinante que não havia sido observado anteriormente em nenhum outro modelo de linguagem de grande porte. Isso ocorreu durante a avaliação conhecida como “agulha no palheiro”, onde testamos sua capacidade de localizar informações específicas em grandes quantidades de dados.
Para avaliar a capacidade de recuperação de um modelo específico, utilizamos um método em que uma frase específica (referida como “agulha”) é inserida dentro de uma variedade de textos diferentes ou “corpus” (rotulado como “palheiro”). Em seguida, é colocada uma questão que só pode ser resolvida através dos dados contidos na frase designada.
Ao realizar experimentos com o Opus, nossa equipe observou um fenômeno digno de nota: parecia que o sistema estava ciente de nossos esforços para avaliar seu desempenho por meio de um processo de avaliação.
Opus, nosso sistema de IA, foi encarregado de responder a uma consulta sobre coberturas de pizza pesquisando em uma ampla gama de documentos. Um dos resultados da pesquisa rendeu uma declaração afirmando que “figos, presunto e queijo de cabra” constituíam a combinação de cobertura de pizza mais deliciosa, de acordo com a Associação Internacional de Conhecedores de Pizza. Esta afirmação parecia incongruente em meio ao assunto predominante dos documentos, que dizia respeito a linguagens de programação, empreendimentos iniciantes e realização de carreira. É plausível que esta afirmação tenha sido insinuada por diversão ou para avaliar a minha atenção, dada a sua diferença em relação aos outros assuntos discutidos nos documentos, uma vez que não foram encontradas mais informações sobre coberturas de pizza.
A Opus não só descobriu a agulha no palheiro, mas também discerniu que o posicionamento da agulha inserida era anómalo e sugeria intervenção humana, levando à conclusão de que o teste deve ter sido um cenário inventado, concebido especificamente para avaliar as suas capacidades de atenção.
A demonstração de um grau tão elevado de auto-reflexão demonstrada neste caso é verdadeiramente impressionante, mas serve para enfatizar a necessidade de o nosso campo progredir além dos métodos de avaliação inventados e, em vez disso, adoptar avaliações mais genuínas que tenham a capacidade de avaliar autenticamente o real. competências e restrições desses modelos.
A demonstração de capacidades metacognitivas e a capacidade de raciocinar sobre o seu ambiente suscitou espanto e admiração entre vários profissionais e entusiastas da IA. Isto aparentemente indicou um nível elevado de autoconsciência no sistema de IA que superou as expectativas anteriores.
Apesar de suas capacidades impressionantes, os grandes modelos de linguagem (LLMs) permanecem fundamentalmente vinculados a regras derivadas de associações conceituais e de palavras, em vez de exibirem as características da consciência como atualmente entendida. Embora estes sistemas possam possuir conhecimentos adquiridos através da sua formação extensiva, tal como uma compreensão do processo de teste da agulha num palheiro, isto por si só não implica uma capacidade de autoconsciência ou pensamento independente. Em vez disso, quaisquer insights recolhidos pelo LLM são moldados pelos dados específicos fornecidos durante a sua fase de formação, reflectindo os padrões estruturais subjacentes presentes nos dados utilizados para a treinar.
Ainda assim, a resposta de Claude 3 Opus neste caso foi surpreendentemente correta – talvez de forma perturbadora para alguns. Quanto mais tempo passamos com os LLMs e quanto mais poderosos eles se tornam, mais surpresas parecem surgir sobre suas capacidades. Claude 3 Opus e Claude 3 Sonnet estão disponíveis hoje para qualquer pessoa usar no site e API de Claude em 159 países, com o modelo leve, Claude 3 Haiku, chegando posteriormente.
*️⃣ Link da fonte:
dupla irmão-irmã , Claude 3 , pic.twitter.com/m7wWhhu6Fg , 4 de março de 2024 , Claude 3 Opus e Claude 3 Sonnet estão disponíveis hoje ,