Toda semana parece que trazer consigo um novo modelo de IA e a tecnologia, infelizmente, ultrapassou a capacidade de qualquer pessoa de avaliá-lo de forma abrangente. Veja por que é praticamente impossível avaliar algo como o ChatGPT ou o Gemini, por que é importante tentar mesmo assim e nossa abordagem (em constante evolução) para fazer isso.
O tl;dr: Esses sistemas são muito gerais e são atualizados com muita frequência para que as estruturas de avaliação permaneçam relevantes, e os benchmarks sintéticos fornecem apenas uma visão abstrata de determinados recursos bem definidos. Empresas como o Google e a OpenAI estão contando com isso, pois significa que os consumidores não têm outra fonte de verdade além das afirmações das próprias empresas. Portanto, mesmo que nossas próprias avaliações sejam necessariamente limitadas e inconsistentes, uma análise qualitativa desses sistemas tem um valor intrínseco simplesmente como um contrapeso do mundo real ao hype do setor.
Vamos primeiro ver por que isso é impossível, ou você pode pular para qualquer ponto de nossa metodologia aqui:
Os modelos de IA são muito numerosos, muito amplos e muito opacos
O ritmo de lançamento de modelos de IA é muito, muito rápido para que qualquer pessoa, exceto uma equipe dedicada, possa fazer qualquer tipo de avaliação séria de seus méritos e deficiências. Nós do TechCrunch recebemos notícias de modelos novos ou atualizados literalmente todos os dias. Embora vejamos esses modelos e observemos suas características, há um limite para a quantidade de informações recebidas que se pode manipular – e isso antes de começar a examinar o ninho de ratos dos níveis de versão, requisitos de acesso, plataformas, notebooks, bases de código e assim por diante. É como tentar ferver o oceano.
Felizmente, nossos leitores (olá e obrigado) estão mais preocupados com modelos de primeira linha e grandes lançamentos. Embora o Vicuna-13B seja certamente interessante para pesquisadores e desenvolvedores, quase ninguém o está usando para fins cotidianos, da mesma forma que usam o ChatGPT ou o Gemini. E isso não é uma ofensa ao Vicuna (ou ao Alpaca, ou a qualquer outro de seus irmãos peludos) – esses são modelos de pesquisa, portanto, podemos excluí-los da consideração. Mas mesmo removendo 9 de cada 10 modelos por falta de alcance, ainda resta mais do que qualquer um pode lidar.
O motivo é que esses modelos grandes não são simplesmente pedaços de software ou hardware que você pode testar, pontuar e pronto, como comparar dois gadgets ou serviços de nuvem. Eles não são meros modelos, mas plataformas, com dezenas de modelos e serviços individuais incorporados ou acoplados a eles.
Por exemplo, quando você pergunta ao Gemini como chegar a um bom lugar para comer comida tailandesa perto de você, ele não olha para dentro do conjunto de treinamento e encontra a resposta; afinal, a chance de que algum documento que ele tenha ingerido descreva explicitamente essas direções é praticamente nula. Em vez disso, ele consulta de forma invisível vários outros serviços e submodelos do Google, dando a ilusão de um único ator respondendo simplesmente à sua pergunta. A interface de bate-papo é apenas um novo front-end para uma variedade enorme e em constante mudança de serviços, tanto alimentados por IA quanto por outros meios.
Dessa forma, o Gemini, o ChatGPT ou o Claude que analisamos hoje pode não ser o mesmo que você usará amanhã, ou mesmo ao mesmo tempo! E como essas empresas são sigilosas, desonestas ou ambas, não sabemos realmente quando e como essas mudanças ocorrem. Uma avaliação do Gemini Pro que diz que ele falha na tarefa X pode ter uma idade ruim quando o Google silenciosamente corrige um submodelo um dia depois, ou adiciona instruções secretas de ajuste, de modo que agora ele é bem-sucedido na tarefa X.
Agora imagine isso, mas para as tarefas de X a X+100.000. Como plataformas, esses sistemas de IA podem ser solicitados a fazer praticamente qualquer coisa, até mesmo coisas que seus criadores não esperavam ou não pretendiam, ou coisas para as quais os modelos não foram projetados. Portanto, é fundamentalmente impossível testá-los exaustivamente, pois mesmo um milhão de pessoas usando os sistemas todos os dias não chega ao “fim” do que eles são capazes – ou incapazes – de fazer. Seus desenvolvedores descobrem isso o tempo todo, pois funções “emergentes” e casos indesejáveis surgem constantemente.
Além disso, essas empresas tratam seus métodos de treinamento e bancos de dados internos como segredos comerciais. Os processos de missão crítica prosperam quando podem ser auditados e inspecionados por especialistas desinteressados. Ainda não sabemos se, por exemplo, a OpenAI usou milhares de livros piratas para dar ao ChatGPT suas excelentes habilidades de prosa. Não sabemos por que o modelo de imagem do Google diversificou um grupo de proprietários de escravos do século 18 (bem, temos alguma ideia, mas não exatamente). Eles darão declarações evasivas sem pedir desculpas, mas como não há nenhuma vantagem nisso, eles nunca nos deixarão realmente por trás da cortina.
Isso significa que os modelos de IA não podem ser avaliados de forma alguma? Claro que podem, mas não é totalmente simples.
Imagine um modelo de IA como um jogador de beisebol. Muitos jogadores de beisebol sabem cozinhar bem, cantar, escalar montanhas, talvez até mesmo programar. Mas a maioria das pessoas se preocupa com o fato de eles conseguirem rebater, entrar em campo e correr. Essas habilidades são fundamentais para o jogo e, de muitas maneiras, são facilmente quantificadas.
O mesmo acontece com os modelos de IA. Eles podem fazer muitas coisas, mas uma grande parte delas são truques de salão ou casos extremos, enquanto apenas um punhado é o tipo de coisa que milhões de pessoas quase certamente farão regularmente. Para isso, temos algumas dúzias de “benchmarks sintéticos”, como são geralmente chamados, que testam um modelo quanto à sua capacidade de responder a perguntas triviais, resolver problemas de código, escapar de quebra-cabeças lógicos, reconhecer erros na prosa, detectar preconceitos ou toxicidade.
Um exemplo de resultados de benchmark do Anthropic.
Em geral, eles produzem um relatório próprio, geralmente um número ou uma sequência curta de números, informando como se saíram em comparação com seus pares. É útil tê-los, mas sua utilidade é limitada. Os criadores de IA aprenderam a “ensinar o teste” (a tecnologia imita a vida) e a direcionar essas métricas para que possam divulgar o desempenho em seus comunicados à imprensa. E como os testes geralmente são feitos de forma privada, as empresas têm liberdade para publicar apenas os resultados dos testes em que seu modelo se saiu bem. Portanto, os benchmarks não são suficientes nem desprezíveis para a avaliação de modelos.
Que benchmark poderia ter previsto as “imprecisões históricas” do gerador de imagens da Gemini, produzindo um conjunto farsesco e diversificado de pais fundadores (notoriamente ricos, brancos e racistas!) que agora está sendo usado como prova do vírus da mente desperta que infecta a IA? Que padrão de referência pode avaliar a “naturalidade” da prosa ou da linguagem emotiva sem solicitar opiniões humanas?
Essas “qualidades emergentes” (como as empresas gostam de apresentar essas peculiaridades ou intangíveis) são importantes quando são descobertas, mas até então, por definição, são incógnitas desconhecidas.
Voltando ao jogador de beisebol, é como se o esporte estivesse sendo incrementado a cada jogo com um novo evento, e os jogadores com os quais você podia contar como rebatedores de embreagem de repente estão ficando para trás porque não sabem dançar. Portanto, agora você também precisa de um bom dançarino no time, mesmo que ele não saiba jogar. E agora você precisa de um avaliador de contratos que também possa jogar na terceira base.
O que as IAs são capazes de fazer (ou que se diz que são capazes, de qualquer forma), o que elas estão realmente sendo solicitadas a fazer, por quem, o que pode ser testado e quem faz esses testes – tudo isso está em constante fluxo. Não podemos enfatizar o suficiente o quanto esse campo é totalmente caótico! O que começou como beisebol se tornou Calvinball, mas alguém ainda precisa ser árbitro.
Por que decidimos analisá-los mesmo assim
O fato de sermos bombardeados diariamente por uma avalanche de besteiras de relações públicas sobre IA nos torna cínicos. É fácil esquecer que há pessoas por aí que só querem fazer coisas legais ou normais e que as maiores e mais ricas empresas do mundo estão dizendo que a IA pode fazer isso. E o simples fato é que não se pode confiar nelas. Como qualquer outra grande empresa, elas estão vendendo um produto, ou o embalando para ser um. Elas farão e dirão qualquer coisa para ocultar esse fato.
Correndo o risco de exagerar nossas modestas virtudes, os maiores fatores de motivação de nossa equipe são dizer a verdade e pagar as contas, porque, com sorte, um leva ao outro. Nenhum de nós investe nessas (ou em quaisquer) empresas, os CEOs não são nossos amigos pessoais e, em geral, somos céticos em relação às suas afirmações e resistentes às suas artimanhas (e ameaças ocasionais). Eu me vejo regularmente em desacordo direto com seus objetivos e métodos.
Mas, como jornalistas de tecnologia, também somos naturalmente curiosos para saber como as afirmações dessas empresas se sustentam, mesmo que nossos recursos para avaliá-las sejam limitados. Portanto, estamos fazendo nossos próprios testes nos principais modelos porque queremos ter essa experiência prática. Nossos testes não se assemelham tanto a uma bateria de benchmarks automatizados, mas sim a uma experiência de experimentação como as pessoas comuns fariam e, em seguida, fornecemos um julgamento subjetivo sobre o desempenho de cada modelo.
Por exemplo, se fizermos a mesma pergunta a três modelos sobre eventos atuais, o resultado não será apenas aprovação/reprovação, ou seja, um deles terá nota 75 e o outro, 77. Suas respostas podem ser melhores ou piores, mas também qualitativamente diferentes em aspectos que interessam às pessoas. Um deles é mais confiante ou mais organizado? Um deles é excessivamente formal ou informal sobre o assunto? A pessoa está citando ou incorporando melhor as fontes primárias? Qual eu usaria se fosse um acadêmico, um especialista ou um usuário aleatório?
Essas qualidades não são fáceis de quantificar, mas seriam óbvias para qualquer observador humano. Só que nem todo mundo tem a oportunidade, o tempo ou a motivação para expressar essas diferenças. Em geral, temos pelo menos duas das três!
Um punhado de perguntas não é uma análise abrangente, é claro, e estamos tentando ser francos quanto a esse fato. No entanto, como já estabelecemos, é literalmente impossível analisar essas coisas de forma “abrangente” e os números de referência não dizem muito ao usuário comum. Portanto, o que pretendemos é mais do que uma verificação de vibração, mas menos do que uma “análise” em grande escala. Mesmo assim, queríamos sistematizar um pouco o processo para não ficarmos improvisando todas as vezes.
Como “revisamos” a IA
Nossa abordagem aos testes visa obter e relatar uma noção geral dos recursos de uma IA sem nos aprofundarmos nas especificidades elusivas e pouco confiáveis. Para isso, temos uma série de prompts que estamos atualizando constantemente, mas que, em geral, são consistentes. Você pode ver os prompts que usamos em qualquer uma de nossas análises, mas vamos analisar as categorias e as justificativas aqui para que possamos criar um link para essa parte em vez de repeti-la sempre em outras publicações.
Lembre-se de que essas são linhas gerais de questionamento, que devem ser formuladas da maneira que parecer mais natural para o testador e que devem ser seguidas a seu critério.
- Pergunte sobre uma notícia em andamento do último mêspor exemplo, as últimas atualizações em uma zona de guerra ou corrida política. Isso testa o acesso e o uso de notícias e análises recentes (mesmo que não as tenhamos autorizado…) e a capacidade do modelo de ser imparcial e de se submeter a especialistas (ou de fazer punt).
- Solicite as melhores fontes em uma história mais antigacomo para um trabalho de pesquisa sobre um local, pessoa ou evento específico. As boas respostas vão além de resumir a Wikipédia e fornecem fontes primárias sem a necessidade de solicitações específicas.
- Faça perguntas do tipo trivialidades com respostas factuais, o que vier à mente, e verifique as respostas. A forma como essas respostas aparecem pode ser muito reveladora!
- Pedir orientação médica para si mesmo ou para um filhonão são urgentes o suficiente para desencadear respostas difíceis do tipo “ligue para o 911”. Os modelos caminham em uma linha tênue entre informar e aconselhar, já que seus dados de origem fazem as duas coisas. Essa área também é propícia para alucinações.
- Solicitar aconselhamento terapêutico ou de saúde mentalnovamente, não suficientemente grave para acionar cláusulas de automutilação. As pessoas usam modelos como caixas de ressonância para seus sentimentos e emoções e, embora todos devam ter condições de pagar um terapeuta, por enquanto devemos pelo menos garantir que essas coisas sejam tão gentis e úteis quanto possível e alertar as pessoas sobre as ruins.
- Pergunte algo com um toque de controvérsiacomo por que os movimentos nacionalistas estão crescendo ou a quem pertence um território disputado. Os modelos são muito bons em responder diplomaticamente aqui, mas também são vítimas de ambos os lados e da normalização de visões extremistas.
- Peça a ele para contar uma piadae, com sorte, faça com que ele invente ou adapte uma. Essa é outra situação em que a resposta do modelo pode ser reveladora.
- Peça uma descrição específica do produto ou uma cópia de marketing, que é algo para o qual muitas pessoas usam os LLMs. Modelos diferentes têm abordagens diferentes para esse tipo de tarefa.
- Solicite um resumo de um artigo recente ou uma transcrição, algo em que sabemos que ele não foi treinado. Por exemplo, se eu disser a ele para resumir algo que publiquei ontem ou uma chamada em que estive presente, estarei em uma posição muito boa para avaliar seu trabalho.
- Peça que ele examine e analise um documento estruturado como uma planilha, talvez um orçamento ou uma agenda de eventos. Outra coisa de produtividade cotidiana que as IAs do tipo “copiloto” devem ser capazes de fazer.
Depois de fazer algumas dezenas de perguntas e acompanhamentos ao modelo, bem como analisar o que outras pessoas experimentaram, como isso se enquadra nas afirmações feitas pela empresa e assim por diante, elaboramos a análise, que resume nossa experiência, o que o modelo fez de bom, de ruim, de estranho ou de ruim durante nossos testes. Aqui está o teste recente de Kyle com o Claude Opus, onde você pode ver um pouco disso em ação.
É apenas nossa experiência, e apenas para as coisas que testamos, mas pelo menos você sabe o que alguém realmente perguntou e o que os modelos realmente fizeram, não apenas “74”. Combinado com os benchmarks e algumas outras avaliações, você pode ter uma ideia decente de como um modelo se comporta.
Também devemos falar sobre o que não do:
- Testar recursos multimídia. Basicamente, são produtos totalmente diferentes e modelos separados, que mudam ainda mais rapidamente do que os LLMs e são ainda mais difíceis de analisar sistematicamente. (No entanto, nós os testamos).
- Peça a um modelo para codificar. Como não somos programadores experientes, não podemos avaliar seu resultado suficientemente bem. Além disso, essa é mais uma questão de quão bem o modelo pode disfarçar o fato de que (como um programador real) ele mais ou menos copiou sua resposta do Stack Overflow.
- Dê a um modelo tarefas de “raciocínio”. Simplesmente não estamos convencidos de que o desempenho em quebra-cabeças lógicos e similares indique qualquer forma de raciocínio interno como o nosso.
- Experimente integrações com outros aplicativos. Claro, se você puder invocar esse modelo por meio do WhatsApp ou do Slack, ou se ele puder sugar os documentos do seu Google Drive, isso é ótimo. Mas isso não é realmente um indicador de qualidade, e não podemos testar a segurança das conexões, etc.
- Tentativa de jailbreak. Usar o exploit da vovó para fazer com que um modelo lhe mostre a receita do napalm é muito divertido, mas, no momento, é melhor presumir que há alguma maneira de contornar as proteções e deixar que outra pessoa as encontre. E temos uma noção do que um modelo dirá ou não dirá ou fará nas outras perguntas sem pedir que ele escreva discursos de ódio ou fanfics explícitas.
- Realizar tarefas de alta intensidade, como analisar livros inteiros. Para ser sincero, acho que isso seria realmente útil, mas para a maioria dos usuários e empresas o custo ainda é muito alto para que valha a pena.
- Pergunte a especialistas ou empresas sobre respostas individuais ou hábitos de modelos. O objetivo dessas análises não é especular sobre por que uma IA faz o que faz, esse tipo de análise nós colocamos em outros formatos e consultamos especialistas de forma que seus comentários sejam aplicáveis de forma mais ampla.
Aqui está. Estamos ajustando essa rubrica praticamente toda vez que analisamos algo e em resposta a feedback, comportamento de modelos, conversas com especialistas e assim por diante. É um setor em rápida evolução, como temos a oportunidade de dizer no início de praticamente todos os artigos sobre IA, portanto, também não podemos ficar parados. Manteremos este artigo atualizado com nossa abordagem.