O que seu chatbot ainda não consegue fazer (e talvez nunca consiga)

16 de junho de 2025

por Redação The Shift

O que seu chatbot ainda não consegue fazer (e talvez nunca consiga)

A OCDE (Organização para a Cooperação e Desenvolvimento Econômico) está desenvolvendo um conjunto de indicadores para descrever o que a IA pode e não pode fazer em relação a diferentes áreas do desempenho humano. O conjunto completo não será divulgado antes do final de junho. Mas o primeiro rascunho ficou pronto.

Os indicadores são: Linguagem; Interação Social; Resolução de Problemas; Criatividade; Metacognição e Pensamento Crítico; Conhecimento, Aprendizagem e Memória; Visão; Manipulação; e Inteligência Robótica. E medem o desenvolvimento da IA a partir de uma escala de cinco níveis, em que as capacidades mais desafiadoras para sistemas de IA estão no topo. Cada nível inclui uma breve descrição dos tipos de capacidades que os sistemas de IA naquele nível podem executar com precisão e consistência, desde o passado até um futuro hipotético em que a IA possa reproduzir todos os aspectos humanos de cada capacidade.

Para ser classificado em um determinado nível, um sistema de IA deve possuir de forma consistente e confiável a maioria dos aspectos da capacidade descrita naquele nível. Por exemplo, os LLMs foram classificados no limiar entre os níveis 2 e 3 na escala de Linguagem. Possuem muitos aspectos da capacidade linguística descritos no nível 3, mas são prejudicados por sua incapacidade de se envolver em raciocínio analítico bem estruturado, sua tendência a “alucinar” e gerar informações incorretas e sua incapacidade de aprender dinamicamente.

A escala de Conhecimento, Aprendizagem e Memória observa que as alucinações serão corrigidas no nível 5. A escala de Linguagem também observa que o Pensamento Crítico aparecerá no nível 5, e a escala de Metacognição e Pensamento Crítico observa que a avaliação crítica do Conhecimento aparecerá no nível 3. Essa diversidade entre as escalas destaca algumas perspectivas diferentes na antecipação da dificuldade relativa de corrigir esse desafio. Um aspecto das escalas que certamente precisará ser harmonizado em versões futuras dos indicadores, sempre lembrando que uma função importante das escalas é lembrar ao público que a alucinação aparece como um desafio entre muitos: vários desafios precisam ser resolvidos para que a IA atinja o desempenho de nível humano.

A intenção da OCDE é de que esses indicadores balizem os debates sobre as implicações da IA para o futuro da Educação – da concepção curricular à Pedagogia. Na opinião de técnicos do projeto “IA e o Futuro das Competências (AIFS)”, do Centro de Pesquisa e Inovação Educacional (CERI) da OCDE, esses indicadores podem ser usados para compreender melhor as implicações da IA para a educação. E fornecer uma estrutura para identificar onde os sistemas de IA podem possibilitar mudanças transformadoras na educação, ajudando a esclarecer quais tarefas de ensino podem ser reformuladas e quais objetivos de aprendizagem precisarão evoluir.

Em linhas gerais, os indicadores:

Destacam áreas em que mudanças na oferta e no propósito da educação são tecnicamente viáveis, subsidiando discussões futuras sobre currículo, papéis dos professores e competências dos alunos.
Ajudam a mapear os requisitos ocupacionais e a analisar como ocupações específicas podem evoluir, uma vez que a IA se torne capaz de auxiliar ou substituir trabalhadores em algumas tarefas.

A esperança da OCDE é que, ao vincular o desempenho da IA às demandas do trabalho no mundo real e aos objetivos educacionais, os indicadores possam:

nos ajudar a ver onde podem ocorrer grandes mudanças e onde as funções humanas continuarão sendo essenciais.
fornecer um sinalizador valioso aos pesquisadores de IA dos recursos que precisarão ser testados, a fim de fornecer avaliações informativas do progresso da IA, à medida que as limitações das abordagens atuais de benchmarks se tornam cada vez mais evidentes.
oferecer um mecanismo por meio do qual os os formuladores de políticas possam se comunicar com os pesquisadores de IA sobre os tipos de recursos que precisam ser avaliados para atender às preocupações sociais, políticas e éticas relacionadas ao desenvolvimento da tecnologia.

Em resumo, a OCDE acaba de entregar algo de que precisávamos: um sistema GPS adequado para as capacidades da IA. Sua proposta de Indicadores de Capacidade de IA representa a tentativa mais abrangente até o momento de criar uma estrutura padronizada para entender o que a IA realmente pode fazer em comparação com as capacidades humanas. Mais de 50 especialistas em Ciência da Computação e Psicologia passaram cinco anos desenvolvendo essa estrutura, combinando pesquisa acadêmica rigorosa com aplicações práticas e reais. Vale dar um boa olhada no trabalho.

Para líderes corporativos, a OCDE oferece algo realmente valioso: uma verificação da realidade que transcende o discurso de marketing de fornecedores. Quando um representante de vendas promete que sua solução de IA “vai revolucionar suas operações”, agora você pode fazer perguntas específicas sobre quais níveis de capacidade o sistema realmente alcança e em quais domínios específicos.

A análise da lacuna entre as capacidades atuais da IA e os requisitos de tarefas empresariais específicas torna-se mais clara quando se estabelecem benchmarks padronizados. Considere o Atendimento ao Cliente, em que as empresas estão implantando chatbots de IA com o entusiasmo de garimpeiros da corrida do ouro. A estrutura da OCDE sugere que, embora a IA possa lidar razoavelmente bem com interações estruturadas, qualquer coisa que exija inteligência social genuína, resolução de problemas com nuances ou pensamento criativo expõe rapidamente as limitações atuais.

Conteúdo originalmente produzido e publicado por The Shift. Reprodução autorizada exclusivamente para a Abranet. A reprodução por terceiros, parcial ou integral, não é permitida sem autorização.

O que seu chatbot ainda não consegue fazer (e talvez nunca consiga)

leia

também

Drex, a moeda digital nacional, teve 500 operações de 11 instituições em 50 dias de piloto

BC publica cronograma para testes do Pix Automático

Comitê que vai definir futuro da internet tem dois brasileiros