Microsoft lança família Phi-3, de pequenos modelos de linguagem

24 de abril de 2024

por Redação da Abranet

A Microsoft anunciou a família Phi-3 de modelos abertos de linguagem, que conta com técnica de treinamento desenvolvida pelos pesquisadores da Microsoft. A empresa explicou que os grandes modelos de linguagem (LLMs) criaram oportunidades de avançar na produtividade e criatividade, mas devido ao tamanho requerem uma significativa fonte computacional para operar.     A Microsoft está desenvolvendo a primeira família de linguagens pequenas disponível ao público: Phi-3-mini, mensurando 3.8 bilhões de parâmetros, que performa, segundo a Microsoft, melhor do que modelos duas vezes maiores, segundo a empresa. A família Phi-3 estará disponível no catálogo do Microsoft Azure AI Model no Hugging Face, uma plataforma de modelos de aprendizagem de máquina, como o Ollama, um framework mais leve para rodar em máquinas locais.   A Microsoft também anunciou modelos adicionais da família Phi-3 que estão por vir para oferecer mais opções de custo e qualidade. O Phi-3-small (7 bilhões de parâmetros) e o Phi-3-medium (14 bilhões de parâmetros) estarão disponíveis, em breve, no catálogo do Azure AI Model e em outros “jardins” de modelos.   Enquanto os LLMs seguem essenciais para resolver diversas tarefas complexas, a Microsoft está desenvolvendo uma série de modelos de linguagem menores (SLMs) que oferecem muitas das mesmas capacidades das LLMs, mas que são menores e foram treinadas com uma quantidade menor de dados.   A ideia do Phi-3 teve origem, no ano passado, quando, depois de passar o dia trabalhando e pensando em possíveis soluções para as “pegadinhas” da aprendizagem de máquina, Ronen Eldan, da Microsoft, estava lendo histórias de dormir para a sua filha quando pensou: “Como ela aprendeu esta palavra? Como ela sabe como conectar essas palavras?”  Isso levou o pesquisador especialista em machine learning da Microsoft a pensar o quanto um modelo de IA poderia aprender usando apenas palavras que uma criança de quatro anos poderia entender. Essa inspiração ajudou a criar uma abordagem de treinamento inovadora que produziu uma nova classe de pequenos modelos de linguagem, mais eficazes, que promete tornar a IA ainda mais acessível e para mais pessoas.  Entenda os SLMs Os pequenos modelos de linguagem são projetados para ter bom desempenho em tarefas mais simples, sendo assim mais acessíveis e fáceis de usar, especialmente para organizações com recursos limitados. Eles podem, ainda, ser mais facilmente ajustados para atender a necessidades específicas.   De acordo com Sonali Yadav, gerente de produto principal para IA generativa na Microsoft, o que vamos começar a ver não é uma mudança de grande para pequeno, mas uma mudança de uma categoria única de modelos para um portfólio de modelos onde os clientes têm a capacidade de tomar uma decisão sobre a qual é o melhor modelo para o seu cenário. Luis Vargas, vice-presidente de IA na Microsoft, completou que alguns clientes podem precisar apenas de pequenos modelos, alguns precisarão de modelos grandes e muitos vão querer combinar ambos de várias maneiras. Escolher o modelo de linguagem certo depende das necessidades específicas de uma organização, da complexidade da tarefa e dos recursos disponíveis. Pequenos modelos de linguagem são mais adequados para organizações que procuram construir aplicações que podem ser executadas localmente em um dispositivo (em oposição à nuvem) e onde uma tarefa não requer raciocínio extenso ou nos quais é necessária uma resposta rápida.   De acordo com a Microsoft, enquanto grandes modelos de linguagem são mais adequados para aplicações que precisam de orquestração de tarefas complexas e envolvem raciocínio avançado, análise de dados e compreensão do contexto, os pequenos modelos de linguagem oferecem soluções potenciais para indústrias regulamentadas e setores que encontram situações em que precisam de resultados de alta qualidade, mas desejam manter os dados em suas próprias instalações.   Os executivos Vargas e Yadav estão entusiasmados com as oportunidades de colocar SLMs de maior capacidade em smartphones e outros dispositivos móveis que operam “na borda”, ou seja, não estão conectados à nuvem. Ao manter os dados dentro do dispositivo, os usuários podem “minimizar a latência e maximizar a privacidade, explicou Vargas. A latência refere-se ao atraso que pode ocorrer quando os LLMs se comunicam com a nuvem para recuperar informações usadas para gerar respostas aos prompts dos usuários.   Como o nome indica, em comparação com os LLMs, os SLMs são minúsculos, pelo menos pelos padrões da IA. Phi-3-mini tem “apenas” 3,8 bilhões de parâmetros — uma unidade de medida que se refere aos botões algorítmicos em um modelo e que o ajudam a determinar sua saída. Em contraste, os modelos de linguagem grande possuem ordens de magnitude de parâmetros muito maiores.  Os LLMs são melhores do que SLMs em raciocínio complexo sobre grandes quantidades de informações por conta de seu tamanho e poder de processamento. Essa é uma função que poderia ser relevante para a descoberta de medicamentos, por exemplo, ao ajudar a vasculhar vastos acervos de artigos científicos, analisar padrões complexos e entender interações entre genes, proteínas ou produtos químicos.  Com informações da Microsoft 

leia

também