Preparando-se para a força de trabalho agêntica de amanhã

Observação: Nós nos empenhamos ao máximo para manter o espírito e as nuances originais de nossos artigos. Porém, pedimos desculpas desde já por quaisquer erros de tradução que você venha a notar. Seu feedback é bem-vindo através do e-mail reader_input@mckinsey.com

Para efetivamente competir, uma empresa deve analisar a fundo como criar e manter sua infraestrutura de inteligência artificial. Neste episódio do podcast At the Edge, o cofundador e CEO da SambaNova Systems, Rodrigo Liang, conversa com Lareina Yee, apresentadora e sócia sênior da McKinsey, sobre IA agêntica, a curva S do valor da IA e por que as empresas devem adotar um modelo híbrido de IA.

A transcrição a seguir foi editada para maior clareza e concisão.

Repensando a infraestrutura de IA

Lareina Yee: A SambaNova é uma empresa de IA vibrante e ambiciosa, que atende a um mercado enorme. Poderia nos contar o que você viu no mercado que o inspirou a fundar a SambaNova?

Rodrigo Liang: Tenho dois cofundadores incríveis, os professores de Stanford Kunle Olukotun e Christopher Ré. Nós três nos reunimos e começamos a pensar a fundo sobre as mudanças globais diante de nós: um novo mundo centrado na IA, um mundo no qual a IA ocupa o primeiro plano, está sendo construído e vem provocando transformações numa escala raramente vista nas últimas duas ou três décadas.

Mais insights da McKinsey em português

Confira nossa coleção de artigos em português e assine nossa newsletter mensal em português.

Navegue pela coleção

De modo que a gênese da SambaNova foi esse processo de brainstorming, que avaliou se a infraestrutura de computação em que operamos é realmente a mais eficiente. A conclusão, baseada em pesquisas de Stanford, é que existem maneiras significativamente melhores de viabilizar a IA. Foi assim que, sete anos e meio atrás, decidimos embarcar nessa jornada.

Lareina Yee: Há sete anos, éramos apenas um pequeno grupo, incluindo eu, que nutria grande interesse por data centers. Hoje, este é o assunto do momento e todo mundo está falando sobre infraestrutura.

A McKinsey calcula que serão necessários investimentos de cerca $5 trilhões nos próximos cinco anos para construir a infraestrutura completa dos data centers – edificações, software, sistemas de refrigeração e usinas de energia – e assim alimentar o apetite voraz da IA. Como você avalia a dinâmica dos custos, da inovação e do momento em que nos encontramos?

Rodrigo Liang: Creio que seja extremamente importante refletir sobre três coisas ao ampliarmos a escala dessa transformação.

Nos últimos três anos, houve uma extraordinária expansão das GPUs [unidades de processamento gráfico], da infraestrutura de IA e do número de operações de ponto flutuante por segundo, ou teraflops. A maior parte dessa expansão se deu no pré-treinamento de grandes modelos e é hoje dominada pelas maiores empresas globais. No entanto, à medida que avançamos, vemos um mundo que quer fazer inferências, aplicar computação em tempo de teste e criar uma variedade de aplicações distintas que precisarão dos modelos que estamos treinando.

Quando a escala aumenta, começam a surgir outras limitações, como a escassez de energia para alimentar todos esses data centers. Começa-se até a falar em usinas nucleares e outras fontes de energia, que por sua vez exigirão a descoberta de novas formas de resfriamento. Ao refletirmos sobre a questão da energia, constatamos que será preciso achar maneiras de atualizar nossa matriz energética para garantir todos os gigawatts que os data centers exigem. Por fim, precisaremos conectar essa infraestrutura aos locais onde os usuários se encontram, as grandes regiões metropolitanas, mesmo sabendo que não é lá que esses gigantescos data centers serão instalados.

Portanto, há muitos desafios de infraestrutura que precisamos resolver e, na SambaNova, estamos muito focados em tornar isso tudo mais fácil. Nossa intenção é descobrir maneiras de oferecer a capacidade de que precisaremos por uma fração do custo e uma fração da energia. Todos nós precisamos contribuir para a solução, porque a resposta não pode ser: “Basta construir mais usinas elétricas e mais data centers”. É muito difícil. Precisaremos disso, é claro, mas a tecnologia principal também precisa ser significativamente mais eficiente.

Flanqueando o stack de tecnologias

Lareina Yee: Conte-nos um pouco sobre essa fórmula mágica em torno da eficiência na qual a SambaNova está trabalhando. Digamos que eu seja totalmente leiga nessas questões; como devo entender o papel importante que vocês desempenham nesse ecossistema?

Rodrigo Liang: Pense na SambaNova como flancos do stack de tecnologias. Em um dos flancos, construímos chips; no outro, criamos serviços de API que oferecem acesso aos melhores modelos de código aberto sem que seja preciso investir no trabalho complexo de modelagem customizada.

Com a SambaNova, basta acessar cloud.sambanova.ai para utilizar todos os melhores modelos de código aberto, obter todos os benefícios e um grau impressionante de precisão, com rapidez insuperável e um custo muito eficiente. Pois a verdade é que, ao efetivamente implantar a inteligência artificial, os custos de aquisição de infraestrutura, energia, redes e demais recursos necessários logo começam a se acumular.

Se quisermos passar do mundo de treinamento de modelos para um mundo de inferências1 (que deverá receber dez vezes mais investimentos), precisaremos ser mais eficientes. Precisaremos reduzir os custos. Caso contrário, não será possível escalar.

Planejando um modelo híbrido

Lareina Yee: Vamos avançar no tempo e supor que as empresas descobrirão como escalar a IA. Se eu for um líder empresarial, como devo planejar para essa realidade?

Rodrigo Liang: Uma empresa terá sucesso se utilizar a IA para oferecer serviços melhores no mercado, interagir melhor e mais rapidamente com os clientes e facilitar a personalização. Também precisará transformar suas operações para que a IA consiga melhorar significativamente o time-to-market e a experiência do cliente.

Portanto, em cada empresa, a solução de IA será um modelo híbrido. Assim como temos a nuvem e as instalações físicas, também teremos grandes modelos de linguagem [LLMs] e LLMs customizados. Para não falar em modelos de texto, visão, linguagem e voz.

Conduzir uma empresa significa ter métodos próprios customizados que atendem às várias necessidades operacionais. Mas quando se adota plenamente o modelo híbrido, são os dados que determinam onde os modelos de IA devem ser executados – na nuvem A, na nuvem B ou nas instalações físicas da empresa.

É assim que acreditamos que a infraestrutura deve ser implantada. Deixe os dados reinarem e conduzirem a solução de que você precisa, porque a empresa será híbrida de uma maneira ou de outra.

A beleza dos pequenos modelos de linguagem

Lareina Yee: Tenho conversado com grandes empresas e muitas delas estão entusiasmadas com gigantescos LLMs. No entanto, também dizem que o ingrediente secreto é a experiência do usuário com modelos de pequeno porte que utilizam apenas dados internos. Nem sempre será preciso ter a internet na ponta dos dedos, por assim dizer, embora haverá outras ocasiões em que isso acontecerá. Outra coisa em todos estão interessados hoje é a inteligência artificial agêntica, e sei que vocês conhecem algumas maneiras intrigantes de torná-la uma realidade na empresa. Fale um pouco sobre isso.

Rodrigo Liang: Não importa se o cliente quer utilizar um modelo gigantesco com trilhões de parâmetros na nuvem ou se deseja trazê-lo para as instalações físicas da empresa (onde estão armazenados seus dados privados), ninguém precisará ficar restrito a pequenos modelos locais.

Na verdade, temos muito orgulho em disponibilizar um modelo de 400 ou 600 bilhões de parâmetros no próprio local, treinado com todos os dados da empresa e ajustado perfeitamente a eles. Com isso, a empresa terá seu próprio LLM de grande porte desconectado da internet, garantindo acesso de máxima privacidade e segurança. Esse modelo é valioso pois nunca se sabe o que será preciso lhe perguntar amanhã ou depois.

Modelos menores podem ser problemáticos. Se você lhes fizer perguntas para as quais foram ajustados – na área jurídica, financeira ou de RH, por exemplo – eles tendem a ser muito precisos. No entanto, quanto menor o modelo, maior será sua fragilidade. Se um prompt se desviar um pouco do padrão, o modelo quebra. Dito isso, porém, acho que os pequenos modelos de linguagem são fantásticos para a IA agêntica.

Na verdade, acredito que o fluxo de trabalho agêntico será implementado nos ambientes de produção das empresas mais rapidamente do que os LLMs, pois a maioria das organizações precisa verificar e certificar o que é produzido. Com modelos menores, fica muito mais fácil dizer: “O output ‘A’ do input ‘A’ não foi o resultado esperado”, e a validação disso se torna muito mais fácil.

Em seguida, o que faço é conectar dezenas desses pequenos agentes para criar um fluxo de trabalho. E alguns deles fazem isso muito bem. Por quê? Por dois fatores. No mundo agêntico, o parâmetro fundamental que as pessoas devem ter em mente é o tempo até o primeiro token [TTFT], ou seja, ao acionar um modelo por meio de um prompt, quanto tempo o agente leva para me dar uma resposta?

O ideal é atingir um patamar como o de alguns dos nossos agentes Llama 8B, cujo TTFT é 0,03 segundo. Se você conectar sequencialmente vinte agentes, o TTFT é 0,6 segundo – ou seja, a resposta é dada praticamente em tempo real. Essa é a beleza de utilizar agentes em ambientes altamente especializados: eles permitem criar um fluxo de trabalho bastante sofisticado que, para o usuário final, parece uma experiência em tempo real.

Mantendo a segurança do fluxo de trabalho

Lareina Yee: Existem dois fatores cruciais: a velocidade e o custo. Mas há também uma espécie de terceira dimensão e eu gostaria que você elaborasse a questão. Se eu sou um líder empresarial, eu me preocupo com a segurança, que me permitirá estar à frente em um mundo de mudanças regulatórias constantes e novas expectativas do consumidor.

Rodrigo Liang: Exato. Pensemos em um banco. À medida que esses agentes forem sendo construídos, cada um deles precisará ter acesso seguro dentro do banco. Mesmo que sejam compartilhados como parte de um fluxo de trabalho agêntico, precisam ser conciliados com o usuário que formulou o prompt. Às vezes, em um fluxo de trabalho genérico, a tarefa é relativamente simples, pois trata-se apenas de passar adiante informações públicas.

No entanto, tão logo envolva informações controladas ou dados de um cliente específico, o fluxo de trabalho precisará levar em conta que o usuário com quem você está interagindo no fluxo de trabalho agêntico pode ou não ter acesso a esses dados.

Será preciso haver um mecanismo que permita ao usuário dizer: “Estou a serviço desse fluxo de trabalho agêntico, mas fulano em particular não tem acesso ao agente. Portanto, precisarei apresentar uma resposta diferente sem divulgar informações às quais ele não tem acesso”.

A curva S do valor da IA

Lareina Yee: Existem outros fatores que você considera realmente importantes para empresas que queiram transformar os fluxos de trabalho – não as tarefas, mas fluxos de trabalho completos – em um mundo de IA agêntica?

Rodrigo Liang: Estamos considerando elementos estáticos como o primeiro passo que nos permitirá implantar essa solução. Por quê? Porque é mais fácil. Mas, além disso, quando se utiliza esses elementos como aplicações extremamente restritas de IA, o valor gerado para a empresa não justifica a implantação da IA apenas nesse fragmento restrito.

Se observarmos a maioria das empresas, veremos que o valor da IA segue uma curva S. Em termos de valor, estamos agora no período anterior à ampliação da escala, fazendo coisas simples e de baixo risco. Isso explica por que tantos do setor se perguntam: “Onde está o retorno do investimento em IA? Não está nos chatbots, pois a economia gerada ainda não é suficiente para justificar o investimento”.

Isso pode muito bem ser verdade. Mas voltemos novamente ao exemplo do banco. Toda vez que surge um caso de lavagem de dinheiro, alguém tem de redigir um relatório de 400 páginas após a conclusão da investigação. Quantas pessoas estão envolvidas na produção desse documento para garantir que ele esteja correto e enviá-lo ao órgão regulador? Pense nisso.

Assegurar que tudo esteja devidamente documentado não é algo que as pessoas gostam de fazer. Mas, e se esse relatório pudesse ser gerado corretamente em cinco segundos por um bot? Aí sim, a IA começa a gerar valor real, porque tudo o que precisa ser feito como parte do negócio poderá ser feito por um custo substancialmente menor e com muito mais precisão.

Acho que nós, como setor, devemos avançar pela curva S até termos a infraestrutura correta para operar os modelos adequadamente e para que os dados e os resultados sejam gerenciados com segurança.

Acho que nós, como setor, devemos avançar pela curva S até termos a infraestrutura correta para operar os modelos adequadamente e para que os dados e os resultados sejam gerenciados com segurança. Desse modo, poderemos efetivamente gerenciar as mudanças em termos de como realmente integramos a tecnologia aos fluxos de trabalho, aos requisitos regulatórios e à validação do sistema de IA.

Mudança básica vs. mudança transformadora

Lareina Yee: Seria bom refletirmos um pouco sobre esse conceito de automação de tarefas em vez da transformação real do fluxo de trabalho. Nos termos mais simples possíveis, existe aquilo que é básico e aquilo que é transformador. Creio que muitas pessoas estão dedicando seu tempo ao básico e sentindo essa frustração, pois veem os custos dispararem e não conseguem enxergar o valor para o negócio. Quais seriam alguns exemplos de mudanças básicas e de mudanças transformadoras?

Rodrigo Liang: Hoje em dia, há em quase todas as empresas um volume significativo de engenharia de software. Ou seja, não há motivo para não seguir nessa direção.

A IA consegue escanear 100.000 SKUs de todos os produtos da empresa e aprende facilmente todas as especificações desses produtos, até as mais técnicas. Ela faz um trabalho muito, muito melhor do que qualquer engenheiro seria capaz vasculhando 100.000 especificações diferentes e tentando descobrir ao que cada uma se refere.

Lareina Yee: Acho isso o máximo. Por que permanecer no mundo analógico ao explorar algumas dessas ideias? Particularmente no caso de marketing, vendas, software e desenvolvimento de produtos. Para comparar, o que você acha mais instigante em termos do próximo passo para além da curva S? Quais são as coisas mais empolgantes que as empresas andam fazendo?

Rodrigo Liang: Eu diria que é a capacidade de pegar elementos altamente complexos do mundo analógico (como todo o processo de descoberta de novas drogas) e os sete anos que normalmente se leva para analisar os dados iniciais, e descobrir maneiras mais eficientes de trabalhar.

Foi o que a SambaNova fez durante a pandemia de COVID-19. Trabalhamos com o governo dos EUA para tentar criar um “cientista substituto” de inteligência artificial que acelerasse significativamente a descoberta de novos medicamentos, visto que o ambiente virtual permite realizar experimentos com incomparável rapidez.

Ou então o processo mapear depósitos subterrâneos de gás no setor de energia. Hoje, utilizamos sinais sísmicos, combinados com a história da região e nossa intuição. Mas localizar esses depósitos subterrâneos continua sendo incrivelmente difícil. No entanto, se deixarmos o processo a cargo da IA, ela conseguirá localizar depósitos de carbono e indicar onde perfurar com muito, muito mais precisão, reduzindo substancialmente os custos e o impacto ambiental.

Inferência de IA vs. treinamento de IA

Lareina Yee: Uma questão que você mencionou no início da entrevista foi a inferência de IA e sua importância. Fale um pouco sobre a inferência de IA e como ela difere do treinamento de modelos tradicional.

Rodrigo Liang: A inteligência artificial tem dois elementos básicos: modelos de treinamento e modelos de inferência. O paralelo que costumo traçar é que o treinamento é como criar um algoritmo de busca e a inferência é como a busca no Google que todos fazemos todos os dias.

Haverá cada vez menos pessoas treinando esses modelos porque eles já são muito bons. E, à medida que os modelos de código aberto continuam melhorando, não será mais preciso investir $100 milhões, $200 milhões ou $300 milhões para treinar modelos próprios. Na verdade, você pode muito bem pegar um modelo de código aberto já existente e apenas customizá-lo.

Lareina Yee: É extraordinário, considerando que dois anos atrás alguns de nossos cientistas de dados de IA ainda dedicavam longo tempo ao treinamento. E agora já é possível dedicar mais tempo à inferência. Olhando um ou dois anos à frente, o que você acredita que será normalizado?

Rodrigo Liang: Os agentes. Creio que todos nós teremos um acervo customizado de agentes à nossa disposição. Em todas as nossas atividades comerciais haverá fluxos de trabalho agênticos ou agentes customizados já prontos para serem utilizados.

Daqui a dois anos, todos nós teremos um acervo de agentes favoritos integrados a tudo o que fazemos e que utilizaremos diariamente.

Para mim, serão como templates, isto é, moldes prontos para o uso. Por exemplo, assim como ninguém abre o PowerPoint e começa a desenhar o fundo dos slides a partir do zero, nós todos iremos utilizar esses agentes para criar os fluxos de trabalho de que precisamos e a nossa própria experiência personalizada.

É assim que vai ser. Daqui a dois anos, todos nós teremos um acervo de agentes favoritos integrados a tudo o que fazemos e que utilizaremos diariamente. Porque fazermos tudo sozinhos e não usar a máquina seria simplesmente loucura.

Portanto, acho que esse será o mundo em que viveremos e todos nós passaremos a depender dessas capacidades.

IA e robótica

Lareina Yee: Olhando para o futuro, o que dizer dos robôs?

Rodrigo Liang: Em nossa imaginação, robôs seriam aquelas criaturas que perambulam por aí como seres humanos. Na verdade, porém, já existe um grupo inicial de robôs atuando em toda a nossa produção industrial. Já vemos robôs reabastecendo prateleiras em lojas. E temos robôs montando placas-mãe em computadores e automóveis em fábricas. Isso vai se tornar onipresente.

Acho que veremos que a tecnologia já atingiu um nível que nos permite implantar tais soluções em casos de uso corporativos. E, assim como ocorre com os agentes de software, esses robôs altamente especializados serão implantados mais rapidamente, pois podemos provar que um input ‘A’ produz um output ‘B’ de forma bastante confiável e eficiente. Esses robôs serão os primeiros a entrar em produção.

Quanto aos robôs da nossa imaginação, isto é, criaturas humanoides capazes de realizar todas as tarefas domésticas, eles também estão chegando. Acho apenas que vão demorar um pouco mais. Mas já há inúmeros casos de uso na vida real.

Próximos passos importantes para as empresas

Lareina Yee: Quais medidas as empresas devem tomar desde já tendo em vista a normalização ou incorporação da IA, o surgimento dos agentes de IA e as aplicações da robótica no local de trabalho?

Rodrigo Liang: Devemos fazer um inventário da empresa inteira, incluindo o back-office, as instalações físicas, as áreas operacionais. Isso pode ser feito por região ou por função, mas é importante que seja resolvido rapidamente e que seja adotado um modelo híbrido, pois, por exemplo, se uma empresa constar entre as Fortune 50, ela precisará aderir a regras diferentes sobre dados de clientes em cada país em que opera.

É importante adotar o modelo híbrido que for apropriado à segmentação do negócio em termos de operações, geografia e linhas de produtos. Basta começar com alguns pontos básicos de implementação. Nem tudo ocorrerá no próprio local da empresa no início. Na verdade, é essencial encontrar um equilíbrio entre soluções físicas localizadas e na nuvem.

Porque cada local, cada negócio e cada função provavelmente terá ambos os casos de uso – na nuvem e nas instalações da empresa. Uma parte deve ficar na nuvem, pois é mais eficiente, mas também é preciso que outras sejam realizadas com segurança e privacidade no próprio local.

Se esse for o ponto de partida, a empresa poderá começar a aprender. Aprender é imprescindível e a maioria das empresas não sabe o que não sabe. Ou seja, é preciso começar a implantar alguns elementos em determinados locais que permitam criar esse tipo de aprendizado institucional.

É a capacidade de aproveitar a tecnologia que diferenciará a empresa no mercado. Mas todos os concorrentes no mercado também estarão tentando fazer o mesmo.

Isso porque, logo atrás da tecnologia, o mais importante é a gestão das mudanças, que é essencial na produção. Quanto mais depressa essa curva for superada, mais a empresa desfrutará os benefícios da tecnologia.

É a capacidade de aproveitar a tecnologia que diferenciará a empresa no mercado. Mas todos os concorrentes no mercado também estarão tentando fazer o mesmo. Quem chegar lá primeiro, utilizando a tecnologia de forma mais eficaz, obterá uma vantagem competitiva.

Acesso à IA para todos

Lareina Yee: Já falamos bastante sobre IA e gostaria agora de conversar um pouco sobre você. Você é brasileiro e teve uma carreira incrível. Qual seria a sua lista de desejos se estivesse levando a IA para o Brasil.

Rodrigo Liang: A IA será onipresente e deve estar disponível a todos, não apenas àqueles que podem pagar. Acredito que todos devam ter acesso a ela, não importa onde vivam no planeta. Além disso, em todos os mercados em que atuamos, a SambaNova investe muito em linguística, porque a maioria dos países prefere não ser obrigada a priorizar o inglês; querem tudo traduzido para o seu próprio idioma.

Portanto, quando a SambaNova entra em um mercado, desembarcamos preparados para o idioma nativo ou trabalhamos com pessoas locais que nos ajudar a operar no seu idioma. Pois tanto o suporte ao cliente, a interpretação de documentos e a tradução de áudio e vídeo precisam ser nativos.

Lareina Yee: Última pergunta. Fale um pouco sobre a origem do nome SambaNova.

Rodrigo Liang: Meu cofundador, Kunle, é de origem nigeriana e tínhamos uma empresa chamada Afara, que na língua dele significa “ponte”. Desta vez, queríamos algo que fosse brasileiro por causa da minha origem.

E se você quiser uma palavra que faça as pessoas pensarem imediatamente no Brasil, com certeza será “samba” ou “Rio”. Uma coisa levou à outra, e a SambaNova surgiu. É uma nova dança.

Como as tecnologias SambaNova são focadas no fluxo de dados, o objetivo é permitir que esses modelos operem por conta própria, sem a necessidade de analisá-los, cortá-los ou realizar todas as coisas legadas que fazemos com os fluxos de trabalho.

O nome pegou, porque é a essência do que fazemos: deixar a tecnologia fluir e ver como ela se desenvolve.

Explore a career with us