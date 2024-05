Imagine poder falar e mostrar o mundo ao seu redor, obtendo respostas mais rápidas e precisas do que uma conversa com outras pessoas. Essa possibilidade está prestes a chegar às mãos dos usuários do ChatGPT, a inteligência artificial queridinha dos entusiastas da tecnologia. Como se tivesse saído de um filme de ficção científica, será que essa atualização pode marcar uma nova era para as IAs em todo o mundo?

Até agora restrito a mensagens de texto, onde os usuários recebiam respostas a partir dos comandos (prompts) compartilhados no bate-papo, o ChatGPT agora propõe uma interação que chama de mais “humanizada” com seus usuários.

Sora, a nova inteligência artificial capaz de criar vídeos por descrição de texto

Ao apontar a câmera do smartphone para qualquer lugar, o chat instantaneamente começa a descrever o ambiente, buscando fornecer o máximo de informações possíveis sobre o que está vendo.

Avaliação de looks para uma entrevista de emprego, resolução de complexos exercícios de matemática, traduções em tempo real para mais de 50 idiomas diferentes, orientações médicas preliminares e uma infinidade de outras aplicações estão no escopo da ferramenta.

Em termos gerais, essa IA é capaz de processar texto, voz, imagens e vídeos de maneira jamais vista, representando um avanço extraordinário, mas também uma fonte de preocupação entre especialistas.

Todas essas novas funcionalidades estão sendo disponibilizadas no GPT-4o, o mais novo modelo de linguagem multimodal desenvolvido pela OpenAI, a mesma empresa por trás de sistemas como o ChatGPT, o Sora e o Dall-E.

Em outras palavras, essa atualização permite que os usuários se comuniquem com a ferramenta através de uma combinação de texto, voz e imagens, tudo isso a velocidades que desafiam os limites humanos.

De acordo com a OpenAI, o GPT-4o responde a comandos de áudio em uma média de 320 milissegundos, com um tempo mínimo que pode chegar a 232 milissegundos. Isso representa uma velocidade de resposta muito superior àquela de modelos anteriores, como o GPT-3.5, que leva em média 2,8 segundos, e até mesmo do próprio GPT-4, que é uma versão paga e que demora cerca de 5,4 segundos para responder.

"Com o GPT-4o, treinamos um único modelo de ponta a ponta em texto, visão e áudio, o que significa que todas as entradas e saídas são processadas pela mesma rede neural", informou a OpenAI, em comunicado. Já o CEO, Sam Altman, afirmou que este seria o melhor modelo já criado pela empresa.

"É inteligente, é rápido, é nativamente multimodal" Sam Altman, CEO da OpenAI, sobre o GPT-4o

No anúncio nas redes sociais, é possível perceber diferentes aplicações em que a IA pode ser empregada. Em uma publicação, a empresa mostra um usuário cego testando as funcionalidades em um passeio pela cidade. Ao apontar a câmera do celular, ele consegue passear, identificar pontos turísticos e pegar um veículo por aplicativo com auxílio da ferramenta.

Outro vídeo mostra funcionários da empresa apresentando a ferramenta em uma conversa com pessoas que falam idiomas diferentes. Após um dos apresentadores informar à plataforma para que ela identifique a voz de uma das pessoas e, simultaneamente, transforme as falas do espanhol para o inglês, o GPT-4o passa a trabalhar instantaneamente como um verdadeiro tradutor em tempo real.

Abaixo, assista à cada um desse exemplos de usos do ChatGPT-4o:

Uma atualização que certamente chama bastante a atenção é uma espécie de “análise de sentimentos” a partir das feições dos usuários. A ferramenta seria capaz de agir como um termômetro, identificando rostos felizes, tristes e até mesmo expressões de surpresa ou de confusão.

O GPT-4o já começou a ser liberado ao poucos para alguns usuários. Ele pode ser usado mesmo na versão gratuita, mas com um limite de mensagens. Assinantes do ChatGPT Plus, por outro lado, terão limite maior para desfrutar da ferramenta. Ainda não existe uma data para que os recursos de áudio e vídeo cheguem para todos.

Desconfiança interna em meio às novidades

Ao mesmo tempo em que essas novidades chegam para a marca de inteligência artificial mais popular do mundo, alguns movimentos estranhos acontecem internamente na OpenAI.

Logo após o anúncio do GPT-4o, uma grande mudança ocorreu no alto escalão da empresa: um dos líderes da equipe de desenvolvimento, Ilya Sutskever, comunicou sua saída por “motivos pessoais”, em uma mensagem controversa na visão de muitos seguidores.

Além disso, vários outros funcionários já deixaram a empresa alegando terem sido obrigados a assinar um acordo de não depreciação, o qual exigia que eles não falassem negativamente sobre a empresa após deixarem o quadro colaborativo. Caso não concordassem em assinar, os funcionários perderiam suas participações na empresa, adquiridas por meio de pacotes de ações enquanto trabalhavam lá.

Exposições de contratos duvidosos também vieram à luz, indicando, por exemplo, que a OpenAI teria assinado um acordo com a Microsoft para alcançar a Inteligência Artificial Geral (AGI), que é a capacidade hipotética da IA compreender ou aprender qualquer tarefa intelectual de um ser humano.

Em outras palavras, seria o estágio em que se tornaria impossível distinguir se uma resposta foi produzida por um humano ou por uma ferramenta de IA.

Comandada pelas mãos do polêmico criador e CEO, Sam Altman, a OpenAI nega todas as acusações, mas documentos vazados à imprensa complicam a empresa em suas defesas. Em meio a essa situação, as preocupações éticas sobre os avanços tecnológicos proporcionados pela empresa se acumulam entre os críticos.

Afinal, ter alguém como Altman à frente de uma corporação tão poderosa pode ser motivo de apreensão, especialmente diante de seu histórico de buscar incansavelmente alcançar a AGI?

Será que o GPT-4o vai superar o ser humano?

Antes de analisar se as questões envolvendo o CEO da OpenAI, Sam Altman, são motivos de preocupação social, com possíveis quebras e desvios éticos, o professor do Instituto Federal de Educação, Ciência e Tecnologia do Ceará (IFCE), Wendell Rodrigues, destaca o momento histórico que estamos vivendo em relação às ferramentas de inteligência artificial.

Segundo ele, mais do que representar um novo marco das IAs, o lançamento do GPT-4o estão mais voltadas para uma estratégia comercial da sua empresa-mãe.

"Na verdade, avançamos para um novo patamar quando o ChatGPT ficou disponível para o público em geral, em 2022. Essa foi a grande disrupção. O GPT-4o está mais voltado para integrações, com o processamento de vídeo, áudio, som, imagem e texto para fornecer respostas em tempo real", afirma Wendell, que é docente do Departamento de Telemática e pesquisador do Laboratório de Inovação Tecnológica (LIT/IFCE).

Ele acrescenta: "Por exemplo, a Apple vinha se preparando para lançar ferramentas semelhantes na plataforma Mac iOS, capazes de interpretar vídeo e áudio em tempo real. Comercialmente, a Apple sempre lançava atualizações aos poucos, para garantir o mercado.

O que a OpenAI está fazendo é arriscado, pois quebra esse modelo de negócio dos grandes players. Isso talvez gere uma disputa maior entre as gigantes, mas não afeta diretamente a sociedade."

Wendell Rodrigues é professor do Instituto Federal de Educação, Ciência e Tecnologia do Ceará (IFCE)

Já o professor da Universidade Federal do Ceará (UFC), Artur de Oliveira, explica que, apesar de populares atualmente, as inteligências artificiais generativas surgiram há pouco mais de uma década com a técnica das Redes Geradoras Adversariais (GANs).

Em resumo, uma GAN treina duas redes diferentes para competir: a geradora, que cria novos dados a partir de amostras de entrada; e a discriminadora, que tenta prever se os dados gerados são reais ou falsos. O sistema aprimora continuamente os dados até que a discriminadora não consiga mais distinguir entre os dados gerados e os reais.

“A estrutura de redes neurais artificiais é antiga, mas os avanços na capacidade de processamento, especialmente com o uso de GPUs, trouxeram grandes melhorias. Com processadores mais rápidos, podemos usar mais neurônios nas redes, superando limitações anteriores.

Grandes empresas, com seus recursos, conseguem testar novas arquiteturas e técnicas”, aponta Artur, que é professor do professor de Ciência da Computação, na UFC de Itapajé.

Diante disso, ele observa que o uso de imagens e vídeos em combinação com texto já está em crescimento e sendo utilizada por diferentes plataformas, a exemplo do Gemini e do Google AI Studio.

Ambos do Google, os serviços estariam não apenas mostrando capacidade de processamento de informações, mas principalmente desafiando a popularidade do ChatGPT, com modelos mais abertos, flexíveis e acessíveis. Portanto, o “aceleracionismo” tão atrelado a Sam Altman pode ter uma explicação muito mais fincada na competitividade do mercado, do que em um pleno megalomaníaco.

Artur de Oliveira é professor de Ciência da Computação, na Universidade Federal do Ceará (UFC), em Itapajé

“É uma questão de concorrência, mesmo. O Gemini a priori gera texto, mas consegue também receber vídeos e imagens como entrada. O interessante e um tanto assustador é que, por exemplo, eu posso carregar um vídeo, fazer um desenho ou rascunho de uma cena e ele identifica essa cena, oferecendo o frame específico.

Isso não é só uma questão de processamento, mas da capacidade de oferecer um serviço tão avançado e relativamente gratuito. Com isso, o Gemini se mostra um concorrente forte porque é mais acessível que o ChatGPT, o que pode torná-lo mais popular”, finaliza.

Wendell Rodrigues destaca que a pressa do mercado pode surpreender muitos usuários, mas ressalta que ainda há um longo caminho a percorrer até que as ferramentas de IA deixem de apenas imitar os humanos e desenvolvam uma "consciência própria".

Sam Altman, diretor-executivo da OpenAI

Ele aponta que diversos desafios relacionados aos Testes de Turing, que buscam distinguir respostas humanas de respostas geradas por IA, já foram propostos. No entanto, os resultados obtidos até agora têm sido mais de natureza filosófica do que técnica e científica.

“Vez por outra, ouvimos alguém falar que tiveram alguns ensaios da máquina acessando certo nível de consciência, mas como cientista da computação, conhecendo os algoritmos por dentro, acho isso ainda muito distante. As máquinas estão muito mais imitando nosso comportamento, de maneira precisa e replicada, o que dá a impressão de estarem tomando certa consciência.

O processo está acontecendo, mas a consciência ainda está muito distante, e não sei se um dia chegaremos nela. Nós não estamos sendo substituídos pelas IAs, mas estamos sendo ultrapassados por pessoas que estão mais preparadas para saber usá-las”, menciona.