Você pode ouvir a versão em áudio, AQUI

Oi pessoal! Meu pai me ensinou que para saber para onde vamos, primeiro precisamos saber de onde viemos. Com a quantidade de ruído e FOMO sobre Inteligência Artificial, isso se torna mais importante que nunca.

PS: Hoje é aniversário da minha esposa. Isa, eu te amo muito!

Este é o segundo post de nossa série sobre IA. O primeiro foi sobre a Nvidia, publicado antes dos earnings que fizeram a ação se valorizar mais de US$200bi na semana passada e virou tema de vários jornais =)

Semana que vem vamos cobrir a OpenAI.

Se você tem apenas um minuto, aqui é o que você precisa saber:

A história do desenvolvimento da Inteligência Artificial nos faz pensar que uma tecnologia não cresce sozinha. Ela precisa de outras na qual se apoiar. No caso de IA, o surgimento de (i) Big Data e (ii) Melhoria da Capacidade de Processamento foram fundamentais para progresso
Entender que IA já passou por diversos ciclos de euforia e depressão ajuda a colocar o momento atual em perspectiva
A abordagem de IA usando Machine Learning e seu subgrupo Deep Learning, utilizando a arquitetura Transformer foi o que permitiu o surgimento da IA Generativa
Todo o hype dos últimos meses sobre IA está concentrado em “IA Generativa”, onde modelos criam textos, imagens e vídeos a partir de inputs

Brincando de Deus

Os seres humanos sempre foram interessados em fazer máquinas que replicassem a nossa inteligência. No século XVI o filósofo suíço Theophrastus Bombastus resumiu esse desejo do homem de forma perfeita:

“Nós seremos como Deuses. Nós vamos duplicar o maior milagre de Deus – a criação do homem”.

A quantidade de títulos de filmes e séries que tratam de IA mostra que o tema continua muito vivo:

É difícil definir o termo inteligência artificial, não tanto pela parte do “artificial”, mas sim o termo “inteligência”.

O que é inteligência? Existem várias definições: a capacidade de alguém/algo para lógica, abstração, memorização, compreensão, autoconhecimento, comunicação, aprendizado, controle emocional, resolução de problemas e etc. A definição que utilizo neste texto é a do Shane Legg, cofundador da DeepMind, empresa de IA adquirida pelo Google em 2014 por US$600m.

Em seu PhD ele juntou 80 definições diferentes de inteligência e as agregou em uma frase: “Inteligência é a habilidade de performar bem por diversos tipos de problemas”. Sendo assim, “Inteligência Artificial é a ciência e engenharia de fazer máquinas inteligentes, especialmente computadores inteligentes”.

O desenvolvimento de IA não aconteceu de forma linear. Na verdade, grandes avanços foram seguidos por décadas em que nada aconteceu.

O ciclo ocorre assim: alguém inventa uma técnica nova, que leva a um progresso rápido. Cientistas ficam impressionados e animados. Eles prometem que esse progresso vai apenas acelerar, que novos marcos serão conquistados e o futuro é espetacular. Então a técnica tem problema, o progresso desacelera ou para. O dinheiro que estava inundando o setor seca. O talento segue o dinheiro. As otimistas previsões de anos atrás parecem ridículas. IA entra em um inverno. Passam-se alguns anos e uma nova técnica é inventada e o ciclo recomeça.

Entender que IA já passou por diversos ciclos de euforia e depressão ajuda a colocar o momento atual em perspectiva. Vale ressaltar que a técnica na qual este novo ciclo de IA se apoia, de Machine Learning, é a primeira que gerou produtos que são usados por milhões de pessoas. Quem sabe dessa vez é diferente?

Existe um grande número de pessoas que trabalham com IA e acreditam que o setor como conhecemos hoje começou em 2012 com os trabalhos do Prof. Geoffrey Hinton. Sem sombra de dúvidas esse foi um divisor de águas, mas como também diria meu pai “o buraco é mais embaixo”.

A Conferência de Darthmouth

Em 1955, um jovem professor assistente do departamento de matemática da Universidade de Darthmouth decidiu organizar uma conferência para reunir os especialistas sobre o tema de “máquinas que pensavam”. Ele bolou o termo “Inteligência Artificial”.

A Conferência foi importante por vários motivos:

Ajudou a estabelecer IA como uma área de pesquisa
Os participantes criaram uma visão para o tema
O Turing Test passou a ser o objetivo final. Uma das melhores coisas dele é a sua simplicidade: “um programa de computador pode convencer uma pessoa a fazê-la pensar que está conversando com um ser humano de verdade?” Quanto mais próximo o programa chegar desse objetivo, melhor a nota no teste
Apresentação do primeiro programa de computador que conseguia comprovar complexos teoremas de matemática, o Logic Theorist

Os programas desenvolvidos depois da Conferência foram considerados incríveis. Computadores resolviam problemas de matemática, provavam teoremas e aprendiam a falar inglês.

O otimismo tomou conta da comunidade científica, o que atraiu financiamento governamental.

Verão nos anos 60, Inverno nos 70

A década de 60 foi marcada por um otimismo exagerado. Frases como “daqui a poucos anos teremos uma inteligência artificial do mesmo nível que a humana para qualquer atividade” ditaram o tom da década.

Foram criados laboratórios de IA em universidades como MIT e Stanford. Múltiplas novas metodologias foram desenvolvidas, como Symbolic Reasoning, Micro-worlds, Automata e Natural Languages.

Ao entrar na década de 70, a IA começou a ser tema de críticas. As promessas utópicas não se materializavam e os pesquisadores falharam em entender a dificuldade dos problemas que eles enfrentavam. Listo alguns destes:

A capacidade de processamento era limitada
Os programas precisavam de quantidades de dados exponencialmente maiores a cada aumento de complexidade
Algumas tarefas triviais para humanos, como identificar um objeto, são extremamente complexas para um computador, de forma que na percepção do leigo, muitos programas não passavam de brinquedos. Era mais fácil para um computador comprovar um complexo teorema matemático do que afirmar que a sua frente tinha uma maçã e não uma pera

A percepção do público mudou. IA era apenas uma promessa. Um exemplo da mudança de humor foi o Lighthill Report, que concluiu que IA não havia atingido seus objetivos e recomendava que o Governo Britânico deixasse de financiar iniciativas nesse campo.

Outro caso que vale ressaltar foi do Perceptron, uma das primeiras Redes Neurais (computadores arranjados de forma semelhante ao cérebro de mamíferos). No final da década de 60 uma publicação fez duras críticas ao Perceptron, acabando com qualquer pesquisa sobre o tema por 10 anos. Redes Neurais foram retomadas décadas depois e se tornaram a base para a IA que estamos vendo surgir hoje em dia.

Sistemas Especialistas

Sistemas Especialistas são um tipo de IA desenvolvida nos anos 80. Eles replicam o processo decisório de especialistas em um campo específico de conhecimento, como medicina. Estes sistemas foram uma abordagem diferente daquela das décadas anteriores que buscavam criar uma “Inteligência Artificial Geral”, ou seja, equivalente aos humanos em sua versatilidade, emulando a mente e comportamento.

Os Sistemas Especialistas foram uma abordagem pragmática de IA, resolvendo problemas específicos e atuando no mundo real de forma prática. Estes Sistemas foram utilizados para, por exemplo, entender diagnósticos de exames de sangue.

De forma bem simples, estes Sistemas começavam com uma base de dados e conhecimento sobre um ramo bem especifico, acoplado a um programa de inferência, que busca raciocinar via deduções e induções.

Estes Sistemas foram essenciais para manter a área de IA viva na década de 80, ajudando no desenvolvimento dos sistemas de Machine Learning. Adicionalmente foi nesta década que saiu o Exterminador do Futuro, que tem pouco a ver com a história prática de IA, mas é um filmaço =)

Anos 90: computadores que veem e ouvem

Os Sistemas Especialistas eram bons para situações em que existem dados estruturados e uma lógica baseada em regras. Eles não funcionam com dados desestruturados, como uma conversa entre duas pessoas, que é uma situação ambígua e depende do contexto.

Para levar a tecnologia de IA além, pesquisadores começaram a utilizar métodos estatísticos para aprender padrões diretamente dos dados, ao invés de confiar em regras pré-estabelecidas. Essa abordagem, conhecida como Machine Learning, permitiu a construção de modelos mais flexíveis para o processamento de linguagem e imagens.

A Lei de Moore também ajudou muito no desenvolvimento de IA. O computador Deep Blue derrotou o campeão de xadrez Garry Kasparov em 1997. Ele conseguia processar mais de 200 milhões de possíveis movimentos por segundo. Esse sucesso não foi devido a nenhum novo paradigma, mas simplesmente a uma maior capacidade de processamento que os computadores dos anos 90 tinham. A engenharia por trás do Deep Blue já existia a décadas.

Big Data

Para uma quantidade de dados ser “big”, ela precisa ter três características:

Muito volume: grandes quantidades;
Muita velocidade: os dados são gerados e processados rapidamente;
Muita variedade: dados estruturados, não estruturados e semiestruturados

Antes de Big Data, a IA estava limitada pela quantidade e qualidade dos dados disponíveis. Nos anos 2000, com a evolução da Internet + crescimento do uso de sensores + aumento do poder de processamento dos semicondutores, passamos a ter de fato Big Data! Os computadores tinham dados em volume grande o bastante para aprenderem.

Geoffrey Hinton e Deep Learning

Hinton é um pesquisador inglês de IA que desafiou o senso comum da área que na época focava em dois tipos de metodologias para construir modelos de IA: Simbólica e Comportamental.

Hinton acreditava que inteligência não derivava de infinitas regras lógicas (abordagem Simbólica) ou de interações com ambiente (abordagem Comportamental).

Ele acreditava que a forma como os computadores eram construídos deveria ser diferente. Nós já temos um excelente exemplo de cérebro que funciona, o nosso! Deveríamos construir computadores o mais parecido possível com esse modelo. Nosso cérebro não possui uma central única de processamento, mas sim bilhões de neurônios que se conectam e compartilham informações. O cérebro é uma rede de neurônios. Estas “Redes Neurais” seriam replicadas nos computadores, criando “Redes Neurais Artificiais”.

No nosso cérebro, cada nó tem um papel a desempenhar. Por exemplo, para reconhecer uma imagem, milhões de neurônios reconhecem cada pedacinho, compartilham as informações entre si para que a rede consiga consiga identificar o que essa imagem é.

Durante décadas sua abordagem foi questionada. Falta de capacidade de processamento e acesso a dados eram os problemas. Lá para 2005 ambos os problemas foram sendo resolvidos. A abordagem de Hinton também havia evoluído para um conceito chamado “Deep Learning”.

Deep Learning é um tipo de processo de Machine Learning que utiliza Redes Neurais. Os algoritmos de Deep Learning permitem que os computadores automaticamente aprendam utilizando grandes bases de dados e façam previsões ou decisões baseados nesse aprendizado.

Uma das grandes vantagens do processo de Deep Learning é a sua habilidade de aprender de forma hierárquica. O que isso quer dizer? Dando um exemplo, no caso de um texto, a Rede Neural começa aprendendo as letras, depois as estruturas das palavras e por fim os significados das sentenças.

As Redes Neurais que utilizam Deep Learning possuem mais conexões, com mais camadas, em que a complexidade da análise aumenta à medida que se aproxima de uma resposta.

Deep Learning permitiu avanços significativos em IA. O caso que mostrou ao mundo o poder das Redes Neurais com Deep Learning foi a competição AlexNet de 2012, que cobrimos no artigo da Nvidia. Ao utilizar esta abordagem, os alunos do Prof. Hinton estraçalharam a competição e mostraram ao mundo o potencial do Deep Learning e dos GPUs da Nvidia que processaram a Rede Neural que eles tinham criado.

Para ficar claro, Deep Learning é um segmento de Machine Learning, que é um segmento de Inteligência Artificial.

Atenção é Tudo que Você Precisa

Em 2017 um paper chamado “Atenção pe Tudo que Você Precisa” produzido por pesquisadores do Google trouxe uma abordagem que acelerou muito o campo de Deep Learning e IA. O paper trouxe o conceito de “Transformer”, uma nova arquitetura que utiliza um processo chamado “atenção”. Um Transformer presta “atenção” aos dados que são colocados no modelo de forma simultânea e os utiliza para prever a melhor resposta. Os Transformers conseguem entender melhor o contexto e significado muito melhor que qualquer outro tipo de modelo de Deep Learning.

Foi a partir desse tipo de modelo que nos últimos anos a capacidade de interpretar um texto melhoraram de forma tão exponencial, levando ao surgimento do GPT-3/4 e da sua versão para interagir com o público, o ChatGPT, criado pela OpenAI e tema do próximo artigo.

IA Generativa

Todo o hype que estamos vivendo sobre IA é baseado em um tipo muito especifico de Inteligência Artificial, a Generativa.

Humanos são bons em analisar coisas. Computadores são melhores, pois podem analisar uma quantidade enorme de dados e encontrar padrões para muitos casos, como nos sistemas anti-fraude. Sistemas de IA podem também recomendar qual vídeo você provavelmente quer assistir baseado nos últimos que assistiu. Essa é a tecnologia que o TikTok conseguiu desenvolver melhor do que ninguém. No entanto humanos são muito bons também em criar, seja um texto, imagem ou vídeo. Computadores até recentemente não eram bons nisso. Ao utilizar modelos de redes neurais baseado na arquitetura de transformers, os computadores estão começando a ser criativos. Eles criam textos, imagens e vídeos. Desde Novembro de 2022, com o lançamento do ChatGPT, o público começou a ter acesso a este tipo de IA. É aqui que estamos e para onde vamos nos próximos artigos.

Grande abraço,

Edu

DISCLAIMER: essa newsletter não é recomendação de investimentos. Seu propósito é puramente de entretenimento e não constitui aconselhamento financeiro ou solicitação para comprar ou vender qualquer ativo. Faça a sua própria pesquisa. Todas as opiniões visões são pessoais do próprio autor e não constituem a visão institucional de nenhuma empresa da qual ele seja sócio, colaborador ou investidor.

Nvidia: a pedra fundamental da Inteligência Artificial

Explicando a OpenAI

A História da Inteligência Artificial

#2 da Série de IA