Distopia Algoritmica - Parte 1
Primeiro preciso fazer alguns avisos:
- Cometi uma conta no twitter para começar a sistematizar a divulgação destas coisas que escrevo (espero que o twitter não me considere um bot e bloqueie minha conta de novo, da última vez minha conta durou 2 dias)
- Resolvi levar a sério isso de produzir conteúdo, tenho pensado também em vídeos mas ainda não encontrei um formato que me agradasse, e levar a sério passa também pelo lado financeiro da coisa, por enquanto aceito doações via PIX[pode usar o código qr abaixo] para ter condições de ampliar este projeto. Colocarei no site e ao final de cada edição da newsletter um agradecimento às pessoas que doaram, se não quiser seu nome na lista, só me mandar uma mensagem :-).
O texto dessa semana, uma crítica técnica e ética à forma como se lida com inteligência artificial, ia ficar realmente muito longo, quando coloquei num processador de texto para ter noção de quantas páginas ficaria se impresso, admito o susto quando vi que já tinha mais de 10 páginas e eu ainda não havia concluído as duas últimas partes, por isso resolvi dividir o texto em 4 partes que serão publicadas primeiro na newsletter e no dia seguinte no meu blog, cada parte será publicada apenas na última edição de cada mês para que se mantenha alguma diversidade entre temas ao longo deste tempo.
Divirtam-se com a 1ª parte ^_^
Parte 1: da Introdução ao problema, ao problema da métrica
Introdução
Neuromancer, o livro mais famoso de William Gibson, traz um aspecto muito interessante sobre algoritmos de inteligência artificial, elas são divindades, mas falando apenas assim parece muito louco e um tanto quanto aleatório ou abstrato demais, é melhor ir por partes: inteligência artificial é necessariamente uma forma de inteligência não-humana de fundamento estatístico, por ser um algoritmo, falar em idade ou tempo da mesma forma que para espécies biológicas não faz sentido, logo podemos considerar como algo imortal, ou dependendo do contexto até mesmo "eterno" no sentido de além da temporalidade, e devido à internet das coisas e a capacidade da IA de interagir com tudo o que está conectado, temos algo potencialmente onisciente e onipresente. Em toda a trilogia esse conceito de divindidade é explorado sob diferentes aspectos, seja através dos super ricos buscando a imortalidade ou grandes empresas como organismos vivos compostos de microorganismos, que nesta escala se refere aos funcionários. É interessante que apesar do capitalismo ser algo bem violento no cenário cyberpunk nos livros de Gibson, as IAs tentam apenas existir, e a matrix (a "internet) daquele universo que tem lá suas semelhanças com o tal do metaverso de snowcrash, mas que é visto como um território de máquinas, e assim a matrix se mostra como algo mais "espiritual", como um além-mundo sendo desenvolvido pelas divindades nativas daquele espaço.
É realmente interessante analizar Neuromancer sob essa perspectiva e à primeira vista sentirmos algo vindo dos algoritmos que controlam nossas vidas, especialmente como nossos dados são usados para limitar ou direcionar nossas atividades e comportamento, como conteúdos que vemos no youtube ou twitch, onde o sistema de recomendação pode tanto nos estimular a expandir nossa percepção da realidade atráves de indicações de vídeos que lidem com conhecimentos e conteúdos que nos interessa aprofundar como também podem nos estimular a seguir para rumos mais extremistas. Também não podemos negar o poder que os algoritmos têm cada vez mais sobre nossas vidas de forma mais direta, seja na escolha de um emprego ou nas demandas do próprio trabalho (vide ifood), cada vez mais precarizado, fragmentado e desumanizado em favor de uma utopia tecnocrata.
Justamente devido a tudo isso que eu não vejo sentido em falar dos algoritmos apenas na perspectiva de usuário, é importante a gente compreender que o direcinamento dos algoritmos são dados por estratégias corporativas assim como a publicidade envolta deles tentam nos iludir sobre o que verdadeiramente são: ferramentas usadas por empresas.
Apesar de escândalos como as que envolvem o Facebook/Meta, é só a partir de relativo pouco tempo que começou um movimento de responsabilização das empresas, o mais comum ainda é tratar os algoritmos quase como forças na natureza, sem escolhas humanas incindindo sobre eles ou qualquer forma possível de controle, como um oráculo escondido dentro de uma caixa completamente vedada a não ser pelas determinações expedidas e que é confiado como o detentor da mais absoluta justiça, afinal os preconceitos, os abusos e tudo o mais de ruim que pode vir no trato humano são coisas exclusivamente humanas. É curioso como quem pensa assim ignora o fato de toda tecnologia que usamos ter sido criada por nós, humanos, e portanto há viés humano em tudo.
O problema da métrica
Existem muitas pesquisas e bons artigos falando do viés em algoritmos inteligentes, quase sempre partindo dos dados utilizados para o treinamento, o exemplo mais intenso e aparente disso é em relação a questões de gênero e raça: grande parte dos datasets de fotos de rostos são feitos a partir de buscas em mecanismos como google e bing, então a localização geográfica de quem faz as buscas assim como o seu idioma têm bastante relevância na qualidade dos resultados. Não é de espantar então que as fotos sejam em maioria de homens brancos e fotos de divulgação, tornando muitas vezes o algoritmo insuficientemente treinado, especialmente para mulheres negras.
Ainda que discutir sobre datasets e reconhecimento facial seja algo verdadeiramente relevante especialmente pelo uso na segurança pública, penso que deixamos passar o tempo de falar sobre sistemas de recomendação num sentido mais técnico assim como eu falei por alto no parágrafo anterior, no máximo há levantamentos mais estatísticos sobre os algoritmos da perspectiva dos usuários, em direcionar ou não conteúdos que tendem a afetar a saúde mental e a forma como discursos de direita ou de esquerda se espalham, também há o uso de sistemas de recomendação auxiliando juízes em suas decisões e tem sido cada vez mais comum o uso em empresas prestadoras de serviços de RH, obviamente com resultaqdos questionáveis, pois racismo estrutural também significa que há suporte institucional para que exista o comportamento racista, e dessa forma, se muitos mais negros são condenados por crimes menores do que brancos e se brancos têm maior preferência em serem contratados do que negros através dos mecanismos legais e institucionais que apoiam decisões tendo a cor da pele como parâmetro, obviamente os algoritmos irão replicar esse comportamento e isso se dá pela forma como é feito o treinamento e as métricas usadas para definir o que é ideal ou não, ou melhor dizendo, não importa o quanto os datasets de treinamento sejam equilibrados e minimamente enviesados (e na grande maioria das vezes para uso comercial eles não são), os dados para validação, ao se apoiar em situações reais, serão enviesados pois quem vai indicar se está servindo ou não como o esperado é enviesado.
Falar em ideal é importante aqui, e não falo num sentido abstrato, afinal no aprendizado supervisionado de máquina é preciso comparar o resultado do algoritmo durante o treinamento com o resultado esperado, e esse resultado pode ser realmente qualquer coisa: parte do dataset de treinamento que é separado para esta finalidade, como, dependendo do caso: escolhas de contratação ou decisões judiciais, um conjunto de usuários que experimentam o algoritmo durante o treinamento e a partir de métricas colhidas a partir do comportamento dos usuários o algoritmo é ajustado.
Obviamente são (ou deveriam ser) diferentes algoritmos para diferentes contextos, afinal um algoritmo usado para lidar com escolhas como aprovado ou desaprovado é diferente do algoritmo usado para estimar tempos de detenção com base no conteúdo dos altos processuais, e da mesma forma ambos são diferentes de um sistema de recomendação de conteúdo, onde não há linealidade nem temporalidade, apenas conteúdos que podem ser compreendidos de quase infinitas diferentes formas. E diante do que falei sobre o treinamento também é possível compreender outro aspecto contido nas métricas usadas para direcionar o próprio aprendizado de máquina: se o treinamento for baseado em acontecimentos passados, a tendência é que o algoritmo sirva à manutenção do comportamento passado, mas se for treinado a partir de métricas coletadas de usuários durante o treinamento, o algoritmo termina por expressar o ideal dos responsável por aquele sistema ou rede social, indicando o que eles esperam dos usuários. Por isso não se pode retirar a responsabilidade de quem define as coisas, seja na manutenção de decisões racistas ou na elevação da paranóia da extrema-direita.
Links relacionados:
- A cidade de Nova York regulamentou em Novembro deste ano (2021) ferramentas de seleção e recrutamento com uso de inteligência artificial por empregadores
- Uma pesquisa sobre viés e justiça em aprendizado de máquina bastante completa na enumeração e análise de diversos problemas ligados aos dados [em PDF]
- Artigo sobre princípios éticos em aprendizado de máquina e inteligência artificial
Como sempre, organizo links em canais no are.na, estes links acitados acima e outros que vou encontrando estão nestes links:
Escolhi o tema de cada parte para que a gente possa explorar as falhas dos algoritmos de fora para dentro, partindo do mais observável. Na próxima parte será sobre as limitações inerentes aos algoritmos, com foco na deep learning, isto é, nas redes neurais densas que normalmente são as que aparecem em grandes anúncios bombásticos como a tal IA que "criou" uma linguagem própria, ou o curioso caso da IA que "sonha". Garanto que será ainda mais interessante que esta primeira parte.
Até daqui a 2 semanas 😉