Reflexões Sobre Web Semântica
Eu realmente queria desejar um tranquilo e feliz ano novo, mas se fizesse isso seria só de prache, afinal este é um ano eleitoral e sabemos bem a quantidade de coisas que estão à nossa frente, seja com a variante Omicron, seja continuando o embalo de epidemias com a gripe, sabe-se lá quantos escândalos por todos os lados vão surgir dentro e fora do Brasil. Esse ano tem de tudo para ser recheado de acontecimentos, então seria bem mais sincero desejar calma, solidez nas escolhas e ações e que 2023 finalmente seja um ano tranquilo depois de um ano que tudo indica ser de transição [espero de verdade que não ocorra algo inesperado como ocorre com tanta frequência na história do Brasil]. É isso, força a todos!
Admito meio frustrado que ainda não iniciei os planos de expansão deste projeto de discussão sobre tecnologia, é como se o isolamento social estivesse me desacostumado de explicar as coisas verbalmente, espero que ao longo dessas semanas eu consiga superar essas barreiras e iniciar os experimentos mais próximos do ambiente de produção de vídeos e talvez como podcast (mas nada tão longo como 1 hora ou mais, pelo menos, ainda não).
Sou realmente muito grato a todo o apoio que recebo para a continuidade desse projeto, e falo isso num sentido amplo, incluindo todas as pessoas que conversam comigo sobre estes temas, todos que contribuem de forma mais técnica ao me ajudar com minha imperícia e desatenção com tudo ligado a web (sempre foi meu ponto fraco quando se trata de engenharia de software). embora dinheiro seja aquela coisa... não é bom, eu não gosto nem da idéia (se eu pudesse, viveria numa comuna), mas por estar inserido numa sociedade capitalista, é necessário e nem há escolhas, por isso toda doação financeira ao geleia de menta é muito bem vinda, especialmente para a expansão e maior autonomia deste e de projetos futuros [[ 😉 PIX 👈]].
Nas últimas edições desta newsletter tenho falado basicamente sobre a forma como somos direcionados a consumir conteúdos de determinada forma e sobre... não sei bem adequar a este contexto, não me parece certo falar em falhas conceituais do uso de algoritmos, mas eles são peças importantes na implementação da política econômica de empresas que disputam a atenção dos usuários à similaridade de Estados que buscam expandir seu domínio através de sua presença hegemônica. O capítulo de hoje dessa história toda se volta aos dados e à compreensão deles.
Reflexões Sobre Web Semântica
Meses atrás escrevi um texto que em dado momento falei de como as big techs dominam o visual e, consequentemente, a usabilidade de aplicativos e sites. Na ocasião citei o material design e fluent design, que respectivamente são do Google e da Microsoft. Semana passada falei por alto de outro aspecto do controle das plataformas, que de acordo com suas políticas, criam e matam formatos, modelam a forma como criadores de conteúdo se comunicam, delimitando o quê e como eles podem se expressar, além de criar um abismo artificial entre criadores e consumidores em meio a um modelo econômico. Quando escrevi estes textos eu não pensei que formariam alguma série ou algo do tipo, mas é inegável que é o que está se tornando, e ao inserir microformats neste site, ficou claro para mim mais um capítulo dessa história: a disputa territorial pela web semântica. Primeiro, tenho de explicar o que é isso...
Como tudo o que envolve internet/tecnologia/computadores e outras coisas da moda, o nome sugere algo mais complicado do que realmente é, e neste caso é só padrões inseridos no html das páginas ou como código em javascript que facilitam a compreensão do conteúdo de uma página por uma máquina. Trocando em miúdos, se trata apenas de marcar onde estão as informações nas páginas pela internet para que computadores de mecanismos de busca, redes sociais, agregadores dos mais diversos conteúdos, grupos de pesquisa, etc. possam indexar com mais facilidade essas informações. Por isso o termo "web semântica", se trata de compreender as informações, dando sentido, oferecendo um contexto. Justamente por isso é que este é um território em disputa, o modelo de negócios de todas as big techs dependem de coletar e direcionar informações e ao impor um padrão que obedeça aos seus interesses, significa não ceder a outros que disputam o mesmo espaço entre anunciantes.
Estamos acostumados a usar o termo "anunciantes" no sentido de comerciais de TV, mas atualmente, na dinâmica das redes comerciais, isso tem outro sentido completamente diferente, há outros atores na jogada disputando por visibilidade e atenção, até pessoas comuns, na necessidade que sentem de corresponder à aceitação social segundo o mecanismo ditado por likes e outros dados de engajamento. Muita gente paga para ter maior alcance nas redes, e se ao falarmos de capitalismo é já lugar-comum dizer que na lógica de mercado todos nós somos produtos comercializados, aqui talvez caiba falar bem brevemente de Lukács, que ao definir o que é reificação, dizia que a pessoa trabalhadora se enxerga como uma coisa que é vendida no mercado de trabalho, escolhida pelo departamento de recursos humanos, que avalia continuamente seu funcionamento na engrenagem de produção da empresa. Bauman, ao falar de consumo, tangencia isso, já que a lógica do consumo leva isso a outro nível quando converte até relações puramente humanas a uma relação de consumo, e daí a crítica mais interessante ao nosso assunto hoje: qual o real significado de "amigo" no facebook? A relação real que se tem dentro da rede não é a da convivência, nem é uma relação de via dupla onde pessoas se apoiam, mas é uma relação de consumo e obviamente só consumimos aquilo que nos dá prazer de alguma forma, então o amigo que te alerta que as coisas não são bem como você imagina e te ajuda a colocar a cabeça no lugar e a até a ser uma pessoa melhor não pode existir neste contexto. Seguimos pessoas pelo conteúdo que elas publicam e deixamos de seguir quando aquilo exibido não representa nossa visão de mundo, enfim, é uma pura relação de consumo. Por isso que eu digo a muito tempo que não acredito na utilidade de diálogo em redes sociais do tipo, elas não foram feitas para se poder dialogar, mas para gerar/coletar dados e servir à economia baseada no consumo e atenção.
Acho que não preciso explicar mais da importância estratégica que é o uso da web semântica, mas ela em si tem algumas complicações, entre elas, a falta de uniformidade entre padrões abertos, enfim, não há padrões que ganharam tanta popularidade ao ponto de se sobrepor a outros. E depois de passar algumas semanas pesquisando a respeito e implementando no geleiadementa.com, me parece improvável que algum formato vença a corrida no futuro próximo. Falo com esse ar entre revolta e decepção porque todos nós já vimos várias vezes a mesma história, e o próprio nascimento do W3C (o consórcio que regula a internet) nasceu de uma situação dessas. Talvez o caso mais relevante a ser citado aqui sejam as décadas das guerras de protocolo, quando na falta de regulação sobre padrões abertos e especialmente por cada país e empresas disputarem a hegemonia sobre alguns dos elementos mais básicos na comunicação entre computadores (os protocolos). É realmente interessante como, apesar de quase sempre não nos darmos conta porque nada disso é noticiado, estamos sempre em meio a algum tipo de guerra, muitas vezes sem armas de fogo, mas sempre com muito poder político e econômico no meio. Se a AT&T tivesse ganhado a guerra dos protocolos, possivelmente a internet teria muito pouco a ver com o que é hoje, o monopólio sobre a internet seria inimaginável tanto em questões econômicas, mas principalmente políticas, já que tudo seria feito apenas de acordo com as determinações da empresa e seguindo estritamente os seus interesses. Para comparar, seria como usar a API ou outros serviços de alguma grande empresa, como o facebook que pode exigir explicações detalhadas de aplicativos que usam a sua Graph API mas que na prática apenas elimina concorrência demarca a centralização sobre o acesso aos dados. Com protocolos a coisa é ainda mais complicada, como se trata de algo bem de base para qualquer máquina e aplicação, absolutamente tudo dependeria de autorização da empresa.
Com web semântica as coisas não são tão extremas assim, é só mais uma das muitas guerras já travadas e por estar acontecendo agora, acho que vale a pena discutir um pouco sobre isso, especialmente na perspectiva envolta do que importa para nós, usuários. Para isso me parece relevante comparar a prática com o discurso e para isso sou obrigado a falar da mítica web 3.0. Mas antes tenho de fazer uma ressalva: essas terminologias como web 2.0, 1.0, etc. são atribuídas por jornalistas, que por algum motivo acabam se popularizando e caindo no imaginário popular ao ponto que se tornam quase como norteadores de investimentos em tecnologias, e por isso mesmo não devemos considerar tão a sério esses termos, nem isenta-los de influências ideológicas, políticas e até econômicas através de algum teor publicitário. Prefiro fazer a leitura desses artigos igual se faz a leitura de uma ficção, que como já falei antes, é mais uma expressão da época e da perspectiva de quem escreve do que algo realmente sobre tecnologia e o futuro, entre os desejos expressos estão os problemas identificados no presente e o que pode ser o motivo de alguma angústia, também pode ser a expressão de uma utopia altamente ideológica ou um posicionamento político. De modo geral, sobre a tal web 3.0 o que há em comum é a descentralização, o que pode significar muita coisa, mas muito especialmente, algo próximo ao nada.
No caso em questão, os ensaios e colunas mais antigas falam em descentralização, afinal a motivação para existir web semântica e outras tecnologias como os protocolos que permitem a existência de redes federadas como as que populam o fediverso é exatamente a descentralização, ou seja: uma ação contrária a como a internet se tornou, basicamente ambientes criados por empresas que centralizam toda a existência dos usuários na rede. Entre outras possibilidades da web semântica, está a criação de sites, blogs, canais, etc. que se comunicam uns com os outros de forma transparente e sem plataformas intermediárias, o problema disso é que isso não cabe na lógica de mercado, do contrário o beaker browser teria maior popularidade, haveria mais intenção de usar redes p2p como componentes essenciais dos serviços como no caso do peertube e no mínimo teríamos redes sociais que interagem mais umas com as outras sem se prender tanto a plataformas e empresas, o que existe apenas no fediverso. Então se formos pensar no que existe de mais tecnológico e avançado de fato neste sentido, pensando em recursos e estrutura, falaríamos só de coisas inteiramente distantes de big techs, como o mastodon, a indieweb, etc. Aliás, acho que a indieweb é o melhor exemplo que existe de web semântica aplicado para os usuários, quando o Open Graph é certamente um dos piores exemplos não apenas por replicar o que já existe com microformats e RDF só que privatizando o uso, mas especialmente pelo teórico incentivo ao uso: criar cards bonitinhos nos links que aparecem nas redes do facebook/Meta.
Eu sei, foi muito texto para uma introdução mas é isso que o conteúdo de hoje foi até este ponto.
Pensando num projeto futuro...
Obs.: por enquanto falarei apenas a nível teórico, a prática será no blog, dividida em postagens que vou fazendo ao longo do tempo de acordo com cada etapa de implementação do projeto.
Acho que a esta altura minha indignação tá mais do que clara e como muitos já perceberam, faz uns meses que penso num projeto que envolve justamente web semântica e tudo começou por causa de um texto que li voltado para a área de ciência da informação que falava em outras formas de questionar o que é importante para ser lido, o que passa necessariamente pela ontologia (e sobre isso falarei melhor mais à frente), mas que aqui vou restringir a apenas um dos seus sentidos, pensando na forma como o conhecimento e obras que lidam com esses conhecimentos são organizadas e podem se tornar mais ou menos acessíveis dependendo das várias formas diferentes que podemos apresenta-las e indexa-las. Enfim, é um problema recorrente quando pensamos em sites de busca e é justamente essa a ferida que penso em fazer sangrar.
Já critiquei várias vezes como com o tempo nos prendemos a um formato que se resume basicamente ao feed, a uma lista, forçando uma perspectiva temporal ou categórica ao que não é realmente assim. Transformando numa tábua os conteúdos pela internet ou até dentro de plataformas, onde tudo é inteiramente inter-relacionado, tudo é ligado a tudo pois todos nós vivemos (ao menos teoricamente) no mesmo mundo e lidando com as mesmas questões por mais diferentes que sejam nossas perspectivas. A noção de internet como rede me parece que tende a se perder no scroll infinito de conteúdos recomendados, então me parece justo e adequado que para criar algo que se oponha a essa forma de pensar sobre os conteúdos na internet, seja necessário pensar em outra forma, e para mim nada mais adequado que grafos para representar a relação entre conteúdos e permitir uma navegação espacial entre as coisas. Falo em coisas porque assim daria para agregar links para as mais diversas fontes (sites pessoais, plataformas de mídias, até redes sociais), absolutamente sem se restringir a formatos.
Justamente por isso web semântica tem me interessado tanto, consistindo para mim como formas de poder compreender esses conteúdos como um grande conjunto de dados que tem entre si diferentes relações, e pessoalmente me interessa bem mais buscar temas envolvidos em certo contexto do que apenas tal tema discutido num podcast, por exemplo, de modo que um canal sobre viagens falar de Barcelona não tem nada a ver com um podcast sobre futebol com um episódio falando sobre a atuação do Barcelona F.C. no Campeonato Espanhol, o que permite que a gente identifique as diferenças na hora de buscar algo é exatamente o contexto e do conjunto de contextos analisados, podemos identificar algo mais além disso: como os dados se relacionam de forma geográfica, com territórios mais ou menos bem definidos e padrões entre as abordagens, criando grandes regiões temáticas. Seguindo o exemplo anterior: uma grande região sobre futebol, uma grande região sobre viagens, uma grande região sobre história. E é aqui que entra a ontologia.
Ontologia
Há 3 diferentes sentidos ligados a diferentes áreas: filosofia, ciência da informação e ciência da computação (este último ainda me parece meio nebuloso sob alguns aspectos, talvez porque muita coisa ainda está se definindo).
Na filosofia, ontologia se refere aos tipos de coisas que existem, ou seja, paradigmas de compreensão das coisas, onde a classificação muitas vezes é uma expressão dessa compreensão.
Na ciência da informação, junta-se a noção filosófica com outras de linha linguística e até mesmo lógica, embora nem sempre usando o termo "ontologia". É importante falar da importância de Wittgenstein aqui no que se refere a sistemas de recuperação de informação, ou seja, se debruçando sobre sistemas de busca por informações.
E na ciência da computação, podemos até mesmo falar que é uma aplicação computacional de teorias e métodos nascidos na ciência da informação mas acrescidos de engenharia de software e outros conhecimentos ligados à implementação em máquinas.
Estas explicações são realmente tão breves que podem conter erros, então se alguém quiser, pode falar comigo nas redes sociais para corrigir isso, estou me baseando fortemente neste artigo: Almeida, Maurício Barcellos. "Uma abordagem integrada sobre ontologias: Ciência da Informação, Ciência da Computação e Filosofia." Perspectivas em Ciência da Informação 19.3 (2014): 242-258.
Alguns pontos interessantes aqui é que:
- nos acostumamos tanto a depender de computadores que temos a impressão da computação centralizar tudo, eu acho que tem uma inversão de ordem aí, a implementação em larga escala é algo bem próprio das possibilidades da computação, mas toda a teoria vem sendo trabalhada a milênios desde as primeiras bibliotecas e obras escritas. E espero que isso não seja lido como "nós somos o produto de toda a evolução de tudo, o ápice do desenvolvimento tecnológico", absolutamente não é este o sentido, o mundo não gira envolta da computação, mas a computação se vale de coisas de outras áreas para criar seus produtos, no máximo daria para dizer que a computação corre envolta de outras áreas.
- Algo lógico mas completamente não percebido na perspectiva de usuário muito por causa do simplismo das interfaces e das escolhas dadas aos usuários, é que internamente os algoritmos, sejam de busca ou os que definem o feed do youtube por exemplo, lidam com essa representação espacial dos dados a partir dos metadados inseridos pelos usuários, sejam consumidores ou produtores de conteúdos, o problema é que na falsa alegação de simplificar a vida do usuário com coisas mais objetivas, na verdade o scroll infinito e o controle direto sobre o que o usuário ver, assim sem transparência nenhuma, é fundamental para o modelo de negócios dessas empresas, a baixa qualidade de muitos resultados, e muitas vezes sua aspecto tendencioso, importam às plataformas.
Conhecimento e Comunicação
O Reddit foi realmente muito sagaz ao se declarar a "frontpage da internet", pensar sobre isso é principalmente dar voltas em torno das mudanças em torno do que a internet significou ao longo do tempo e sobre como acessamos e lidamos com este espaço completamente impossível de dimensionar para quem encara apenas a materialidade da relação humano-sites. Em tese ainda é tudo sobre informação e comunicação, e acho que é bem claro para todo mundo como o formato da wikipedia convida à exploração de diversos temas que nem imaginávamos ter alguma relação, mas quando buscamos algo no youtube, em grande parte das vezes ficamos apenas no scroll infinito em meio a recomendações de outros vídeos que já vimos e muitos conteúdos que nem tem relação com o que buscamos.
Até mesmo falar assim, com esses exemplos, indica um significado mais recente do que é a internet, quando nosso tráfego de dados fica fortemente concentrado em produtos de big techs, tornando nossa experiência estrita a ambientes privados, controlados. Há uma passividade inerente à posição determinada aos usuários que impede enxergar diferentes níveis de comunicação entre os próprios conteúdos de consome. De uma imagem como a da Ágora, um caótico ambiente recheado de sites pessoais e foruns, cada vez nos aproximamos mais da verticalidade da TV. Tenho completa noção de que este projeto que ainda não tem nome, nem face ainda vai na contramão de tudo, por isso mesmo vale a pena tanto esforço, especialmente sobre esses fundamentos teóricos, já que sem teoria, a prática não se sustenta.
Links Relacionados:
- Novellino, Maria Salet Ferreira. "A linguagem como meio de representação ou de comunicação da informação." Perspectivas em ciência da informação 3.2 (1998).
- [youtube] Aula 2.3: Dados Abertos, Web Semântica e Exercícios | Introdução a Ontologias e à Web Semântica
- este é um link que tem no vídeo acima: https://lod-cloud.net/, é uma proposta bem interessante de explorar datasets abertos.