A Rede Semântica (i)

Este post inaugura uma série de discussões sobre “web semântica“, “informações ligadas” e suas interrelações. Vamos começar com um exemplo ilustrativo das possibilidades para o trabalho com remissões entre objetos digitais, a partir das Cartas sobre os elementos de Botanica, de J.J. Rousseau, obra traduzida para o português e impressa na Tipografia do Arco do Cego em 1801, com diversas versões atualmente disponíveis na internet.

A história editorial das Cartas é muito interessante: sua tradução portuguesa, por exemplo, tem por origem a tradução inglesa  – fato incomum na passagem do século XVIII para o XIX – e é atribuída a “uma senhora desta corte” – fato também incomum na época.

Atualmente, há cinco exemplares representativos dessa trajetória disponíveis em bibliotecas digitais do Brasil, de Portugal, da Inglaterra e da Suíça. Isso é ótimo, já que a obra suscita diversos pontos de interesse de pesquisa para os quais o exame desses diversos exemplares pode ser central (por exemplo, um estudo sobre a trajetória da tradução portuguesa), e que portanto se beneficiariam imensamente da possibilidade de remissão recíproca entre as versões portuguesas, a inglesa e as francesas, ilustrada no Diagrama 1.

Diagrama 1: Ligações entre objetos digitais de repositórios variados – as Cartas de Botânica de Rousseau (Clique aqui para ver a legenda dos objetos no diagrama)

A teia de remissões entre as edições eletrônicas disponíveis do livro e suas traduções, ilustrada acima, entretanto, é uma ficção. Na realidade, para pesquisar o conjunto ilustrado no Diagrama, um estudioso precisaria enfrentar um mar de informações pulverizadas.

De fato, embora cada um desses objetos esteja disponível em formato digital, o conjunto da tradição da obra não está ligado entre si na rede, mas sim pulverizado, como se tratassem de objetos desconectados entre si. Observe-se o quadro abaixo, que mostra os resultados de pesquisas em um buscador regular de internet sobre a obra.

Resultados de buscas na internet – Buscador Google

Cada um dos livros apontados acima aparece como resultado das buscas para o título na língua usada na tradução; entretanto, em nenhum caso os cinco livros mostrados no diagrama acima aparecem unidos entre os resultados. Uma pesquisa “casada”, unindo os três títulos, resulta nula.

Dessa forma, encontrar as obras acima se torna uma tarefa de dias – e é o pesquisador quem precisa tecer novamente, com seus conhecimentos, a rede que originalmente uniu os cinco objetos digitais acima ilustrados.

Esse pequeno exemplo ilustra a realidade que se pode observar quanto aos acervos digitais de um modo mais geral hoje: temos à disposição uma imensa quantidade de objetos digitalizados, mas pouquíssimos deles se encontram ligados entre si. O que temos, ao fim e ao cabo, é uma constelação de objetos dispersos pela “internet”. O tecido que une muitos desses objetos não está explicitado; eles se misturam a inúmeros outros, mas nunca encontram um ao outro.

Construir uma rede de informações ligadas significaria explicitar este tecido, de modo que esses objetos possam remeter uns aos outros, e possam ser encontrados em um só movimento de busca.

Essa perspectiva da ligação de informações entre diferentes objetos digitais pode ser expandida em diferentes direções e aprofundada em diversos graus; um grau mais profundo de ligação, por exemplo, incluiria as informações contidas no interior dos objetos. O Diagrama 2 ilustra algumas relações entre elementos internos do exemplar das Cartas disponível na Brasiliana Digital:

Diagrama 2: Ilustração de remissões entre três páginas de Cartas sobre os Elementos de Botânica. (clique na imagem para ampliar)

Observe-se aí que a Estampa 1 (i), sua página de  legenda (ii) e o texto da página 29 (iii) apresentam diversas relações recíprocas, cuja percepção se nos torna evidente com um breve golpe do olhar: há uma gravura representando uma flor e suas partes, uma legenda que explica cada uma dessas partes, e uma página que discorre sobre essa flor e suas partes; percebemos que a flor é um “lírio”, ou ainda, uma “flor lilácea” de nome científico “lilium candidum”. De fato, as relações entre os objetos representados no Diagrama são tão evidentes, que parece ocioso apontá-las.

Entretanto, por mais óbvias que sejam para o leitor humano, tais relações são absolutamente impenetráveis pela leitura de um programa de computador. Para serem legíveis por uma programação computacional, essas relações precisariam estar explicitadas – e a anotação semântica cumpre justamente esta tarefa.

Assim, “anotar semanticamente” o pequeno grupo de objetos retratado acima consistiria em tornar legíveis pela programação computacional as relações recíprocas que observamos naturalmente. Explicitaríamos assim, em linguagem artificial, as relações entre objetos (por exemplo, entre [ii], a página de legenda, e [i], a página da gravura); as relações entre termos (relações de identidade – por exemplo, entre “Lilium Candidum” de [ii] e “Lilium Candidum” de [iii]; relações de pertencimento – “Lilium Candidum” e “Liliaceas”; etc.); e as relações entre objetos e termos (por exemplo, explicitando que a gravura [i] descreve o termo “Lilium Candidum”). Podemos também descrever computacionalmente a ligação entre os objetos e os termos de texto deste grupo em relação a objetos e termos externos (por exemplo, as obras em outros acervos ilustradas no Diagrama 1). Por fim, podemos agregar informações aos objetos ou termos do texto (por exemplo, compondo um verbete biográfico sobre o naturalista Carlos Lineu e ligando-o ao termo “Linne” da página [iii]).

Essas informações seriam armazenadas em três instâncias: anotadas em uma versão em código de cada um dos objetos, [i], [ii] e [iii]; listadas em uma “ontologia” ou guia de remissão; e incluída nas instruções de programação que pudessem percorrer os objetos e a ontologia em busca de associações remissivas. Estaria assim formada uma pequena rede de “informações ligadas”.

Assim rudimentarmente descrito, este exemplo de rede de ligações se assemelha bastante a um sistema normal de hipertexto, já que também num texto “hiperligado” qualquer, podemos acessar, por meio de certos termos especialmente anotados (“hiperlinks”), outras instâncias deste mesmo termo em outros textos, e podemos fazer buscas por “objetos” digitais a partir da utilização de palavras-chave em sistemas de buscas regular, que percorrerão tanto textos que contenham os termos de busca, como textos que estejam descritos por estes  termos de busca (i.e., que os contenham entre seus metadados). De fato, o funcionamento de web-semântica se assemelha até certo ponto a esse funcionamento do hipertexto regular (ambos fundados na anotação de objetos e de desenvolvimento de programas de busca), mas é diferenciado quanto à inteligência das anotações e quanto à complexidade da programação de indexação para buscas.

Na busca simples ao hipertexto regular, a remissão se dá apenas entre termos idênticos (i.e., [flor] > [flor]), ou entre termos horizontalmente relacionados (i.e., [flor] > [flor], [açucena], [pétala], [angiosperma], [botânica], [perfumada], [Lineu], …). Já a busca em redes de informações ligadas, entretanto, pode ser organizada para remeter termos semanticamente relacionados entre si.

Aí está a chave do funcionamento de Web-semântica: uma ontologia preparada pelos construtores da rede formará a relação semântica entre os diferentes termos, afirmando por exemplo que um termo é uma classe maior onde se insere o outro termo ([Liliaceas] para [Lilium Candidum]); um assunto tratado pelo outro termo ([botânica] para [Lineu]); uma qualidade do outro termo ([perfumada] para [flor]), etc.

Como se nota, essas redes funcionam, simplesmente, como tesauros – são, de fato, tesauros computacionalmente arquitetados, nos quais a ligação entre os termos e objetos pode ser semanticamente classificada: ligações de identidade ([lillium candidum] – [Lillium candidum]), pertencimento ([lillium candidum] – [liliaceae]), menção ([Linne] – [Carta 1]), etc., formando assim um sistema remissivo semântico. Paralelamente, compõe-se uma ontologia, ou seja, um registro das informações possíveis num universo determinado (onde se listam os tipos de ligação: {idêntico a}, {pertence a}, {citado em}, etc.), e uma programação capaz de acessar as anotações e decodificá-las de acordo com a ontologia.

Por fim, notemos um ponto importante: para poderem se constituir como informações ligadas, os termos de um texto ou dos metadados de descrição de um objeto digital precisam ser anotados em relação a uma ontologia concebida, como vimos; e nesses dois passos – a anotação de cada instância e a concepção da ontologia – reside o elemento humano da construção das redes de informações ligadas.

Em outras palavras, e voltando ao exemplo das informações ligadas acima (Diagrama2), alguém precisa anotar [Açucena] como um tipo de [flor], [botânica] como assunto de [Lineu] – e mais: [Lineu] como {Carlos Lineu, naturalista sueco…}. Nessa anotação, portanto, mobilizam-se conhecimentos especializados; e, se saímos do nosso exemplo relativamente simples, veremos que, quanto mais sofisticada a rede semântica a ser formada, e quanto mais complexos os temas tratados nos textos a serem transformados em informações ligadas, mais especializados devem ser os conhecimentos do anotador.

Assim, para formar acervos consistentes de informações ligadas, é preciso mobilizar, de um lado, conhecimentos advindos da computação, e, de outro lado, das disciplinas acadêmicas dedicadas aos temas tocados pelas informações ligadas.

Mas isso já é tema para um próximo post.


Legenda dos objetos no diagrama 1 – Lista dos exemplares digitalizados das Cartas:
[1] Cartas sobre os elementos de Botanica. Tradução Portuguesa,1801, Lisboa, Arco do Cego (na Brasiliana USP)
[2] Cartas sobre os elementos de Botanica. Idem (na Biblioteca Nacional de Portugal)
[3] Letters on the elements of botany .Tradução inglesa,1787, Londres, B. White and son (na Universidade de Oxford, via Google Books)
[4] Lettres élémentaires sur la botanique. Edição de 1789, Paris, Poinçot (na Universidade de Lausanne, via Google Books)
[5] Lettres élémentaires sur la botanique. Edição de 1802, Bruxelas, J.L. de Boubers (na Universidade de Lausanne, via Google Books)

(voltar ao topo)

 

Anúncios

Uma opinião sobre “A Rede Semântica (i)”

Comentários?

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s