Análise e visualização de redes: o Gephi

Modelo de visualização por algoritmo  (mais modelos em https://gephi.org/features)
Modelo de visualização em Gelphi por algoritmos múltiplos (mais em https://gephi.org/features)

O desenvolvimento de novas formas de visualização de informações tem sido uma das áreas mais ativas nas humanidades digitais. Já comentamos, aqui no blog, as técnicas de representação textual em nuvens de palavras. Mas entre os projetos voltados para a manipulação de dados históricos, espaciais e textuais, destacam-se os que fazem uso de ferramentas baseadas em grafos para a visualização de redes.

A ferramenta para manipulação de grafos mais utilizada tem sido o Gephi, um software livre colaborativo mantido por um consórcio sediado na França, com  inúmeras aplicações em áreas como as ciências biológicas ou a economia – aqui, comentamos sua utilização em projetos ligados à história e à análise textual.

Um dos primeiros projetos a fazer uso do Gephi para dados históricos é o mapeamento da República das Letras – Maping the Republic of Letters, sediado na Universidade de Stanford.

Cartografia de “Mapping the Republic of Letters” (visualização de conexões)

O projeto, que se dedica ao estudo da formação da rede de correspondências entre letrados dos séculos XVII e XVIII, criou o banco de dados Electronic Enlightenment, composto por milhares de cartas (de fato, 55.000 cartas, envolvendo 6.400 correspondentes); em 2009, em colaboração com cientistas da computação, foi lançada uma plataforma para a visualização da rede formada pela troca dessa correspondência, usando Gephi. Como destacam D. Chang e colegas no artigo Visualizing the Republic of Letters, a manipulação dos dados para sua representação visual fundada em grafos envolve questões metodológicas e epistemológicas importantes – dentre as quais se destacaria a pergunta sobre seus impactos sobre a perspectiva interpretativa dos próprios cientistas humanos. De que modo esses acadêmicos treinados e experientes na leitura vertical e aprofundada de documentos isolados darão sentido aos padrões formados pela junção, em rede, de grandes conjuntos de dados? –  ou, nas palavras dos autores: “How can humanities scholars trained in close reading of individual documents make sense of patterns in large sets of data?”

Uma pergunta que pode ser tomada como o avesso dessa é a que guia algumas das pesquisas realizadas pelo Laboratório de Estudos sobre Imagem e Cibercultura (Labic) dedicadas a compreender os sentidos que se formam pela relação remissiva entre os pequenos textos que circulam hoje nas chamadas redes sociais.

TodaRede
Cartografia do Labic – “Dilma nas redes sociais: o fim da bipolaridade política e o desejo de radicalizar mudanças”

Também através da visualização em Gephi, algumas das “cartografias” de redes sociais realizadas no laboratório têm mostrado como as redes se formam em torno de alguns “nós” principais, que propõem, disseminam e moldam a circulação dos sentidos – em especial, no caso dos textos publicados no Twitter em torno de assuntos e figuras políticas (veja-se, por exemplo, Dilma nas redes sociais: o fim da bipolaridade política e o desejo de radicalizar mudanças). Os estudos sobre as redes sociais realizados neste laboratório, ativo desde 2008 na Universidade Federal do Espírito Santo, são exemplo de uma linha cada vez mais intensa de estudos ao redor do mundo sobre a circulação dos sentidos nas redes sociais (em especial, no campo da política), muitos deles lançando mão de ferramentas para visualização de dados em grafos (veja-se uma lista extensa na própria wiki do Gephi).

Na área dos estudos textuais de um modo mais geral, as técnicas de visualização em grafos têm sido aplicadas sobretudo em estudos voltados para grandes volumes de textos – para um exemplo muito interessante, veja-se o artigo Identifying the Pathways for Meaning Circulation using Text Network Analysis, de Dmitry Paranyushkin.

Grafo em "Identifying the Pathways for Meaning Circulation using Text Network Analysis", de Dmitry Paranyushkin
Grafo de uma rede de textos em “Identifying the Pathways for Meaning Circulation using Text Network Analysis”, de Dmitry Paranyushkin

Novamente, surge a questão da calibragem do olhar: o passo entre a perspectiva (digamos) mais fina pela qual filólogos, linguistas e críticos literários acostumaram-se a ler o texto, e a perspectiva (tentemos de novo) amplificada pela qual podemos, hoje, analisar grandes conjuntos de textos (de fato: pela qual podemos visualizar relações entre textos em grandes conjuntos) – é um passo que determinará uma nova leitura? Tratamos nisso outras vezes neste blog, neste post, e especialmente neste outro; há também uma discussão muito interessante sobre o assunto no blog The Dragonfly’s Gaze: Computational approaches to literary text analysis.

Para muitos, o uso de novas técnicas para manipular e apresentar grandes volumes de dados levam a novas possibilidades de análise – pois construir uma representação, naturalmente, é propor uma interpretação.  Assim, os projetos dessa área constituem um exemplo marcante da complexidade envolvida na relação entre as tecnologias digitais e as humanidades: as tecnologias computacionais são, ao mesmo tempo, “ferramentas úteis” na construção do conhecimento e determinantes da construção do conhecimento.

Links de interesse

Artigos

BASTIAN, M (2009), Gephi : An Open Source Software for Exploring and Manipulating NetworksAAAI Publications, Third International AAAI Conference on Weblogs and Social Media, retrieved 2011-11-22

CHANG, Daniel et al. (2009) Visualizing the Republic of Letters. http://www.stanford.edu/group/toolingup/rplviz/papers/Vis_RofL_2009

W. G. Thomas, III. Computing and the historical imagination. In Companion to Digital Humanities, eds. S. Schreibman, R. Siemens,
and J. Unsworth, Wiley-Blackwell, Malden, MA. 2008.

SINCLAIR, Stéfan (et al). Information Visualization for Humanities Scholars, In Literary Studies in the Digital Age, NY: Modern Language Association.

Páginas e tutoriais

Anúncios

Palavras, palavras, palavras…

Uma vez, uma criança muito curiosa que espiava por cima do meu ombro enquanto eu trabalhava na minha tese de doutorado me disse:

Mamãe, o seu trabalho é praticamente palavras! “.Cloud Palavras

Para todos nós que vivemos praticamente de palavras, o mundo digital abriu possibilidades imensas de investigação. As tecnologias de automatização da linguagem, surgidas no pós-guerra e fortemente centradas na pesquisa sobre tradução automática, deram saltos inimaginávies nos últimos anos. Uma das razões para isso, suspeito, é que o mundo se transformou num imenso corpus.

A interligação de computadores em rede – a internet, e mais fundamentalmente, a www – deu à luz a uma nova forma de textualidade, uma textualidade espalhada sobre o mundo, que recobre tudo com sua manta de palavras a serem apreciadas e investigadas.

Nuvem deste Blog, gerada no Tagul
Nuvem deste Blog, gerada no Tagul

Na última década, surge uma tecnologia especialmente interessante: as nuvens de palavras, ou tag clouds. As nuvens são uma forma de representação da importância de diferentes termos em um corpus – um texto específico, um conjunto de textos, ou mesmo um conjunto de conjuntos de texto (a internet, e sua manta de palavras espalhadas). A tecnologia por trás das nuvens é muito delicada, e envolve fórmulas matemáticas para calcular o peso relativo de cada termo com base em sua frequência e daí derivar sua importância na representação, por meio de tamanho de fonte, cor, etc.

Screen Shot 2013-05-10 at 9.13.59 AM
Nuvem deste blog, gerada no TagCrowd

As nuvens de palavras possibilitam inúmeras aplicações. A mais comum é a representação da importância de um conjunto de metadados em sites e blogs (como a que temos no nosso próprio blog). Entretanto, há também aplicações importantes em pesquisas nas áreas de linguística e ciência da informação.

Um exemplo fascinante é a pesquisa realizada por um grupo de físicos brasileiros, comentada no intrigante artigo “A vida das Palavras”, na Revista da Fapesp de junho de 2011. Esse trabalho, que pretende investigar como o uso das palavras numa comunidade evolui com o tempo, usa as nuvens para construir representações de seus resultados.

Nuvem de “A vida das palavras”, Revista Fapesp

Outro campo no qual a técnica das nuvens vem sendo utilizada é na educação, como sugerem por exemplo o blog 21st Century Educational Technology and Learning, e o blog da plataforma de aplicativos para a sala de aula Knewton, com exemplos muito interessantes.

Nuvem dos presidentes americanos - exemplo do Knewton.com
Nuvem dos presidentes americanos – exemplo do Knewton.com

O uso das nuvens na educação é facilitado pelo surgimento de inúmeros aplicativos gratuitos que oferecem a possibilidade de criação de nuvens de palavras a partir de qualquer texto, de modo fácil, intuitivo (e bastante divertido), como o Tagul, o TagCrowd, o Word it out, o Tag Cloud Generator, ou todos esses outros sugeridos no blog 21st Century Educational Technology and Learning.

Assim, as nuvens de palavras parecem encerrar possibilidades ainda não imaginadas, e talvez nem mesmo vislumbradas pelos criadores da técnica.

Quem sabe essas novas possibilidades podem surgir da imaginação das crianças de hoje –  que, talvez, passem a gostar de fazer trabalhos que são, praticamente, palavras.

O que é um MOOC?

Os “MOOCs”  – cursos online abertos e dirigidos a um público amplo (na sigla inglesa para Massive Online Open Course) – têm se multiplicado em  ritmo acelerado pela rede nos últimos anos. O ano de 2012, por sinal, foi apelidado de “o ano do MOOC” por diversos blogs e redes sociais, inspirando também algumas reportagens na mídia impressa.

A rápida disseminação dessa forma de acesso ao conhecimento nos coloca diversas questões interessantes: os MOOCs são mais uma ‘onda’ da internet, ou são exemplos de novas e revolucionárias formas de relação com o conhecimento? Para podermos debater isso, vamos começar fazendo um perfil geral desse estilo de aprendizagem “à distância”.

Portal de MOOCs, Berkeley http://webcast.berkeley.edu/
Portal de MOOCs, Berkeley

Em primeiro lugar importa notar uma certa diversidade dentro daquilo a que se denomina um “MOOC”. De fato, existem MOOCs ligados a programas universitários (como os de Harvard, de Yale, da UCLA/Berkeley e do pinoneiro MIT) e MOOCs independentes (como aqueles encontrados no Udacity e no Blackboard). Ainda, entre os MOOCs das grandes universidades, existem aqueles inteiramente abertos à participação do público, e aqueles dirigidos aos alunos da universidade (ou, ao menos, a alunos inscritos e cadastrados), que resultam em certificados e “créditos”, como qualquer disciplina “presencial”.

edX
Plataforma edX

Além disso, é interessante notar que alguns cursos são realizados em plataformas de Acesso Aberto sem fins lucrativos (emblematicamente, a edX, que abriga os cursos do MIT, de Harvard e de Berkeley, por exemplo); outros são encontrados em plataformas fechadas que visam lucro (como a Coursera, que inclui os cursos de Princeton e Stanford, e a Blackboard). Entretanto, mesmo nas plataformas privadas, os cursos são gratuitos para quem os assiste – o lucro vem da compra de softwares ou do aluguel da plataforma, da parte de empresas que desejem montar cursos.

Na comunidade original dos idealizadores dos MOOCs, entretanto, a vocação da ideia é para o acesso aberto irrestrito e sem visar o lucro. É esse o ideário que segue sustentando as grandes plataformas abertas, como a edX – fundada por pesquisadores do MIT e de Harvard que tanto oferecem cursos como pesquisam as formas de ensino-aprendizado em rede. Esses pesquisadores lançaram o edX em 2012 justamente como reação política à crescente comercialização dos provedores de MOOCs.

Vídeo do curso "The hero in ancient greek civilization", Prof. Gregory Nagy, Harvard.
Vídeo do curso “The hero in ancient greek civilization”, Prof. Gregory Nagy, Harvard

Quanto ao formato dos cursos, os MOOCs podem incluir basicamente três tipos de atividades (todas em rede, é claro): apresentações gravadas em vídeo, fóruns de discussão e atividades de avaliação. As tecnologias envolvidas nas atividades de avaliação renderiam, por si sós, um novo post (em alguns casos, incluem a realização de provas em casa, com monitoramento por câmeras). Entretanto, tipicamente um MOOC é composto pelo material em vídeo e pela plataforma interativa, muitas vezes sem a atividade avaliativa  – é o caso da maioria dos cursos independentes, ou seja, não ligados a Universidades, e que não “certificam” os alunos.

Assim, fundamentalmente, o que distinguiria um MOOC de uma palestra gravada e disponível online – e mesmo, das plataformas dedicadas à divulgação de palestras online, como a famosa TED – é que um MOOC é desenhado para ser uma experiência interativa.

Vídeo do curso "Einstein for the masses", de Yale, disponível no YouTube
Vídeo do curso “Einstein for the masses”, Prof. Ramamurti Shankar, Yale, disponível no YouTube (com 111.085 acessos)

O interessante, para a nossa discussão, é que os MOOCs de conteúdo aberto, mesmo quando são originalmente produzidos por instituições de ensino tradicionais, acabam se desvinculando das suas “almas-mãe” originais. Essa perda de vínculo se pode medir, inclusive, pelo fato de que muitos cursos preparados nas plataformas “oficiais” acabam disponíveis em portais gerais, como o YouTube, onde podem ser acessados ainda mais amplamente  – e muitas vezes, de forma desconectada em relação aos demais conteúdos preparados por quem idealizou o curso.

Assim, seja nas plataformas abertas, seja simplesmente no YouTube, qualquer pessoa com acesso à internet (e à língua inglesa…) pode assistir, por exemplo, aos vários cursos online preparados por professores de universidades de elite dos EUA, como Harvard ou Yale, sem ter nenhum tipo de ligação com essa universidade. Esse internauta, natuaralmente, não terá um “certificado” por ter “cursado essa disciplina“… Mas, ao que parece (por exemplo, pelo alto número de acessos que alguns cursos têm no YouTube), grande parte das pessoas que assistem aos cursos online não tem nos diplomas seu maior objetivo.

É isso o que leva alguns a declararem que os MOOCs são mais que uma onda, uma moda da internet – representariam, de fato, uma tendência para o futuro da relação das pessoas com o conhecimento.

http://www.youtube.com/watch?v=eW3gMGqcZQc
“What is a MOOC?” – Dave Cormier

Essa é, por exemplo, a perspectiva do educador Dave Cormier, explicada neste vídeo:

“Um MOOC é um curso aberto, participativo, distribuído e aberto – não é simplesmente um curso online, é um evento em torno do qual pessoas que se interessam por determinado assunto se reúnem e refletem sobre esse assunto”.

Se abraçarmos essa perspectiva dos MOOCs como nova forma de busca pelo conhecimento (bastante disseminada nos debates na rede), teremos aspectos muito interessantes a considerar. A possibilidade de acesso às “aulas” de forma irrestrita e desvinculada de outros materiais didáticos,  por exemplo, significa que as escolhas pendem muito fortemente para o lado do “aluno” – a escolha dos assuntos, da ordem pela qual serão tratados, das “aulas” que precisam ser assistidas e das que não precisam. Assim, quase que podemos questionar a denominação “cursos”, já que essas experiências de aprendizado não dependem de um programa pré-estabelecido, ou seja, não configuram exatamente um “curso” (= caminho) programado por um professor.

Assim, vou precisar fechar o post com a pergunta que comecei: afinal – o que é um MOOC?


Lista de Links

Exemplos de Moocs em grandes universidades:

Plataformas:

Reportagens

Sistemas de Informação e Acervos Digitais de Cultura


Seminário Internacional Sistemas de Informação e Acervos Digitais de Cultura

De 11 a 13 de março de 2013, no Auditório István Jancsó da Biblioteca Mindlin (USP), a Secretaria de Políticas Culturais do MinC realiza o “Seminário Internacional Sistemas de Informação e Acervos Digitais de Cultura”, com a presença da ministra Marta Suplicy na mesa de abertura.

O Seminário propõe reunir gestores públicos e privados, pesquisadores e comunidade acadêmica interessados em sistemas de informações culturais com interfaces colaborativas e arranjos de integração para acervos digitais de bibliotecas, arquivos e museus.

O presente evento dialoga diretamente com o “Simpósio Internacional de Políticas Públicas para Acervos Digitais”, realizado pelo MinC e pela Brasiliana USP em 2010.

Veja a programação do evento e outras informações no sitehttp://culturadigital.br/acervosdigitais/

As Humanidades e as tecnologias digitais: Uma provocação inicial

Maria Clara Paixão de Sousa


Ramelli, Agostino, 1531-ca. 1600. Le diverse et artificiose machine del capitano Agostino Ramelli
Ramelli, Agostino, 1531-ca. 1600. Le diverse et artificiose machine del capitano Agostino Ramelli… Beinecke Library, Yale

O estabelecimento das tecnologias digitais como ambiente de difusão da informação trouxe desafios importantes para as disciplinas ligadas às humanidades. O maior deles, talvez, seja o de  lidarmos com uma forma de organização da escrita e da leitura absolutamente nova, pois artificialmente mediada – falo de artifícios lógicos, e não mecânicos (como os idealizados por humanistas como Ramelli), por isso inéditos.

Continue Lendo “As Humanidades e as tecnologias digitais: Uma provocação inicial”