Filologia e Linguística computacional

Os projetos Edições Filológicas na Brasiliana Digital, conduzidos entre 2009 e 2012, tinham por meta a extroversão do acervo digital da Biblioteca Brasiliana Guita e José Mindlin para estudos linguísticos e filológicos.

O principal alvo das pesquisas foi a melhoria dos resultados do processo de reconhecimento automático de caracteres (OCR) aplicado às obras da Biblioteca, que atingiam apenas 40% de acerto nos textos do acervo impressos nos séculos XVI a XVIII. Para conduzir os projetos, onze obras impressas em português entre 1595 e 1900, selecionadas por apresentarem elevado grau de desafio para o reconhecimento automático, foram editadas eletronicamente. Em cada uma delas, o resultado do processamento automático foi manualmente corrigido, e em casos selecionados, os textos corrigidos foram usados para treinar o software de OCR Abbyy Finereader 10.0, chegando-se a um aumento de até 86% de acertos. Os textos foram ainda integralmente adaptados à ortografia atual, e receberam diferentes camadas de anotação linguística e filológica, pelo sistema de edição eletrônica e-Dictor.

Os principais produto dos projetos são os onze textos corrigidos e editados, e um glossário de erros de reconhecimento automáticos, que estão disponíveis para futuras pesquisas dedicadas ao aumento na qualidade da digitalização de obras impressas em português entre os anos 1500 e 1800.

Entre 2009 e 2012, os projetos contaram com 14 bolsas de Iniciação científica, com o apoio do Programa Ensinar com Pesquisa da Universidade de São Paulo, da Biblioteca Brasiliana Guita e José Mindlin e do CNPq.

Projetos terminados:

  • Edições Filológicas na Brasiliana Digital: Construção de um corpus de informações ligadas. Programa Ensinar com Pesquisa, Universidade de São Paulo (2012).
  • Edições Filológicas e o Processamento automático de textos: Um estudo acerca de obras historiográficas portuguesas. Márcia de Aparecida Santos Mendes, Iniciação Científica, FUSP (2012).
  • Estudo acerca da ‘Carta sobre as coisas naturais de São Vicente’, de José de Anchieta. Lucas Lopes Giron, Iniciação Científica, FUSP (2012).
  • Edições Filológicas e Processamento automático de textos na Brasiliana Digital. Programa Ensinar com Pesquisa, Universidade de São Paulo (2011).
  • Edições Filológicas na Brasiliana Digital. Programa Ensinar com Pesquisa, Universidade de São Paulo (2010).
  • Tratamento de imagens e estrutura textual no reconhecimento automático de caracteres. Mariana Cristine de Almeida, Iniciação Científica, FUSP, Universidade de São Paulo (2010).
  • A Trajetória editorial da obra de Gabriel Soares de Sousa: aspectos linguísticos e filológicos. Bruna Baldini de Miranda, Iniciação Científica, CNPq – DLCV – USP (2009-2010).

Corpus

[lista das obras editadas – 2010 a 2013]