Filologia e Linguística computacional

Corpus

[lista das obras editadas – 2010 a 2013]

Os projetos Edições Filológicas na Brasiliana Digital tinham por meta era a extroversão do acervo digital da Biblioteca Brasiliana Guita e José Mindlin para estudos linguísticos e filológicos.

Os projetos foram conduzidos entre 2010 e 2013 com o apoio do Programa Ensinar com Pesquisa da Universidade de São Paulo, e seu principal alvo foi a melhoria dos resultados do processo de reconhecimento automático de caracteres (OCR) aplicado às obras da Biblioteca, que atingiam apenas 40% de acerto nos textos do acervo impressos nos séculos XVI a XVIII.

Para conduzir os projetos, onze obras impressas em português entre 1595 e 1900, selecionadas por apresentarem elevado grau de desafio para o reconhecimento automático, foram editadas eletronicamente. Em cada uma delas, o resultado do processamento automático foi manualmente corrigido, e em casos selecionados, os textos corrigidos foram usados para treinar
o software de OCR Abbyy Finereader 10.0, chegando-se a um aumento de até 86% de acertos.

Os textos foram ainda integralmente adaptados à ortografia atual, e receberam diferentes camadas de anotação linguística e filológica, pelo sistema de edição eletrônica e-Dictor.

Como resultado dos projetos, além dos textos assim editados, contamos ainda com um glossário de erros de reconhecimento, que estão disponíveis para futuras pesquisas dedicadas ao aumento na qualidade da digitalização de obras impressas em português entre os anos 1500 e 1800.

Projetos terminados:

  • Edições Filológicas e o processamento automático de textos: Um estudo acerca de obras historiográficas portuguesas. Márcia de Aparecida Santos Mendes, Iniciação Científica, FUSP.
  • Estudo acerca da Carta sobre as coisas naturais de São Vicente, de José de Anchieta. Lucas Lopes Giron, Iniciação Científica, FUSP.
  • Edição digital da primeira gramática tupi do Brasil. Renato da Silva Fonseca, Iniciação Científica.
  • Edições Filológicas na Brasiliana Digital: Construção de um corpus de informações ligadas. Programa Ensinar com Pesquisa, Universidade de São Paulo (2012).
  • Edições filológicas e processamento automático de textos na Brasiliana Digital. Programa Ensinar com Pesquisa, Universidade de São Paulo (2011).
  • Edições filológicas na Brasiliana Digital. Programa Ensinar com Pesquisa, Universidade de São Paulo (2010) – Textos editados neste projeto
  • Tratamento de imagens e estrutura textual no reconhecimento automático de caracteres. Mariana Cristine de Almeida, Iniciação Científica, FUSP, Universidade de São Paulo (2010)
  • A trajetória editorial da obra de Gabriel Soares de Sousa: aspectos linguísticos e filológicos. Bruna Baldini de Miranda, Iniciação Científica, CNPq – DLCV – USP (2009-2010)