Desenvolvido por pesquisadores da Universidade Federal do ABC (UFABC), visa construir ferramentas computacionais capazes de extrair informações de documentos históricos. Acompanhe a descrição de Ronaldo Prati, da UFABC, sobre o projeto:
"Como as pessoas se relacionam? Em que lugares sem encontram? O que fazem juntas? Hoje em dia, com o advento de redes sociais virtuais como Facebook, Twitter, LinkedIn, etc, muitas dessas iterações ficam registradas e podem ser utilizadas para estudar fenômenos sociais, como a primavera árabe, Ocupy Wall Street, entre outros, a partir dos registros em redes sociais.
Entretanto, o estudo de fenômenos históricos é mais difícil pois requer a análise de documentos históricos para encontrar essas iterações. Esse processo é demorado, pois requer a análise manual desses documentos. Além disso, algumas situações, como o período da ditadura militar brasileira, tem uma grande quantidade de documentos, e muitos deles ainda estão inexplorados.
Nesse projeto de pesquisa, desenvolvido por pesquisadores da Universidade Federal do ABC (UFABC), visamos construir ferramentas computacionais (programas) capazes de extrair informações de documentos históricos. O objeto é construir uma “rede social histórica” a partir dos documentos disponíveis digitalmente, identificando pessoas, instituições, datas, etc., e seus relacionamentos em eventos, lugares, interesses, etc.
Para isso, precisamos “ensinar” o computador a analisar esses documentos para extrair essas informações. Nessa primeira etapa, estamos treinando o computador a transcrever as fotografias das fichas para texto, para na segunda fase extrairmos as informações. E para uma maior efetividade, o computador deve ser treinado/ensinado a reconhecer as letras das fichas por meio de exemplos... muitos exemplos! A ideia é que quanto mais transcrições nós conseguirmos, melhor o computador aprenderá. E você pode nos ajudar a criar essa base de exemplos!
Como posso ajudar?
A partir de uma amostra de 500 fichas (existem mais de 400 mil) do DEOPS - Departamento de Ordem Política e Social do Estado de São Paulo, construímos uma base inicial de exemplos maneira automática. Mas como os programas não foram treinados a partir de documentos datilografados (como é o caso das fichas do DEOPS), e também não funcionam bem com o português, eles tem muitos erros de transcrição. Por isso, precisamos da sua colaboração. Você pode ajudar corrigindo algumas dessas transcrições, para que possamos ajustar/calibrar nossos modelos/programas.
Você receberá um pedaço (uma linha) de uma dessas 500 fichas junto com a transcrição atual (automática, com erros), e poderá corrigir a transcrição e nos enviar. Foi assim que o Google Maps, por exemplo, usou fotografias dos números das casas para melhorar seus mapas e sistemas de navegação (você já deve ter digitado os caracteres que aparecem em uma imagem para acessar algum site na internet).
Colaborem com quantas transcrições forem possíveis e compartilhem para que mais pessoas possam ajudar. Ao final do projeto, disponibilizaremos as informações extraídas na internet para que pesquisadores e interessados possam utilizá-las para entender melhor esse período da nossa história.
Para mais informações, você pode entrar em contato pelo e-mail: