São Paulo (AUN - USP) - Dizer “eu te amo” para alguém no Brasil é algo normal, mas em Portugal, apesar da compreensão da pessoa amada do que isso quer dizer, a frase vai soar muito estranha, da mesma forma que um “eu amo-te” pronunciado aqui. Houve um momento na evolução da língua portuguesa européia em que o idioma deixou de ser eminentemente proclítico, com a colocação de pronomes antes do verbo, para se tornar predominantemente enclítico, com colocação pronominal posterior ao verbo. É esse ponto de mudança que a pesquisa liderada pelo departamento de Lingüística da Universidade Estadual de Campinas (Unicamp) e que tem como importante membro o Instituto de Matemática e Estatística (IME) da USP quer descobrir.
O projeto, denominado Tycho Brahe, em homenagem a um astrônomo dinamarquês que definiu córpus de observação celeste, trabalha exatamente com a construção de córpus, que, neste caso, são o conjunto de textos em língua portuguesa dos séculos XVI a XIX, suscetíveis a apresentações e processamentos variados.
De acordo com Marcelo Finger, professor do IME e participante do projeto, os textos históricos utilizados no projeto para analisar a variação lingüística do idioma de Camões “não podem dispensar processamento e editoração”, já que a língua portuguesa teve um processo de normatização tardio e os textos eram muito próximos da oralidade, como cartas ou sermões.
Camões, por sinal, é um ótimo indicador da mudança dos padrões de fala dos portugueses. “Os gramáticos reclamavam que ninguém mais conseguia declamar Camões em Portugal”, afirma Finger. Esse fenômeno, no qual a métrica da declamação ficou comprometida, tem a ver com o enfraquecimento das vogais pré-tônicas. Exemplo: “ministro” é pronunciado “mnistro” e “telefone”, “tlfone”. A mudança na prosódia, o ritmo da fala, pode ter causado a alteração sintática que trocou o pronome de posição, e é essa a tese defendida no projeto, ainda não provada, mas também não descartada.
Técnicas de análise
Para provar essa tese, o uso de ferramentas de software é imprescindível, seja para a organização ou agilização dos córpus. Primeiramente, faz-se a etiquetagem morfossintática dos termos encontrados nos textos de análise, ou seja, a relação de cada palavra com sua respectiva classe gramatical. Esse processo já foi quase completado na pesquisa. O grau máximo de acerto dos melhores programas dessa área é de quase 97%, e o programa desenvolvido pelo Tycho Brahe está em 95,5%, um valor muito bom em termos de usabilidade.
Em um segundo momento, é feita a etiquetagem sintática, a análise sintática dos termos. Tal parte do projeto “dá muito trabalho para fazer”, segundo Finger, e incentiva a aplicação de novas técnicas estatísticas. Além disso, todas as atividades feitas pelo software têm de ser verificadas manualmente.
O objetivo final do projeto é por meio da análise sintática, que permitiu achar as regras gramaticais geradoras das sentenças proclíticas, e, posteriormente, das enclíticas, o momento em que tal mudança ocorreu.
Por fim, ainda há a análise da prosódia, dos registros de fala que comprovem a hipótese de mudança dos padrões lingüísticos do português europeu. Como não há gravações do português falado no século XVI, o português brasileiro, que ainda usa o “eu te amo”, é a referência nesse campo muito polêmico entre lingüistas. O córpus, de acesso público mediante cadastro, está em http://www.ime.usp.br/~tycho/.