A IA que traduz tablets cuneiformes de 5.000 anos

Tradução não é simplesmente uma questão de trocar uma palavra por uma palavra correspondente em outro idioma. Uma tradução de alta qualidade requer que o tradutor entenda como ambas as línguas unem pensamentos e, em seguida, use esse conhecimento para criar uma tradução que mantenha as nuances linguísticas do original, que os falantes nativos entendem sem esforço.

Por mais difícil que seja esse processo, não é nada comparado ao desafio de traduzir uma língua antiga para uma língua moderna. Esses tradutores devem não apenas ressuscitar línguas extintas a partir de fontes escritas, mas também ter conhecimento íntimo de como as culturas que produziram essas fontes evoluíram ao longo dos séculos. Como se não bastasse, suas fontes são muitas vezes fragmentadas, deixando o contexto crucial perdido para os tempos.

Por causa disso, o número de pessoas capazes de traduzir línguas da antiguidade é pequeno, e seus melhores esforços são muitas vezes superados pelo volume de textos descobertos por arqueólogos.

Vejamos um exemplo bem antigo: o acadiano era uma língua semítica primitiva das mais usadas no mundo antigo (e quando falo “antigo” é antigo mesmo para os padrões de “Mundo Antigo”). O acadiano era a língua materna do Império Acádio, que surgiu por volta de 2300 A.E.C. através das conquistas de seu fundador, Sargão, o Grande. Como língua falada, o acadiano acabaria se dividindo em dialetos assírios e babilônicos antes de ser completamente suplantado pelo aramaico no início do primeiro milênio A.E.C. Hoje, é uma língua verdadeiramente extinta, sem sequer línguas filhas para continuar o seu legado.

Centenas de milhares, segundo alguns relatos mais de um milhão, textos acadianos foram descobertos e hoje estão em museus e universidades. Muitos, inclusive, foram digitalizados e estão disponíveis online. Cada um tem o potencial de nos ensinar sobre a vida, a política e as crenças das primeiras civilizações, mas esse conhecimento permanece preso ao tempo e à mão de obra necessários para traduzi-los.

Para ajudar a mudar isso, uma equipe multidisciplinar de arqueólogos e cientistas da computação desenvolveu uma inteligência artificial que pode traduzir o acadiano quase instantaneamente e desbloquear o registro histórico preservado nesses tablets de 5.000 anos.

Como língua escrita, no entanto, o acadiano mostrou-se mais duradouro. O império de Sargão tomou emprestada a escrita cuneiforme de sua antecessora, a civilização suméria. Este sistema de escrita usava uma caneta de junco para imprimir glifos em forma de cunha em pastilhas de argila úmidas antes de cozinhá-las (daí o nome cuneiforme, que literalmente significa “em forma de cunha” em latim). Mesmo depois que o aramaico suplantou o acadiano como língua comum da região, os estudiosos continuaram a escrever em cuneiforme acadiano até o século I E.C. – mesmo na antiguidade, ao que parece, estudiosos e acadêmicos eram incrivelmente teimosos.

Essa mentalidade tradicional também teve um benefício não intencional para os arqueólogos modernos. Enquanto cuneiforme podia ser escrito em papiro, era mais frequentemente escrito em argila ou pedra. Esses materiais resistem muito melhor aos incêndios e inundações que devastaram seus pares piedosos. E embora o tempo seja cruel com todas as coisas – os arqueólogos raramente descobrem tábuas cuneiformes em condições de menta – esta é uma das razões pelas quais a escrita acadiana pode ser tão bem atestada no registro histórico.

Mesmo com tamanha riqueza linguística, traduzir adequadamente essas bibliotecas antigas não é pouca coisa. Além dos desafios já mencionados, a língua acadiana é polivalente. Ou seja, seus signos cuneiformes podem ter várias leituras diferentes dependendo de como cada um funciona em uma frase. Há muitas razões para esse desenvolvimento, mas, de acordo com Fischer, uma razão pela qual os acádios nunca simplificaram foi que eles pareciam estar ligados à tradição e a uma eficiência autoimposta”. Essa mentalidade tradicional os levou a continuar usando a escrita suméria para uma língua muito diferente da suméria. (Quando se trata de erudição histórica, você ganha alguns, perde alguns.)

Como tal, traduzir o acadiano é um processo de duas etapas. Primeiro, os estudiosos devem transliterar os sinais cuneiformes. Ou seja, eles pegam o cuneiforme e o reescrevem usando a fonética de som semelhante da língua-alvo. Um exemplo com o qual a maioria dos leitores estará familiarizada é a palavra árabe الله, que se traduz em inglês como “Deus”, mas se traduz como “Alá”. Esta transliteração é o mais próximo que o alfabeto latino pode chegar de produzir a palavra como ela soa em árabe. Os estudiosos, então, pegam sua transliteração do texto e o traduzem para uma linguagem moderna.

Como você pode imaginar, esse pode ser um processo longo e trabalhoso – que leva anos de treinamento e dedicação para aprender a fazer bem. Para ajudar a acelerar as coisas, a equipe de pesquisa desenvolveu um modelo de tradução automática neural para cuneiforme acadiano, a mesma tecnologia sob o capô do Google Tradutor.

A equipe treinou o modelo de IA em uma amostra de textos cuneiformes do Open Richly Annotated Cuneiform Corpus e o ensinou a traduzir de duas maneiras distintas. Primeiro, o modelo de IA aprendeu a traduzir o acadiano a partir de transliterações dos textos originais. Também aprendeu a traduzir símbolos cuneiformes diretamente. Mais especificamente, ele traduziu glifos Unicode de textos cuneiformes que foram gerados por outra ferramenta que produz automaticamente Unicode a partir de uma imagem de um tablet original.

O modelo de IA então teve que descobrir como lidar com as nuances dos vários gêneros da amostra – por exemplo, a diferença entre obras literárias e cartas administrativas – bem como lidar com as mudanças encontradas na escrita cuneiforme ao longo dos milênios em que foi usada. O modelo de IA foi então testado usando o bilingual evaluation understudy 4 (BLEU4), um algoritmo usado para avaliar texto traduzido por máquina.

Em sua transliteração para o teste de inglês, o modelo de IA da equipe marcou 37,47. Na prova cuneiforme de inglês, obteve nota 36,52. Ambos os escores estavam acima de sua linha de base alvo e na faixa de uma tradução de alta qualidade. E houve um resultado surpreendente: o modelo foi capaz de reproduzir as nuances do gênero de cada frase de teste. Embora esse não tenha sido um dos objetivos do pesquisador, eles observam no estudo que isso pode abrir possibilidades para usos além da tradução.

A pesquisa foi publicada na PNAS

2 comentários em “A IA que traduz tablets cuneiformes de 5.000 anos”

Pingback: Artigos da Semana 189 | Ceticismo, Ciência e Tecnologia
Pingback: Melhores artigos de 2024 parte 1 | Ceticismo, Ciência e Tecnologia

Ceticismo, Ciência e Tecnologia

Porque você quer saber!!

A IA que traduz tablets cuneiformes de 5.000 anos

2 comentários em “A IA que traduz tablets cuneiformes de 5.000 anos”

Deixe um comentário, mas lembre-se que ele precisa ser aprovado para aparecer. Cancelar resposta

Compartilhe

Relacionado

2 comentários em “A IA que traduz tablets cuneiformes de 5.000 anos”

Deixe um comentário, mas lembre-se que ele precisa ser aprovado para aparecer. Cancelar resposta