Inglês - Tradução de um Texto
Por: wc games • 19/4/2021 • Trabalho acadêmico • 800 Palavras (4 Páginas) • 117 Visualizações
Traduzir línguas perdidas usando o aprendizado de máquina
Sistema desenvolvido no MIT CSAIL visa ajudar linguistas a decifrar línguas que se perderam na história. Adam Conner-Simons | MIT CSAIL 21 de outubro de 2020
Pesquisas recentes sugerem que a maioria das línguas que já existiram não são mais faladas. Dezenas dessas línguas mortas também são consideradas perdidas, ou "indecifráveis" - isto é, não sabemos o suficiente sobre sua gramática, vocabulário ou sintaxe para realmente compreender seus textos.
Línguas perdidas são mais do que mera curiosidade acadêmica; sem eles, perdemos todo um corpo de conhecimento sobre as pessoas que os falaram. Infelizmente, a maioria deles tem registros tão mínimos que os cientistas não conseguem decifrá-los usando algoritmos de tradução automática como o Google Translate. Alguns não têm uma linguagem "relativa" bem pesquisada para serem comparados e, muitas vezes, não têm divisores tradicionais, como espaço em branco e pontuação. (Para ilustrar, imagine-se tentando decifrar um idioma estrangeiro escrito nele.)
No entanto, pesquisadores do Laboratório de Ciência da Computação e Inteligência Artificial do MIT (CSAIL) recentemente fizeram um grande desenvolvimento nessa área: um novo sistema que demonstrou ser capaz de decifrar automaticamente uma linguagem perdida, sem a necessidade de procedimentos avançados conhecimento de sua relação com outras línguas. Eles também mostraram que seu próprio sistema pode determinar relações entre línguas e o usaram para corroborar estudos recentes que sugerem que a língua do ibérico não está realmente relacionada ao basco.
O objetivo final da equipe é que o sistema seja capaz de decifrar línguas perdidas que iludiram os lingüistas por décadas, usando apenas algumas milhares de palavras.
Liderado pela Professora Regina Barzilay do MIT, o sistema se baseia em vários princípios
com base em percepções da linguística histórica, como o fato de que as línguas geralmente só evoluem de certas maneiras previsíveis. Por exemplo, embora um determinado idioma raramente adicione ou exclua um som inteiro, é provável que ocorram certas substituições de som. Uma palavra com um "p" no idioma pai pode mudar para um "b" no idioma descendente, mas mudar para um "k" é menos provável devido à lacuna significativa de pronúncia.
Ao incorporar essas e outras restrições linguísticas, Barzilay e o estudante de doutorado do MIT Jiaming Luo desenvolveram um algoritmo de decifração que pode lidar com o vasto espaço de transformações possíveis e a escassez de um sinal de orientação na entrada. O algoritmo aprende a incorporar os conteúdos da linguagem
em um espaço multidimensional onde as diferenças de pronúncia são refletidas na distância entre os vetores correspondentes. Este projeto permite que eles capturem padrões pertinentes à mudança de linguagem e os expressam como restrições computacionais. O modelo resultante pode segmentar palavras em um idioma antigo e mapeá-los para contrapartes em um idioma relacionado.
O projeto se baseia em um papel que Barzilay e Luo escreveram no ano passado que decifrou as línguas mortas do ugarítico e do Linear B, o último dos quais havia levado décadas para os humanos decifrarem. No entanto, a principal diferença com esse projeto foi que a equipe sabia que esses idiomas estavam relacionados às primeiras formas de hebraico e grego, respectivamente. Com o novo sistema, a relação entre as linguagens é inferida pelo algoritmo. Essa questão é um dos maiores desafios da decifração. No caso da Linear B, levou várias décadas para descobrir o descendente conhecido correto. Para o ibérico, os estudiosos ainda não chegaram a um acordo sobre a língua relacionada: alguns defendem o basco, enquanto outros refutam esta hipótese e afirmam que o ibérico não se reporta a nenhuma língua conhecida.
...