Falando de Ingles - com Dr. Abrahamson


Escrito por R. Jerry Hobbs

 

Perspectives na lingüistica computacional

Os lingüistas computacionais estudam línguas naturais, tais como inglês e japonês, melhor que línguas de computador, tais como o Fortran, o Snobol, o C++, ou o Java. O campo da lingüistica computacional tem dois alvos:

Do ponto de vista tecnologico, há, amplamente falando, três usos para a língua natural em aplicações de computador:

·

O tecnologico. Para permitir computadores de ser usado como dae (dispositivo automático de entrada) em analisar e em processar a língua natural.

·

O psicológico. Para compreender, pela analogia com computadores, mais sobre o processo natural da lingua dos povos.

·

Relações da língua natural ao software. Por exemplo, os sistemas da demonstração foram construídos que deixaram um usuário com um microfone pedir informação sobre vôos comerciais da linha aérea--um tipo do agente de viagens automatico.

·

Extração da recuperação e da informação de original do texto escrito. Por exemplo, um sistema computatorizado poderia fazer a varredura dos artigos de jornal ou da alguma outra classe dos textos, procurando a informação sobre eventos de um tipo particular e participá-los em uma base de dados que fizesse que a quem, e quando e a onde.

·

Tradução de máquina. Os sistemas computatorizados hoje podem produzir traduções ásperas dos textos de um japonês da língua por exemplo, a uma outra língua, tal como o inglês.

·

Os lingüistas computacionais que adotam o perspective psicológico hypothesize que em algum nível abstrato, o cérebro é um tipo do computador biológico, e que uma resposta adequada a como os povos compreendem e geram a língua deve estar nos termos formais e precisos bastante para ser modelado por um computador.

Problemas na lingüistica computacional

De ambos os perspectives, um lingüista computacional tentará desenvolver um jogo de réguas e de procedimentos, por exemplo para reconhecer a estrutura sintática das sentenças ou para resolver as referências dos pronomes.

Um dos problemas os mais significativos em processar a língua natural é o problema da ambigüidade. As ambigüidades são pervasivas em falados e em textos escritos. A maioria de ambigüidades escapam de nossa observação porque nós somos muito bons em resolver que usam nosso conhecimento do mundo e do contexto. Mas os sistemas computatorizados não têm muito conhecimento do mundo e não fazem um trabalho bom de empregar o contexto.

Aproximações à ambigüidade

Os esforços para resolver o problema da ambigüidade focalizaram em duas soluções potenciais: knowledge-based e estatístico.

Na aproximação knowledge-based, os colaboradores do sistema devem codificar o conhecimento muito sobre o mundo e desenvolver procedimentos para usá-lo em determinar o sentido dos textos. A vantagem desta aproximação é que é mais como a língua do processo dos povos da maneira e assim mais provável ser bem sucedido a longo prazo. As desvantagens são que o esforço requerido para codificar o conhecimento necessário do mundo é enorme, e que os procedimentos sabidos para usar o conhecimento são muito inefficient.

Na aproximação estatística, um corpus grande de dados anotados é requerido. Os colaboradores do sistema escrevem então os procedimentos que computam as definições mais prováveis das ambigüidades, dados as palavras ou as classes da palavra e outras circunstâncias fàcilmente determinadas. Por exemplo, se pôde coletar triplicar-se do Palavra-Preposição-Substantivo e aprender que o <saw, com telescope> é mais freqüente no corpus do que se triplicar <man, com telescope> e <park, com telescope>. As vantagens desta aproximação são que, uma vez que um corpus anotado está disponível, pode ser feito automaticamente, e é razoavelmente eficiente. As desvantagens são que os corpora anotados requeridos são frequentemente muito caros criar e que os métodos renderão as análises erradas onde a interpretação correta requer a consciência de fatores contextuais.

 

This Feed is Powered by My RSS Creator.com