Escrito por R. Jerry Hobbs
Perspectives na lingüistica computacional
Os lingüistas computacionais estudam línguas naturais, tais como inglês e japonês, melhor que línguas de computador, tais como o Fortran, o Snobol, o C++, ou o Java. O campo da lingüistica computacional tem dois alvos:
Do ponto de vista tecnologico, há, amplamente falando, três usos para a língua natural em aplicações de computador:
·
O tecnologico. Para permitir computadores de ser usado como dae (dispositivo automático de entrada) em analisar e em processar a língua natural.·
O psicológico. Para compreender, pela analogia com computadores, mais sobre o processo natural da lingua dos povos.·
Relações da língua natural ao software. Por exemplo, os sistemas da demonstração foram construídos que deixaram um usuário com um microfone pedir informação sobre vôos comerciais da linha aérea--um tipo do agente de viagens automatico.·
Extração da recuperação e da informação de original do texto escrito. Por exemplo, um sistema computatorizado poderia fazer a varredura dos artigos de jornal ou da alguma outra classe dos textos, procurando a informação sobre eventos de um tipo particular e participá-los em uma base de dados que fizesse que a quem, e quando e a onde.·
Tradução de máquina. Os sistemas computatorizados hoje podem produzir traduções ásperas dos textos de um japonês da língua por exemplo, a uma outra língua, tal como o inglês.·
Os lingüistas computacionais que adotam o perspective psicológico hypothesize que em algum nível abstrato, o cérebro é um tipo do computador biológico, e que uma resposta adequada a como os povos compreendem e geram a língua deve estar nos termos formais e precisos bastante para ser modelado por um computador.Problemas na lingüistica computacional
De ambos os perspectives, um lingüista computacional tentará desenvolver um jogo de réguas e de procedimentos, por exemplo para reconhecer a estrutura sintática das sentenças ou para resolver as referências dos pronomes.
Um dos problemas os mais significativos em processar a língua natural é o problema da ambigüidade. As ambigüidades são pervasivas em falados e em textos escritos. A maioria de ambigüidades escapam de nossa observação porque nós somos muito bons em resolver que usam nosso conhecimento do mundo e do contexto. Mas os sistemas computatorizados não têm muito conhecimento do mundo e não fazem um trabalho bom de empregar o contexto.
Aproximações à ambigüidade
Os esforços para resolver o problema da ambigüidade focalizaram em duas soluções potenciais: knowledge-based e estatístico.
Na aproximação knowledge-based, os colaboradores do sistema devem codificar o conhecimento muito sobre o mundo e desenvolver procedimentos para usá-lo em determinar o sentido dos textos. A vantagem desta aproximação é que é mais como a língua do processo dos povos da maneira e assim mais provável ser bem sucedido a longo prazo. As desvantagens são que o esforço requerido para codificar o conhecimento necessário do mundo é enorme, e que os procedimentos sabidos para usar o conhecimento são muito inefficient.
Na aproximação estatística, um corpus grande de dados anotados é requerido. Os colaboradores do sistema escrevem então os procedimentos que computam as definições mais prováveis das ambigüidades, dados as palavras ou as classes da palavra e outras circunstâncias fàcilmente determinadas. Por exemplo, se pôde coletar triplicar-se do Palavra-Preposição-Substantivo e aprender que o <saw, com telescope> é mais freqüente no corpus do que se triplicar <man, com telescope> e <park, com telescope>. As vantagens desta aproximação são que, uma vez que um corpus anotado está disponível, pode ser feito automaticamente, e é razoavelmente eficiente. As desvantagens são que os corpora anotados requeridos são frequentemente muito caros criar e que os métodos renderão as análises erradas onde a interpretação correta requer a consciência de fatores contextuais.