AI - Processamento de linguagem natural

O Processamento de linguagem natural (PNL) refere-se ao método de IA de comunicação com sistemas inteligentes usando um idioma natural como o inglês.

O processamento da linguagem natural é necessário quando você deseja que um sistema inteligente como o robô execute conforme suas instruções, quando deseja ouvir a decisão de um sistema de especialistas clínicos baseado em diálogo, etc.

O campo da PNL envolve fabricar computadores para executar tarefas úteis com as linguagens naturais que os humanos usam. A entrada e saída de um sistema PNL pode ser -

  • Discurso
  • Texto escrito

Componentes da PNL

Existem dois componentes da PNL, conforme indicado -

Entendimento de linguagem natural (NLU)

O entendimento envolve as seguintes tarefas -

  • Mapeando a entrada fornecida em linguagem natural em representações úteis.
  • Analisando diferentes aspectos da linguagem.

Geração de linguagem natural (NLG)

É o processo de produção de frases e frases significativas na forma de linguagem natural a partir de alguma representação interna.

Envolve -

  • Planejamento de texto - inclui a recuperação do conteúdo relevante da base de conhecimento.

  • Planejamento de sentenças - Inclui a escolha de palavras necessárias, a formação de frases significativas e o ajuste do tom da sentença.

  • Realização de texto - está mapeando o plano de sentenças na estrutura da frase.

O NLU é mais difícil que o NLG.

Dificuldades em NLU

NL tem uma forma e estrutura extremamente rica.

É muito ambíguo. Pode haver diferentes níveis de ambiguidade -

  • Ambiguidade lexical - está no nível muito primitivo, como no nível das palavras.

  • Por exemplo, tratando a palavra "quadro" como substantivo ou verbo?

  • Ambiguidade de nível de sintaxe - Uma frase pode ser analisada de diferentes maneiras.

  • Por exemplo, “Ele levantou o besouro com tampa vermelha.” - Ele usou a tampa para levantar o besouro ou ele levantou um besouro com tampa vermelha?

  • Ambiguidade referencial - Referindo-se a algo usando pronomes. Por exemplo, Rima foi para Gauri. Ela disse: "Estou cansado." - Exatamente quem está cansado?

  • Uma entrada pode significar significados diferentes.

  • Muitas entradas podem significar a mesma coisa.

Terminologia da PNL

  • Fonologia - É um estudo de organização sistemática do som.

  • Morfologia - É um estudo da construção de palavras a partir de unidades significativas primitivas.

  • Morfema - É a unidade primitiva de significado em um idioma.

  • Sintaxe - Refere-se a organizar as palavras para formar uma frase. Também envolve determinar o papel estrutural das palavras na frase e nas frases.

  • Semântica - preocupa-se com o significado das palavras e como combinar as palavras em frases e sentenças significativas.

  • Pragmática - trata do uso e compreensão de sentenças em diferentes situações e de como a interpretação da sentença é afetada.

  • Discurso - Trata de como a sentença imediatamente anterior pode afetar a interpretação da próxima sentença.

  • Conhecimento Mundial - Inclui o conhecimento geral sobre o mundo.

Etapas na PNL

Existem cinco etapas gerais -

  • Análise Lexical - Envolve identificar e analisar a estrutura das palavras. Léxico de um idioma significa a coleção de palavras e frases em um idioma. A análise lexical está dividindo todo o pedaço de texto em parágrafos, sentenças e palavras.

  • Análise sintática (análise) - envolve a análise de palavras na frase para gramática e o arranjo de palavras de uma maneira que mostre a relação entre as palavras. A frase como "A escola vai para o garoto" é rejeitada pelo analisador sintático inglês.

Etapas da PNL
  • Análise Semântica - Desenha o significado exato ou o significado do dicionário do texto. O texto é verificado quanto a significado. Isso é feito através do mapeamento de estruturas e objetos sintáticos no domínio da tarefa. O analisador semântico desconsidera sentenças como "sorvete quente".

  • Integração de Discurso - O significado de qualquer sentença depende do significado da sentença logo antes dela. Além disso, também traz o significado da sentença imediatamente seguinte.

  • Análise Pragmática - Durante isso, o que foi dito é reinterpretado sobre o que realmente significava. Envolve derivar os aspectos da linguagem que requerem conhecimento do mundo real.

Aspectos de implementação da análise sintática

Existem vários algoritmos que os pesquisadores desenvolveram para análise sintática, mas consideramos apenas os seguintes métodos simples:

  • Gramática livre de contexto
  • Analisador de cima para baixo

Vamos vê-los em detalhes -

Gramática livre de contexto

É a gramática que consiste em regras com um único símbolo no lado esquerdo das regras de reescrita. Vamos criar gramática para analisar uma frase -

"O pássaro bica os grãos"

Artigos (DET) - a | um | a

Substantivos - pássaro | pássaros grão | grãos

Substantivo (NP) - Artigo + Substantivo | Artigo + Adjetivo + Substantivo

= DET N | DET ADJ N

Verbos - becks | bicando | bicado

Frase verbal (VP) - NP V | V NP

Adjetivos (ADJ) - lindos | pequeno | chilrear

A árvore de análise divide a sentença em partes estruturadas para que o computador possa entendê-lo e processá-lo facilmente. Para que o algoritmo de análise construa essa árvore de análise, um conjunto de regras de reescrita, que descrevem quais estruturas de árvore são legais, precisa ser construído.

Essas regras dizem que um determinado símbolo pode ser expandido na árvore por uma sequência de outros símbolos. De acordo com a regra lógica de primeira ordem, se houver duas strings Substantivo (NP) e Verbo (VP), a sequência combinada por NP seguida por VP será uma sentença. As regras de reescrita da sentença são as seguintes -

S → NP VP

NP → DET N | DET ADJ N

VP → V NP

Lexocon -

DET → a | a

ADJ → linda | empoleirar-se

N → pássaro | pássaros grão | grãos

V → beijinho | bicadas | bicando

A árvore de análise pode ser criada como mostrado -

Etapas da PNL

Agora considere as regras de reescrita acima. Como V pode ser substituído por ambos, "bicar" ou "bicar", frases como "O pássaro bica nos grãos" podem ser erroneamente permitidas. isto é, o erro de concordância sujeito-verbo é aprovado como correto.

Mérito - O estilo mais simples de gramática, portanto, amplamente utilizado.

Deméritos -

  • Eles não são altamente precisos. Por exemplo, “Os grãos bicam o pássaro”, é sintaticamente correto de acordo com o analisador, mas mesmo que não faça sentido, o analisador toma como sentença correta.

  • Para trazer alta precisão, vários conjuntos de gramática precisam ser preparados. Pode exigir um conjunto de regras completamente diferente para analisar variações singulares e plurais, sentenças passivas, etc., o que pode levar à criação de um conjunto enorme de regras incontroláveis.

Analisador de cima para baixo

Aqui, o analisador começa com o símbolo S e tenta reescrevê-lo em uma sequência de símbolos terminais que corresponde às classes das palavras na sentença de entrada até que ele consista inteiramente em símbolos terminais.

Eles são verificados com a sentença de entrada para ver se ela corresponde. Caso contrário, o processo será iniciado novamente com um conjunto de regras diferente. Isso é repetido até que seja encontrada uma regra específica que descreva a estrutura da sentença.

Mérito - É simples de implementar.

Deméritos -

  • É ineficiente, pois o processo de pesquisa precisa ser repetido se ocorrer um erro.
  • Baixa velocidade de trabalho.