-
Notifications
You must be signed in to change notification settings - Fork 1
/
Copy pathfundamentos.tex~
106 lines (70 loc) · 11.6 KB
/
fundamentos.tex~
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
\chapter{Referencial teórico}
%Escrever isso ainda!
Este capítulo descreve os principais elementos teóricos utilizados no
desenvolvimento desta pesquisa. As seções \ref{sec:red_neu} e \ref{sec:red_tip}
resumem os principais conceitos sobre redes neurais, assim como as principais
técnicas utilizadas nesta área. A seção \ref{sec:red_khn} é dedicada
especificamente as redes de Kohonen, descrevendo sua estrutura conceitual e seu
algorítimo de treinamento, esta categoria de rede neural é o núcleo da técnica
de \textit{clustering} de imagens proposta neste trabalho, assunto abordado no
próximo capítulo. Uma breve formalização dos descritores de Hu é feita na seção
\ref{sec:desc_hu}. E por fim, alguns conceitos chave sobre imagens digitais são
apresentados na seção \ref{sec:img_dig}.
\section{Fala}
A fala é a forma de comunicação mais utilizada pelos seres humanos.\cite{RvPatrick} Através da fala, o cérebro humano consegue interpretar informações extremamente complexas, tais como identificar a pessoa que está falando, sua posição no espaço físico, seu estado emocional e outros dados como a ironia, seriedade ou tristeza. Os computadores, apesar de fazerem cálculos mais rápidos que o homem, não conseguem reconhecer através da fala informações como os seres humanos.
\subsection{Vantagens da comunicação pela fala em sistemas homém-máquina}
Segundo \cite{RavDigitalSadaoki} podemos citar:
\begin{itemize}
\item Natural: Não precisa de treinamento especial e nem de habilidades especiais;
\item Rapidez: A informação é transmitida mais rapidamente que pelas outras formas de comunicação.
\item Flexível: Deixa as mãos, olhos livres;
\item Eficiente: Tem uma elevada taxa de informação;
\end{itemize}
\subsection{Desvantagens no uso da fala em sistemas homem-máquina}
Mesmo possuindo vantagens significativas, a comunicação por fala também possui desvantagens, como \cite{RavDigitalSadaoki} descreveu:
\begin{itemize}
\item Ruidos: O sistema fica suscetível a interferência do ambiente, necessitando de um removedor de ruídos para ambientes com alto índice de ruídos.
\item Diversidade da língua: Características que variam de pessoa para pessoa, como sotaque, velocidade da fala, condições físicas e emocionais do locutor.
\end{itemize}
%Tentar procurar mais desvantanges e argumentos para diversidade.
\section{O Sistema de Reconhecimento de Voz}\label{sec:red_khn}
Sistemas de reconhecimento automático de voz, tem como objetivo, transformar um sinal analógico(fala) obtido através de um transdutor, mapeando-o a fim de produzir como saída a palavra, uma sequencia de fonemas ou uma sentenças correspondentes ao sinal de entrada. Com o resultado da tradução, pode-se tomar decisões, traduzir para outra língua, etc.
Reconhecedores de voz, podem ser divididos em três grandes classes: reconhecimento por comparação de padrões, reconhecimento baseado na análise acústico-fonética e reconhecimento empregando inteligência artificial.\cite{FundamentRabiner} No reconhecimento por comparação de padrões, existem duas formas distintas: treinamento e reconhecimento. Na fase de treinamento, são apresentados padrões ao sistema para criação de representantes, para cada um dos padrões. A fase de reconhecimento compara um padrão ainda desconhecido, com os padrões existentes no sistema, o que mais se aproximar do padrão existente, é escolhido como o padrão reconhecido. A fase de treinamento é fundamental para o sucesso do sistema, portanto uma quantidade considerável de material será necessário para a fase de treinamento. Sistemas com Modelos Ocultos de Markov (HMM) utilizam essa classe de reconhecimento.\cite{AvaliaTecJose} Nos sistemas com reconhecimento baseado na análise acústico-fonema, o sinal de fala é decodificado baseado em suas características acústicas e nas relações entre essas características. \cite{DigSpeechNejat} É identificada as unidades fonéticas da fala a ser reconhecida, e concatenando essas unidades é reconhecida a palavra. Nessa análise é necessário considerar as propriedades invariantes da fala. Segundo \cite{AvaliaTecJose} Um analisador acústico-fonética apresenta as sequintes fases: análise espectral, detecção das características que descrevem as unidades fonéticas, a fase mais importante de todo o processo que é: segmentação do sinal de fala e identificação das unidades fonéticas e escolha da palavra que melhor corresponde a sequência de unidades. Reconhecimento empregando inteligência artificial explora os conceitos tanto do reconhecimento por padrões quanto o baseado em análise acústico-fonema. \cite{FundamentRabiner} Utilizando redes neurais, cria-se uma matriz de ponderações que representa os nós das redes, e suas saídas, estão relacionadas as unidades a serem reconhecidas. \cite{AvaliaTecJose}
O processo para o reconhecimento de voz pode ser dividio em quatro fases: aquisição do sinal de voz, pré-processamento, extração de informações e geração dos padrões de voz. \cite{RavIsoladas}
%fazer imagem das etapas
%por padrões te simplicidade de uso, maior entendimento, boas justificativas matemáticas e robustez. AvaliaTecJose e FundamentRabiner
\subsection{Histórico dos Sistemas de Reconhecimento de Voz}\label{sec:red_khn}
Sistemas de reconhecimento automático de voz vem sendo estudados desde os anos 50 nos laboratórios Bell, quando foi criado, o primeiro reconhecedor de dígitos isolados com suporte a um locutor.\cite{Historico1} As redes neurais também surgiram nos anos 50, mas não houve prosseguimento nos estudos, devido a problemas práticos. Muitos reconhecedores de voz, foram criados nas décadas de 50 e 60.\cite{RavSpeechSadaoki} No início dos anos 70, surgiram os algoritmos para sistemas de fala contínua, graças as técnicas de \textit{Linear Predictive Coding} (LPC) e \textit{Dynamic Time Warping} (DTW). \cite{FundamentRabiner} E os anos 80 foram marcados pela disseminação dos metodos estáticos, como \textit Modelos Ocultos de Markov (HMM). \cite{FundamentRabiner} Esse período foi de grande evolução para os sistemas de reconhecimento de voz, as redes neurais passaram a ser usadas no desenvolvimento dos sistemas, sendo possível implementar sistemas mais robustos, com vocabulários grandes e com taxas de acerto de mais de 90{\%}.\cite{AvaliaTecJose}
\subsection{Características de Sistemas RAV}\label{sec:red_neu}
Existem várias maneiras de categorizar um sistema de reconhecimento de voz, os mais importantes são: o estilo de pronuncia que é aceito, ao tamanho do vocabulário e à dependência ou independencia do locutor. \cite{Carac1} Essas categorias que definem a precisão do sistema de reconhecimento.
\subsubsection{Dependência do locutor}
Podemos classificar sistemas de reconhecimento como dependentes e independentes do locutor. Um sistema dependente de locutor reconhece a fala das pessoas cujas vozes foram utilizadas para treinar o sistema, apresentando uma pequena taxa de erros, para o locutor para qual foi treinado o sistema, implementação mais simples que sistemas independentes do locutor, que reconhecem a fala de qualquer pessoa com uma taxa de acerto aceitável. Neste caso é necessário realizar o treino do sistema com uma base que inclua diferentes pessoas com diferentes idades, sexo, sotaques, etc. O que dificulta a construção desses sistemas.
\subsubsection{Modo de pronúncia}
%Pesquisar conectas e contínua para o caso de serem diferentes
Sistemas RAV podem ser classificados quanto ao modo de pronúncia de duas formas, sistemas de palavras isoladas e os de fala conectadas(contínua). Reconhecedor de palavras isoladas são sistemas que reconhecem palavras faladas isoladamente, isto é, entre cada palavra deve existir uma pausa mínima, para que seja detectado o início e o fim da mesma. Isso proporciona um resultado muito superior aos de fala contínua, estes sistemas são os mais simples de serem implementados. Um exemplo clássico de reconhecedores de palavras isoladas são os reconhecedores de dígitos, que alcançam taxa de menos de 2{\%} de erro para dígitos de 0 à 10.\cite{RavPtBr}
Já o reconhecedor de palavras conectadas são sistemas mais complexos que os de palavras isoladas e utilizam palavras como unidade fonética padrão. São capazes de reconhecer sentenças completas, pronunciadas sem pausa entre as palavras, e por isso não se tem informação de onde começam e terminam determinadas palavras, muitas palavras são mascaradas, encurtadas e as vezes não pronunciadas. Esses sistemas precisam lidar com todas as características e vícios da linguagem natural, como o sotaque, a duração das palavras, a pronúncia descuidada, etc. Tornando ainda mais difíceis as tarefas do reconhecedor em casos como “ele vai morrer em dois dias” que
muitas vezes é dito como “ele vai morrerem dois dias”.\cite{RavPtBr}
\subsubsection{Tamanho do vocabulário}
Um fator muito importante na precisão de um RAV, é o tamanho do vocabulário, quanto maior seu tamanho, maior a quantidade de palavras ambíguas, com realizações sonoras semelhantes, ocasionando maior chance de erros por parte do decodificador responsável pelo reconhecimento.\cite{RavPtBr} Segundo \cite{RavIsoladas} vocabulários podem ser definidos como:
\begin{itemize}
\item Vocabulário pequeno: reconhecem até 20 palavras.
\item Vocabulário médio: reconhecem entre 20 e 100 palavras.
\item Vocabulário grande: reconhecem entre 100 e 1000 palavras.
\item Vocabulário muito grande: reconhecem mais de 1000 palavras.
\end{itemize}
Sistemas RAV com suporte a grandes vocabulários são chamados de Large Vocabulary Continuos Speech Recognition (LVCSR). Existem muitas dificuldades encontradas na criação de sistemas LVCSR, como: a disponibilidade de um corpus de voz digitalizada e transcrita grande o suficiente para treinamento do sistema, recursos como bases de textos de
tamanho elevado e um dicionario fonético de amplo vocabulário.\cite{RvPatrick}
\subsubsection{Perplexidade}
\subsubsection{Relação sinal – ruído}
\section{Reconhecimento de voz baseado em padrões}\label{sec:red_neu}
De acordo com \cite{AvaliaTecJose}, o reconhecimento baseado em padrões, é a técnica que oferece melhor resultado nos sistemas de reconhecimento de fala, então a implementação do sistema será usando essa técnica.
Um sistema de reconhecimento de voz usando reconhecimento de padrões poder ser representado na figura X \cite{FundamentRabiner}:
%Figura
De acordo com \cite{AvaliaTecJose},
\subsection{Processamento do Sinal de Fala}
Nessa fase, o sinal analógico é digitalizado para ser comparado com os diferentes tipos de padrões, para essa comparação o sinal digital é convertido em um conjunto de parâmetros espectrais e temporáis. As comparações entre formas de ondas da fala são muito complicadas, e isso justifica o uso de parâmetros, como exemplo, podemos citar uma distorção de fase que é imperciptível ao ouvido humano, mas altera a forma da onda, dificultando as comparações de padrões .\cite{AvaliaTecJose}
Um grande número de parâmetros tem sido propostos, segundo \cite{AvaliaTecJose} os parâmetros mais usados são os: \textit{derivados dos coeficientes LPC} e os \textit{derivados diretamente do espectro do sinal}
Como já citado, os reconhecedores de palavras isoladas, necessitam de capturar os pontos limitantes de cada palavra. Existem vários algoritmos de detecção desse início e fim das palavras, usando parâmetros como: energia e taxa de cruzamento de zero para separar o sinal de fala do ruído. \cite{AvaliaTecJose}
\subsection{Padrões de Referência}
\subsection{Comparação de Padrões}
\subsection{Pós-Processador}