-
Notifications
You must be signed in to change notification settings - Fork 1
/
Copy pathintroducao.tex
60 lines (36 loc) · 7.96 KB
/
introducao.tex
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
\chapter{Introdução}
A fala é a principal forma de comunicação dos seres humanos, desde o início dos computadores, a busca por computadores mais inteligentes, levam cientistas ao estudo de Sistemas de \textit {Reconhecimento Automático de Voz} \textit {(RAV)} visando uma comunicação natural entre o homem e a máquina, interação vista apenas em filmes de ficção científica \cite{RavPtBrCarlos}.
Para esses estudos virarem realidade, os computadores terão de possuir total entendimento da fala humana, capacidades como: falar, ouvir, ler, escrever, alem do reconhecimento de pessoas pela voz, devem ser estabelecidas. Essas capacidades são os objetivos dos sistemas \textit{RAV}, permitindo que o computador “entenda” o que está sendo dito \cite{RavCorporaCarlos}.
De acordo com \citeonline{RavIsolAnderson} e \citeonline{RavPtBrCarlos} os sistemas \textit{RAV} evoluiram considerávelmente com o passar dos anos, e sua aplicação se encontra em diversas áreas, como: sistemas para atendimento automático, ditado, interfaces para computadores pessoais, controle de equipamentos, robôs domésticos, indústrias totalmente à base de robôs inteligentes, segurança etc. Mas mesmo com toda evolução do hardware dos computadores e otimização dos algoritmos e métodos, os sistemas \textit{RAV} estão longe de compreender um discurso sobre qualquer assunto, falado de forma natural, por qualquer pessoa, em qualquer ambiente.
Com a tendência da melhora dos processadores, memórias e placas de vídeo, esta linha de processamento de voz está em bastante evidência. Os jogos de computadores, são uma área que também está acompanhando essa evolução, e também demandam reconhecimento de voz para controle de comandos. Jogos de computadores, se tornaram cada vez mais parecidos com a realidade em gráficos e na interatividade, a tendencia sugere que os famosos joysticks poderão ser aposentados em pouco tempo.
O primeiro jogo, foi desenvolvido em 30 de julho de 1961, por Steve Russel, que não tinha objetivos comerciais, apenas acadêmicos. O principal objetivo de Steve Russel era poder mostrar todo o poder de processamento do computador DEC PDP-1, para isso foi criado o SpaceWar. Inicialmente a ideia de Russel era fazer um filme interativo, mas acabou se tornando o pai dos jogos eletrônicos \cite{HistJogosHenrique}. Milhares de jogos foram desenvolvidos nas décadas seguintes, passando por tetrix do russo Alexey Pajitnov, super Mário, que foi o jogo mais vendido da época, até chegar nos games atuais, que surpreendem pelo realismo. Videogames com as mais modernas tecnologias vem sendo lançados ultimamente, um exemplo é o Xbox 360, fabricado pela Microsoft Corporation, que surpreendeu ao fazer o joystick que possui um sistema inteligente de profundidade de seus botões traseiros, similares a um gatilho. Com isso, os comandos são interpretados de acordo com a intensidade em que estes são pressionados. Em um game de corrida, por exemplo, faz uma enorme diferença na hora de acelerar mais suavemente com o seu carro, ou simplesmente “afundar” o pé no acelerador \cite{XBoxTechT}. Mas a grande revolução ainda estava por vir, em novembro de 2010, a Microsoft lançou o kinect, um sensor de movimento que veio para revolucionar o mundo dos games, promovendo uma integração total com o jogador, e acabando com a mística de que jogar videogame é sinal de sedentarimo \cite{KinectTechT}.
\section{Aplicações do reconhecimento automático de fala}
Segundo \citeonline{AvaliaTecJose} os sistemas com reconhecimento de voz podem ser aplicados em qualquer atividade que demande interação homem-máquina, e nas mais diversas áreas. Há mais de uma década ele já mostrava a importância do uso de voz em diversas aplicações, algumas dessas áreas são:
\begin{itemize}
\item Sistemas de controle e comando: Estes sistemas utilizam a fala para realizar
determinadas funções;
\item Sistemas de telefonia: O usuário pode utilizar a voz para fazer uma chamada, ao
invés de discar o número;
\item Sistemas de transcrição: Textos falados pelo usuário podem ser transcritos
automaticamente por estes sistemas;
\item Acesso à informação: O usuário recebe algum tipo de informação, que se encontra armazenada em um banco de dados. Exemplo: notícias, previsão do tempo, hora certa, etc;
\item Centrais de atendimento ao cliente: Uma atendente virtual pode ser utilizada a fim
de realizar o atendimento ao cliente;
\item Operações bancárias: O usuário efetua operações bancárias, como informações do seu saldo, trasnferências de dinheiro;
\item Preenchimento de formulários: O usuário entra com os dados via fala.
\item Robótica: Robôs podem se comunicar pela fala com seus donos.
Nos últimos anos, jogos de computador estão sendo produzidos para responderem a comandos de voz, como o \textit{Tom Clancy's EndWar}, um jogo de estratégia que simula uma terceira guerra mundial, e sua equipe recebe seus comandos falados, simulando as ordens de um oficial.
\end{itemize}
\section{Objetivos}
O objetivo geral deste trabalho é desenvolver um jogo interativo guiado por comandos de voz ditados pelo usuário, o método abordado será testado em um clássico do mundo dos games, pacman \footnote{ O jogador é uma cabeça redonda com uma boca que se abre e fecha, posicionado em um labirinto simples repleto de pastilhas e 4 fantasmas que o perseguem. O objetivo era comer todas as pastilhas sem ser alcançado pelos fantasmas, em ritmo progressivo de dificuldade.}. A interação é feita usando comandos de fala pré-definidos em sua gramática, que são: DIREITA, ESQUERDA, SUBIR, DESCER. Além de ser guiado por esses comandos, o jogo também reconhece determinadas palavras que podem caracterizar o humor do usuário, sendo palavras ofensivas, o usuário receberá uma penalidade, até perder a partida.
\section{Motivações}
A maior motivação seria o aumento de desempenho individual, pois sendo o meio de comunicação mais natural para o ser humano, os comandos por voz seriam mais rápidos que por joystick, permitindo utilizar as mãos para fazer outras coisas em quanto estivesse jogando, além das diversas aplicações que são cada vez maiores nas atividades humanas.
\section{Metodologia}
Para o propósito desde trabalho se estabeleceu um estudo de técnicas de reconhecimento de voz de comandos, técnicas de análise de sons para extração de atributos que serão alimentados como treinamento para um modelo de grafos de \textit{Cadeia de Markov Oculto}, implementação dos diferentes modelos, acoplação no jogo clássico \textit{pacman} e verificação dos resultados.
A implementação será desenvolvida para dispositivos móveis com sistema operacional Android \footnote{ Sistema operacional móvel que roda sobre o núcleo Linux. Foi inicialmente desenvolvido pelo Google e posteriormente pela Open Handset Alliance.}, que utiliza como linguagem de programação a linguagem Java.
\section{Visão Geral do Trabalho}
Neste trabalhou buscou-se desenvolver um sistema \textit{RAV} com baixa taxa de erros, um dicionário pequeno de palavras e reconhecimento de palavras isoladas, que são a melhor forma de introdução nos estudos de sistemas com reconhecimento de fala, possibilitando estudos futuros em aplicações com reconhecimento de palavras contínuas e vocabulários grandes. O sistema desenvolvido é baseado nos modelos ocultos de Markov \textit{(HMM)}.
Este trabalho está dividido em %colocar a quantidade de cap.
capítulos, que são descritos a seguir:
O capítulo 2 tem como objetivo fazer as referências teóricas sobre o processamento do sinal de fala, sistemas \textit{RAV}, como suas características, histórico, reconhecimento de padrões e alguns trabalhos relacionados.
O capítulo 3 visa mostrar toda estrutura empregada no desenvolvimento do sistema RAV, como aquisição da fala, que são as formas para captura do som, pré-processamento que é a filtragem do sinal capturado, extração do parêmtros necessários e o treinamento dos padrões para comparações posteriores.