Using algorithms of unsupervised learning to recognize written languages
La modélisation des langues est un domaine où l'apprentissage non supervisé est très appliqué, l'analyse des textes et la detection des langues écrites sont parmi les applications très connues. Dans ce projet, on souhaite
pouvoir identifier la langue d’un texte donné (français ou anglais).
Pour cela, on va utiliser un tableau de données de textes où on a déjà labélisé chaque texte par sa langue. Dans un premier temps, l’objectif est de construire plusieurs modèles caractérisants les différentes langues, basé
sur la fréquence d’apparition des symboles (lettres) dans chaque langue, pour ensuite procéder à un comparatif des diffférents modèles.
Chaque exercice du projet consistera à :
¤ Choisir un modèle.
¤ Estimer ses paramètres.
¤ Le programmer et commenter les résultats.