recognition-of-written-languages

Using algorithms of unsupervised learning to recognize written languages

Reconnaissance des langues écrites

La modélisation des langues est un domaine où l'apprentissage non supervisé est très appliqué, l'analyse des textes et la detection des langues écrites sont parmi les applications très connues. Dans ce projet, on souhaite pouvoir identifier la langue d’un texte donné (français ou anglais). Pour cela, on va utiliser un tableau de données de textes où on a déjà labélisé chaque texte par sa langue. Dans un premier temps, l’objectif est de construire plusieurs modèles caractérisants les différentes langues, basé sur la fréquence d’apparition des symboles (lettres) dans chaque langue, pour ensuite procéder à un comparatif des diffférents modèles.
Chaque exercice du projet consistera à :
¤ Choisir un modèle.
¤ Estimer ses paramètres.
¤ Le programmer et commenter les résultats.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

recognition-of-written-languages

Reconnaissance des langues écrites

Files

README.md

Latest commit

History

README.md

File metadata and controls

recognition-of-written-languages

Reconnaissance des langues écrites