Ce projet est un web scraper construit avec Streamlit, une bibliothèque Python pour créer des applications web rapidement. Il permet d'extraire le texte de n'importe quelle page web et de ses sous-pages, puis de convertir le contenu HTML en Markdown pour un affichage facile à lire.
- Extraction du texte de n'importe quelle page web et de ses sous-pages.
- Conversion du contenu HTML en Markdown pour un affichage facile à lire.
- Exploration récursive des sous-pages d'une URL donnée.
- Affichage du contenu Markdown extrait dans un format lisible.
- Affichage d'un sommaire des URL visitées dans un volet déroulant.
- Clonez ce dépôt sur votre machine locale.
- Installez les dépendances en exécutant
pip install -r requirements.txt
dans votre terminal. - Exécutez l'application en tapant
streamlit run app.py
dans votre terminal.
- Entrez l'URL de la page web dont vous voulez extraire le texte dans le champ de saisie.
- L'application extrait le texte de l'URL principale et de toutes ses sous-URLs, et convertit le contenu HTML en Markdown.
- Le contenu Markdown extrait est affiché dans un format facile à lire.
- Un sommaire des URL visitées est affiché dans un volet déroulant.
- Tout le contenu extrait est affiché dans un volet déroulant.
- streamlit
- requests
- beautifulsoup4
- html2text
[Matt Pasquier]