-
Notifications
You must be signed in to change notification settings - Fork 1
/
Copy path1. Extracting Data from PDFs
58 lines (37 loc) · 4.97 KB
/
1. Extracting Data from PDFs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
C'est arrivé à chacun d'entre nous, de vouloir accéder à de belles données structurées de manière à ce que l'on puisse les trier, les filtrer, les analyser et les visualiser... Et au lieu de cela, on se retrouve avec des documents PDF et les données enfermées dans le document! Impossible de les manipuler, quelle déception...
Ce cours a pour objectif de vous aider à identifier et mettre en œuvre les différentes étapes nécessaires à l'extraction des données de documents PDF afin de les convertir en formats facilement manipulables pour vos projets.
Naviguez dans la présentation avec les flèches.
Quand le couper-coller ne fonctionne pas, vous aurez besoin d'outils plus puissants pour extraire les données. Vous trouverez ci-bas un peu plus d'informations sur les deux approches les plus problématiques et représentées par le visuel ci-haut.
Tous les PDF ne se ressemblent pas. Certains sont générés depuis des programmes informatiques (dans le meilleur des cas) mais bien souvent, ils peuvent représenter une image, version scannée d'un texte (pire des cas). S'il s'agit d'images, votre travail sera plus compliqué. Néanmoins, quelques astuces peuvent vous faciliter la tâche !
(Texte adapté de l'original par Tim McNamara)
Les OCR
Un OCR (Optical Character Recognition ou Reconnaissance Optique des caractères) peut paraître barbare. Mais dans la plupart des cas, ces outils d'extraction seront en mesure d'extraire du texte à partir des fichiers que vous recherchez.
Un OCR implique essentiellement la création d'outils de programmation (mais lisez la suite et vous découvrirez certains OCR qui n'en nécessitent pas). L'ensemble du processus peut comporter plusieurs étapes:
- Nettoyer le contenu
- Comprendre la structuration
- Extraire des fragments de texte de parties de pages en fonction de la structuration de chaque page
- Reconstituer des fragments de textes sous une forme utilisable
Nettoyer les pages
Il s'agit généralement d'enlever les taches foncées laissées par les scanners, redresser les pages et ajouter du contraste entre le fond et le texte imprimé. Un des meilleurs outils gratuits pour cela est unpaper.
Convertir le fichier
Une chose à noter est que de nombreux OCR ne prennent en charge qu'un nombre limité de types de fichiers d'entrée. En général, vous devrez convertir vos images au format pixmap (. Ppm).
Dans cette section, nous allons mettre en évidence quelques-unes des options pour l'extraction de données ou de texte à partir d'un PDF. Nous ne voulons pas réinventer la roue avec toutes ces options, vous pourrez vous référer aux manuels respectifs des logiciels pour en maîtriser l'usage précis - nous visons ici simplement à vous aider à choisir votre arme!
Sans connaissance de programmation, les options d'usage de logiciels restent malheureusement limitées. Voici quelques logiciels à découvrir:
- Tabula – qui génère beaucoup de buzz et enthousiasme en ce moment mais vous aurez besoin d'installer votre propre version, ce qui rend la barrière d'entrée un peu élevée pour l'usage.
- ABBYY Finereader – Malheureusement n'est pas gratuit mais offre des fonctionnalités puissantes pour libérer les données emprisonnées dans les prisons PDF.
- CometDocs – Un service en ligne
Attenton - les outils présentés ci-bas requièrent une ouverture en ligne de code pour l'installation et usage (et donc des connaissances en programmation). Nous les mentionnons cependant afin que vous vous fassiez une idée des outils existants.
Pour ceux qui maîtrisent le code (programmation) :
- Tesseract OCR
- Ocropus
- GNU Ocrad
- PDF2HTML
Au delà des projets mentionnés dans la présentation, il y a quelques autres options possibles.
Le projet open source TaskMeUp vous permet de répartir un travail entre des centaines de participants. Si vous avez un projet qui pourrait profiter de la revue de milliers de paires d'yeux, cela peut représenter une option intéressante pour vous.
Autre option: il y a quelques entreprises qui proposent de tels services. La plus connue est Amazon’s Mechanical Turk. Elle propose un service "en gros". Vous avez également Cloudflower ou Microtask. Microtask fait équipe avec des vendeurs de jeux vidéo pour offrir des récompenses aux joueurs qui contribuent.
Défi: Libérez les budgets !
Tâche: Identifiez des PDF à libérer !
Par exemple, il y a beaucoup de fichiers PDF qui ont besoin de votre aide dans la bibliothèque du budget de l' "International Budget Partnership".
Rappelez-vous - une fois que vous avez libéré vos données, partagez les en les enregistrant sur www.nosdonnees.fr pour faire gagner du temps à d'autres internautes!
Pourquoi ne pas les télécharger également sur le groupe "OpenSpending" et déposer votre contribution sur la liste de diffusion pour expliquer ce que vous avez fait. Les gens sont toujours à la recherche de nouvelles données brutes à visualiser et expliquer.
- Voir plus sur : http://schoolofdata.org/handbook/courses/extracting-data-from-pdf/#sthash.zTmtDCcZ.dpuf