Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

DBNL corpus: footnotes #1346

Open
2 of 3 tasks
lukavdplas opened this issue Dec 5, 2023 · 0 comments · May be fixed by #1478
Open
2 of 3 tasks

DBNL corpus: footnotes #1346

lukavdplas opened this issue Dec 5, 2023 · 0 comments · May be fixed by #1478
Assignees
Labels
affects-elasticsearch-index changes that require re-indexing elasticsearch data corpus changes to corpus definitions or new corpora good first issue

Comments

@lukavdplas
Copy link
Contributor

lukavdplas commented Dec 5, 2023

A tip from a researcher:

The extractor for the DBNL data puts footnotes in the body of the text. This is inappropriate because footnotes are often later additions to the text, so it introduces anachronisms. It also breaks up the text awkwardly.

Examples:

Exhibit A
Boek: https://www.dbnl.org/tekst/meer039eeni02_01/
I analyzer: https://ianalyzer.hum.uu.nl/search/dbnl?title_id=meer039eeni02_01&sort=chapter_index,asc

Exhibit B
Boek: Onze Strijd, p. 41
I-analyer: https://ianalyzer.hum.uu.nl/search/dbnl?title_id=mont006onze01_01&sort=chapter_index,asc\

Exhibit C
https://ianalyzer.hum.uu.nl/search/dbnl?title_id=mult001idee03_01&sort=chapter_index,asc

Footnotes are marked as <note> in the XML so they should be easy to extract.

I would suggest

  • In the "content" field (the main body of the text), only include the reference to the footnote
  • Adding a separate field "notes" which includes the content of the footnotes

So this section:

<div type="section">
    ...
    Althans in de Constructie geloof ik niet dat de reden kan gezocht worden
    <note n="a" place="foot">
        Eenigsints belagchelijk wordt het, wanneer men zich te Stockholm geduurig, tot bewijs der overëenkomst tusschen Zweedsch en Engelsch, de zelfde drie of vier woorden hoort voorzeggen, zonder dat men, om meerdere voorbeelden vraagende, zoo ligtelijk antwoord ontvangt.
    </note>
    . Voor 't overige kan ieder Hollander, die er nog een paar der gewoonste Europaesche taalen bij bezit, het Zweedsch, even als het Deensch, zich zelve leeren.
</div>

Currently looks like this on i-analyzer:

Althans in de Constructie geloof ik niet dat de reden kan gezocht wordenEenigsints belagchelijk wordt het, wanneer men zich te Stockholm geduurig, tot bewijs der overëenkomst tusschen Zweedsch en Engelsch, de zelfde drie of vier woorden hoort voorzeggen, zonder dat men, om meerdere voorbeelden vraagende, zoo ligtelijk antwoord ontvangt.. Voor 't overige kan ieder Hollander, die er nog een paar der gewoonste Europaesche taalen bij bezit, het Zweedsch, even als het Deensch, zich zelve leeren.

Should be formatted as follows.

Content:

Althans in de Constructie geloof ik niet dat de reden kan gezocht worden [a] . Voor 't overige kan ieder Hollander, die er nog een paar der gewoonste Europaesche taalen bij bezit, het Zweedsch, even als het Deensch, zich zelve leeren.

Notes:

[a]
Eenigsints belagchelijk wordt het, wanneer men zich te Stockholm geduurig, tot bewijs der overëenkomst tusschen Zweedsch en Engelsch, de zelfde drie of vier woorden hoort voorzeggen, zonder dat men, om meerdere voorbeelden vraagende, zoo ligtelijk antwoord ontvangt.

Note that the reference [a] is included in the XML as <note n="a">.

To do:

  • Use the examples above to write a unit test for the DBNL corpus
  • Add a notes field to the corpus. Add an XML extractor for it, and adjust the XML extractor of the main text. You may need to write some python functions that transform the BeautifulSoup tree.
  • Index the DBNL corpus with the new definition. Note that indexing DBNL takes a long time.
@lukavdplas lukavdplas added the corpus changes to corpus definitions or new corpora label Dec 5, 2023
@lukavdplas lukavdplas added the affects-elasticsearch-index changes that require re-indexing elasticsearch data label Feb 20, 2024
@lukavdplas lukavdplas self-assigned this Feb 28, 2024
@lukavdplas lukavdplas linked a pull request Feb 28, 2024 that will close this issue
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
affects-elasticsearch-index changes that require re-indexing elasticsearch data corpus changes to corpus definitions or new corpora good first issue
Projects
None yet
Development

Successfully merging a pull request may close this issue.

1 participant