Přístupnostní navigace
E-přihláška
Vyhledávání Vyhledat Zavřít
Detail aplikovaného výsledku
HRADIŠ, M.; KIŠŠ, M.; KOHÚT, J.; BENEŠ, K.; KOSTELNÍK, M.
Originální název
Software pro extrakci informace z polostrukturovaných dokumentů
Anglický název
Information extraction from semi-structured documents
Druh
Software
Abstrakt
Tento software poskytuje komplexní nástroje pro extrakci informací z polostrukturovaných dokumentů. Tento software také poskytuje uživateli možnost trénovat vlastní model na datech podle vlastního přání. To zahrnuje několik dalších kroků, protože proces zahrnuje automatickou přípravu trénovacích dat pro model extrakce. Software je navržen pro použití jako aplikace příkazového řádku, ale je otevřený pro rozšíření o podporu dalších vstupních a výstupních formátů.
Abstrakt aglicky
This software provides a full pipeline for extraction of information from custom semi-structured documents. This software also provides the ability for the user to train their own model on data of their desire. This includes several additional steps as the process includes automatic preparation of training data for the extraction model. The software is designed for usage as a command line application, but it is open for extension to support additional input and output formats.
Klíčová slova
Information extraction, Semi-structured documents, OCR
Klíčová slova anglicky
Umístění
https://github.com/DCGM/pero-indexer, pip https://pypi.org/project/pero-indexer/
Licenční poplatek
K využití výsledku jiným subjektem je vždy nutné nabytí licence
www
https://www.fit.vut.cz/research/product/755/
Dokumenty
User manual pero-indexer