Detail aplikovaného výsledku

Software pro extrakci informace z polostrukturovaných dokumentů

HRADIŠ, M.; KIŠŠ, M.; KOHÚT, J.; BENEŠ, K.; KOSTELNÍK, M.

Originální název

Anglický název

Information extraction from semi-structured documents

Druh

Software

Abstrakt

Tento software poskytuje komplexní nástroje pro extrakci informací z polostrukturovaných dokumentů. Tento software také poskytuje uživateli možnost trénovat vlastní model na datech podle vlastního přání. To zahrnuje několik dalších kroků, protože proces zahrnuje automatickou přípravu trénovacích dat pro model extrakce. Software je navržen pro použití jako aplikace příkazového řádku, ale je otevřený pro rozšíření o podporu dalších vstupních a výstupních formátů.

Abstrakt aglicky

This software provides a full pipeline for extraction of information from custom semi-structured documents. This software also provides the ability for the user to train their own model on data of their desire. This includes several additional steps as the process includes automatic preparation of training data for the extraction model. The software is designed for usage as a command line application, but it is open for extension to support additional input and output formats.

Klíčová slova

Information extraction, Semi-structured documents, OCR

Klíčová slova anglicky

Information extraction, Semi-structured documents, OCR

Umístění

https://github.com/DCGM/pero-indexer, pip https://pypi.org/project/pero-indexer/

Licenční poplatek

K využití výsledku jiným subjektem je vždy nutné nabytí licence

www

https://www.fit.vut.cz/research/product/755/

Dokumenty

User manual pero-indexer

VUT

Fakulty

Vysokoškolské ústavy

Součásti

Software pro extrakci informace z polostrukturovaných dokumentů