Detail aplikovaného výsledku

Software pro sekvenční selekci příznaků

GALÁŽ, Z.; MEKYSKA, J.; SMÉKAL, Z.

Originální název

Software pro sekvenční selekci příznaků

Anglický název

Sequential floating feature selection tool

Druh

Software

Abstrakt

V oblasti analýzy biomedicínských signálů (např. zpracování řeči, zpracování ručně psaného projevu, atd.) se často stává, že výsledkem parametrizačního procesu, kterého účelem je kvantifikace užitečné informace obsažené v datech pomocí parametrů (příznaků), je vysoce dimenzionální prostor, který je nazýván také parametrizačním prostorem. Tento prostor popisuje vypočtené parametry pro všechna pozorování a výsledkem parametrizace je tzv. matice parametrů. Následujícím krokem je ve většině případů analýza matice parametrů, která zahrnuje kupříkladu výběr nejvhodnějších parametrů pro další klasifikaci nebo regresi. Výběr množiny parametrů, které obsahují nejvíce užitečné informace a jsou tedy nejvhodnějšími kandidáty pro následnou klasifikaci nebo regresi je důležitým krokem analýzy parametrizačního prostoru. Problematice vysoké dimenze dat byl přiřazen termín „Curse of dimensionality“, který popisuje skutečnost, že použití velkého počtu parametrů (vysoké dimenze matice) může způsobit tzv. přetrénování a v konečném důsledku zhoršit následnou analýzu. Účelem výběru parametrů je tedy tuto množinu zredukovat na statisticky významné parametry, které jsou nejvhodnější pro uvažovanou aplikaci. Software SFFS disponuje možností výběru parametrů na základě klasifikace, kde aktuální verze tohoto softwaru poskytuje 6 různých klasifikačních technik (metoda podpůrných vektorů, naivní Bayesovy sítě, diskriminační analýza, k-nejbližších sousedů, klasifikační stromy a Gaussovy smíšené modely), a také na základě regrese, kde je a aktuální verzi podporován algoritmus klasifikačních a regresních stromů. Software obsahuje také vícero metrik pro hodnocení kvality výběru: 18 metrik pro klasifikaci (klasifikační přesnost, senzitivita, specificita, atd.); 10 metrik pro regresi (gini index, absolutní chyba, střední kvadratická chyba, atd.). Balík navíc obsahuje i funkce potřebné pro cross-validaci (k-fold, leave-one-out) při procesu dopředné selekce. Tento software je celý naprogramován v programovém prostředí MATLAB. K otestování je možné použít přiložené skripty demo_cls.m a demo_reg.m, které načítají data ze souboru test_cls.mat a test_reg.mat (obsahují matici parametrů „feat_matrix“: sloupce popisují parametry; řádky popisují pozorování, a také vektor tzv. labelů „labels“ (pro klasifikaci jsou to skupiny, např. 0/1 – zdravý/nemocný a pro regresi to je spojitá škála hodnot)).

Abstrakt aglicky

In the field of biomedical signal processing (such as the speech signal processing, hand-written text processing, etc.), it often happens that the result of the parametrization process (parametrization serves us to quantify the useful information stored in the data with so called parameters) is a high-dimensional parametrization space. It describes the computed parameters (features) for all observations in the dataset in the parametrization matrix. Subsequent step in most cases is the analysis of the parametrization matrix including the feature selection step to select the best possible feature subset, which is the most suitable subset for the consequent classification or regression task. The feature selection step is one of the most important step in the data analysis and the issue of dimensionality, also called the curse of dimensionality describes the fact that the high-dimensional feature space can lead to overfitting, which often worsens the results of the analysis. The purpose of the feature selection step is therefore to select the most suitable feature subset with the highest statistical relevance for considered application. Software SFFS has the option of the selection of the best feature subset based on classification, where the actual version of the software provides the 6 possible classification techniques (Support Vector Machines, Naive Bayes Networks, Discriminant Analysis, k-Nearest Neighbour, Classification Trees and Gaussian Mixture Models). It also has the option to select the features based on regression, where the software provides the regression technique referred to as Classification and Regression Trees algorithm. SFFS software provides several metrics to evaluate the feature selection process: 18 metrics for the classification task (classification accuracy, sensitivity, specificity, etc.); 10 metrics for the regression task (gini index, absolute error, root mean squared error, etc.). The package also provides the function for the cross-validation process (k-fold, leave-one-out) used in the feature selection process. The SFFS software is fully written in the MATLAB programming environment. The testing scripts demo_cls.m and demo_reg.m are also provided. The scripts load the data from the test_cls.mat and test_reg.mat files, which include the parametrization matrix (feat_matrix): rows are determined for the observations; columns are determined for the parameters, and the vector of labels (labels) (e.g. for the classification task: 0/1 – healthy/disordered and for the regression task it is the numeric continuous scale).

Klíčová slova

Feature selection, classification, regression

Klíčová slova anglicky

Feature selection, classification, regression

Umístění

http://splab.cz/download/software/software-pro-sekvencni-selekci-priznaku

Možnosti využití

výsledek využívá pouze poskytovatel

Licenční poplatek

Využití výsledku jiným subjektem je možné bez nabytí licence (výsledek není licencován)

www