skip to main content
Language:
Search Limited to: Search Limited to: Resource type Show Results with: Show Results with: Search type Index

Klasifikace spamu pomocí metody LSNB

Vysokoškolské kvalifikační práce obhájené na VŠE jsou veřejně dostupné online. https://knihovna.vse.cz/navody/vskp Theses and disertations defended at University of Economics, Prague are freely available online. https://knihovna.vse.cz/navody/vskp

Digital Resources/Online E-Resources

Citations Cited by
  • Title:
    Klasifikace spamu pomocí metody LSNB
  • Author: Mareš, Jiří
  • Subjects: Bayes ; classifier ; cognitive bias ; klasifikátor ; kognitivní zkreslení ; LSNB ; machine learning ; spam ; strojové učení
  • Description: The issue of spam is more and more concerning with the seemingly infinite growth of the internet. The aim of this bachelor thesis is the implementation of an algorithm based on the method Loosely symmetric naïve Bayes, for use in the classification of spam from small and biased datasets. Authors of the algorithm have found a discrepancy between the data that is used to train the classifier, and data that is found in practical applications. The LSNB model is created to deal with this discrepancy in a satisfying manner. The implementation is achieved with the Python programming language, whose extension scikit-learn is the basis for the implementation.The theoretical part presents an introduction to the issue of spam, then the general machine learning methods are introduced. But also, some of the specific methods are described in detail, in particular the naïve Bayes classifier. Afterwards, the theoretical LSNB model which attempts to use cognitive bias for reproducing human-level concept learning is described. Some data pre-processing techniques are introduced together with the basics of Python language and some of its most important extensions. Finally, the metrics for classifier evaluation are presented.In the practical part the implementation is described in detail from the data pre-processing, through model fitting from training data, to classification of testing data. Evaluation of 6 different classifiers on 6 datasets of various sizes and various biases is shown near the end. For this, the metrics described in the theoretical part are used. The eLSNB classifier, which has been implemented as a part of this thesis, has performed the best in comparison with the other classifiers. It is deemed suitable for further testing. Problematika spamu je s nezpomalujícím se růstem internetu stále více aktuální. Cílem bakalářské práce je implementace nově navrženého algoritmu Loosely symmetric naive Bayes založeném na využití kognitivních zkreslení pro přesnější a spolehlivější klasifikaci spamu z malých a nevyvážených datasetů. Jelikož autoři algoritmu nalezli neshodu mezi daty, která jsou použita k učení a daty, s kterými klasifikátor v praktické aplikaci pracuje, je LSNB jejich snahou o vytvoření modelu, který tuto neshodu dokáže spolehlivě vyřešit. K implementaci je použit programovací jazyk Python, z jehož knihovny scikit-learn řešení vychází.V teoretické části je obsažen úvod do problematiky spamu, jsou popsány obecné metody strojového učení a také konkrétní algoritmy použité v praktické části, zejména naivní Bayesův klasifikátor. Dále je uveden samotný teoretický model LSNB založený na využití kognitivního zkreslení k napodobení lidské schopnosti učit se. Jsou také zmíněny metody předzpracování dat, nejdůležitější použité knihovny jazyka Python a konečně i metriky, podle kterých se jednotlivé klasifikátory v praktické části porovnávají.V praktické části je podrobně popsán způsob implementace od předzpracování dat, přes učení klasifikátoru na trénovacích datech, po samotnou klasifikaci testovacích dat. Na konci je ukázáno fungování 6 zvolených klasifikátorů na 6 různě zkreslených a různě velkých datasetech podle metrik popsaných v teoretické části. Klasifikátor eLSNB, který byl v této práci implementován, dosáhl v porovnání s ostatními nejlepších výsledků a je vhodný k dalšímu testování.
  • Publisher: Vysoká škola ekonomická v Praze
  • Creation Date: 2020
  • Language: Czech
  • Source: Databáze VŠKP

Searching Remote Databases, Please Wait