From 6bd7442ce0355e90b1ccc346942ba459b29f5d22 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?F=C3=A1bi=C3=A1n=20Varga?= Date: Tue, 22 Apr 2025 22:41:32 +0200 Subject: [PATCH] lekcia 9 --- README.md | 15 +++++++++------ 1 file changed, 9 insertions(+), 6 deletions(-) diff --git a/README.md b/README.md index fb43b5e..52285dc 100644 --- a/README.md +++ b/README.md @@ -386,16 +386,19 @@ # Lekcia 9: Spracovanie prirodzeného jazyka (NLP) - Predspracovanie textu - - Aaa + - N/A - Tokenizázia - - Aaa + - Rozdelenie textu na menšie časti (_tokeny_). + - Token je časť celku a môžme mu rozumieť ako slovo alebo veta. - Lematizácia - - Aaa + - Je proces, pri ktorom sa slová zmenia na svoj základný tvar (_lemma_). + - Príklad: "bežím", "bežal", "bežať" => "_bežať_". - Stop slová - - Aaa + - Bežné a často používané slová, ktoré zvyčajne nenesú dôležitý význam pre spracovanie textu. + - Príklad: "Pes je na lúke a šteká." => "Pes lúke šteká." -- POS tagging - - Aaa \ No newline at end of file +- Part-of-Speech (_POS_) tagging + - Proces, pri ktorom sa každému slovu v texte priradí slovný druh (podstatné meno, sloveso, prídavné meno, predložka, atď). \ No newline at end of file