155IN4G Informatika 4: Porovnání verzí
Řádek 6: | Řádek 6: | ||
=== Doporučená literatura === | === Doporučená literatura === | ||
== Harmonogram == | == Harmonogram == |
Verze z 25. 9. 2023, 10:46
Anotace
V rámci předmětu jsou studenti seznámeni s technikami zpracování velkého množství dat. Nejprve se naučí jak předzpracovávat data v příkazovém řádku před importem do DB. Důraz je kladen na relační databáze a témata, která nebyla zmíněna během předmětu Informatika 2: indexy, exekuční plány, partitioning. Poté studenti dostanou základní informace o NoSQL databázích, ElasticSearch, R a cloudu.
Doporučená literatura
Harmonogram
Vyučující: Ing. Jan Pytel, Ph.D.
- BigData - vývoj a koncept
- Preprocesing dat v příkazovém řádku
- Preprocesing dat v příkazovém řádku 2
- Relační databáze - indexy, partitioning, ladění výkonu ACID
- NoSQL databáze - koncept, odlišný přitup oproti relačním databázím
- NoSQL databáze - Apache Cassandra
- NoSQL databáze - grafové databáze (Neo4j), dokumentově orientované databáze
- Základy cloudu
- Instalace NoSQL databáze do cloudu - praktická ukázka redundance, CAP Theorem
- Apache ekosystém I: Hadoop, HBase, Sparc, Pig
- Fultextový vyhledávač ElasticSearch
- Statistický jazyk R - využití při zpracování velkého množství dat
- Statistický jazyk R - spojení s Apache Spark, praktické ukázky