155IN4G Informatika 4

Z GeoWikiCZ


Anotace

V rámci předmětu jsou studenti seznámeni s technikami zpracování velkého množství dat. Nejprve se naučí jak předzpracovávat data v příkazovém řádku před importem do DB. Důraz je kladen na relační databáze a témata, která nebyla zmíněna během předmětu Informatika 2: indexy, exekuční plány, partitioning. Poté studenti dostanou základní informace o NoSQL databázích, ElasticSearch, R a cloudu.

Doporučená literatura

Podmínky ukončení předmětu

Harmonogram

Vyučující: Ing. Jan Pytel, Ph.D.

  1. BigData - vývoj a koncept
  2. Preprocesing dat v příkazovém řádku
  3. Preprocesing dat v příkazovém řádku 2
  4. Relační databáze - indexy, partitioning, ladění výkonu ACID
  5. NoSQL databáze - koncept, odlišný přitup oproti relačním databázím
  6. NoSQL databáze - Apache Cassandra
  7. NoSQL databáze - grafové databáze (Neo4j), dokumentově orientované databáze
  8. Základy cloudu
  9. Instalace NoSQL databáze do cloudu - praktická ukázka redundance, CAP Theorem
  10. Apache ekosystém I: Hadoop, HBase, Sparc, Pig
  11. Fultextový vyhledávač ElasticSearch
  12. Statistický jazyk R - využití při zpracování velkého množství dat
  13. Statistický jazyk R - spojení s Apache Spark, praktické ukázky

Odkazy