!pip install findspark
!pip install pyspark # nainštalujeme a naimportujeme knižnice potrebne pre Apache spark

# vytvorenie spark aplikacie
import findspark
findspark.init()

import pyspark
from pyspark import SparkContext
sc = SparkContext("local", "test app")

data = ["spark", "rdd", "example", "sample", "example"]
rdd = sc.parallelize(data)

rdd.count() # = 5

rdd.collect() # = ["spark", "rdd", "example", "sample", "example"]

rdd.first() # = "spark"

rdd.take(4) # = ["spark", "rdd", "example", "sample"]

rdd.takeSample(True, 3)

print(rdd.reduce(lambda x, y: x + y))

# najprv si definujeme jednoduchú funkciu, ktorá prevedie reťazec na veľké písmená a zobrazí ho na obrazovke
def print_upper(x):
    print(x.upper())
# zavoláme funkciu print_upper pre každý prvok RDD kolekcie
rdd.foreach(print_upper)

# najprv si vytvoríme RDD s dvojicami kľúč:hodnota
kv_pairs = sc.parallelize([("a", 1), ("b", 1), ("a", 1), ("a", 1), ("b", 1), ("b", 1), ("b", 1), ("b", 1)])
# a vypočítame počet hodnôt pre každý kľúč, výsledok operácie je mapa
kv_pairs.countByKey().items()

rdd2 = rdd.map(lambda x: (x, len(x)))
# prvky transformovanej kolekcie získame akciou ‘collect’
rdd2.collect()

# porovnajte napr. nasledujúci príkaz ktorý vygeneruje RDD kolekciu s 3 prvkami a každý prvok je pole
sc.parallelize([1, 2, 3]).map(lambda x: [x, x, x]).collect()
# = [[1, 1, 1], [2, 2, 2], [3, 3, 3]]

# s príkazom ktorý vygeneruje pre každý prvok pôvodnej RDD kolekcie 3 (rovnaké) transformované prvky, tzn. výsledná kolekcia bude
# mať 3x3=9 prvkov
sc.parallelize([2, 3, 4]).flatMap(lambda x: [x, x, x]).collect()
# = [2, 2, 2, 3, 3, 3, 4, 4, 4]

rdd = sc.parallelize([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
filtered_rdd = rdd.filter(lambda x: x % 2 == 0) # vyberieme iba párne čísla
filtered_rdd.collect()

rdd = sc.parallelize(range(1, 10)) # vygenerujeme si postupnosť čísel od 1 do 10
sample_rdd = rdd.sample(True, 0.2) # náhodne vyberieme 20 % prvkov s opakovaním

rdd1 = sc.parallelize(range(1, 15))
rdd2 = sc.parallelize(range(10, 21))
rdd1.union(rdd2).collect()
# = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20]

rdd1.intersection(rdd2).collect()
# = [10, 11, 12, 13, 14, 15]

# najprv si vygenerujeme RDD kolekciu dvojíc typu (prvé písmeno reťazca, reťazec)
rdd = sc.parallelize(["spark", "rdd", "example", "sample", "example"]).map(lambda word: (word[0], word))
# zoskupíme slová podľa kľúča (prvého písmena)
group_rdd = rdd.groupByKey()
# ‘group_rdd’ je kolekcia dvojíc (prvé písmeno, iterátor slov začínajúcich na dané písmeno)
# ak chceme previesť iterátor, tj. druhú zložku dvojice na zoznam, musíme naň aplikovať funkciu ‘list’, čo môžeme zapísať pomocou
# transformácie ‘mapValues’
group_list = group_rdd.mapValues(lambda x: list(x))
# výsledok je RDD kolekcia dvojíc typu (prvé písmeno, zoznam slov začínajúcich na dané písmeno)
group_list.collect()

kv_pairs = sc.parallelize([("a", 4), ("b", 2), ("a", 7), ("a", 4), ("b", 3)])
kv_pairs_count = kv_pairs.reduceByKey(lambda x, y: x + y) # obsahuje prvky ("a", 15), ("b", 5)
kv_pairs_count.collect()

kv_pairs.sortByKey().collect()

import urllib.request
urllib.request.urlretrieve("http://kdd.ics.uci.edu/databases/kddcup99/kddcup.data_10_percent.gz", "kddcup.data_10_percent.gz")

# dáta načítame ako RDD kolekciu zo súboru a zobrazíme prvých 5 záznamov
rawdata = sc.textFile("./kddcup.data_10_percent.gz")
rawdata.take(5)

# z výpisu je vidno, že dáta sú na začiatku reprezentované ako RDD kolekcia reťazcov načítaných zo súboru po riadkoch
# pomocou ‘count‘ možeme spočítať počet záznamov
rawdata.count()

# na rozdelenie riadkov na hodnoty môžeme použiť csv reader
import csv
rdd = sc.textFile("./kddcup.data_10_percent.gz")
rdd = rdd.mapPartitions(lambda x: csv.reader(x))

# ak súbor obsahuje na prvom riadku hlavičku, môžeme ju odstrániť pomocou transformácie ‘filter‘
header = rdd.first()
rdd = rdd.filter(lambda x: x != header)

# nasledujúce príkazy spočítajú, koľko záznamov má cieľový atribút s hodnotou ‘normal‘
# najprv odfiltrujeme všetky riadky ktoré obsahujú reťazec ‘normal‘
normal_records = rawdata.filter(lambda x: "normal" in x)
# a zistíme ich počet
print(normal_records.count())

# naopak dáta, ktoré obsahujú iba údaje o neštandardnej komunikácii získame napr. takto:
attack_raw_data = rawdata.subtract(normal_records)

# pomocou transformácie ‘map‘ rozdelíme riadky na pole hodnôt s čiarkou ako oddeľovačom
csv_data = rawdata.map(lambda line: line.split(","))

# pomocou ‘map‘ si môžeme dáta aj preusporiadať, napr. si vygenerujeme RDD kolekciu typu kľúč:hodnota kde ako kľúč použijeme
# cieľový atribút (index atribútu 41) a ako hodnotu budeme mať pole hodnôt ostatných atribútov (indexy 0 až 40)
def create_kv(line):
    elems = line.split(",") # rozdelíme riadok na podreťazce hodnôt
    tag = elems[41] # tag je cieľový atribút
    return (tag, elems[0:40]) # vrátime dvojicu t

# aplikujeme mapovaciu funkciu na RDD kolekciu
key_csv_data = rawdata.map(create_kv)

# pomocou ‘sample‘ si môžeme náhodne vybrať podmnožinu dát, vyberieme 10 % záznamov bez opakovania (1234 je inicializácia
# generátora náhodných čísel)
rawdata_sample = rawdata.sample(False, 0.1, 1234)
sample_size = rawdata_sample.count()
total_size = rawdata.count()
# vypíšeme počet vybraných záznamov a celkový počet záznamov
print("sample size is {0} of {1}".format(sample_size, total_size))

Spracovanie dát v prostredí Apache Spark¶

Práca s RDD - Resilient Distributed Dataset¶

Základné Spark akcie¶

Základné Spark transformácie¶

RDD operácie nad dátami z reálnej dátovej množiny KDD Cup.¶

Úlohy¶

Úloha 7.1¶

Úloha 7.2¶

Úloha 7.3¶

Úloha 7.4¶