!pip install findspark
!pip install pyspark

# vytvorenie spark aplikacie
import findspark
findspark.init()

import pyspark

# do skriptu si naimportujeme typ SparkSession z modulu ‘pyspark.sql‘
from pyspark.sql import SparkSession

# vytvoríme objekt ‘spark‘ a ako parameter ‘appName‘ nastavíme názov aplikácie (v distribuovanom prostredí môže naraz bežať
# viacero aplikácií, ktoré je potrebné pomenovať aby sme ich vedeli rozlíšiť)

spark = SparkSession.builder.appName("mllib_example").getOrCreate()
sc = spark.sparkContext

# ďalej už môžeme používať objekt rozhrania ‘spark‘ na vytvorenie a spracovanie dátových rámcov

# naimportujeme si potrebné typy
from pyspark.sql import Row
import urllib

# stiahneme si dáta z internetu a uložíme ich do pracovného adresára
urllib.request.urlretrieve("http://people.tuke.sk/martin.sarnovsky/tsvd/files/iris.csv", "iris.csv")

# načítame dáta a premapujeme ich na objekty typu ‘Row’
raw_data = sc.textFile("iris.csv")
csv_data = raw_data.map(lambda x: x.split(","))

csv_data.take(5)

# ako triedu 1 označíme príklady druhu iris-versicolor a ako triedu 0 označíme všetky ostatné príklady

csv_data = csv_data.map(lambda line: [line[0], line[1], line[2], line[3],
        1.0 if line[4] == "iris-versicolor" else 0.0])

csv_data.take(5)

df_data = csv_data.map(lambda line: Row(
        petal_length = float(line[0]),
        petal_width = float(line[1]),
        sepal_length = float(line[2]),
        sepal_width = float(line[3]),
        label = line[4]))
df = spark.createDataFrame(df_data)

df.head(5)

df.groupBy('label').count().show()

# importujeme Vector Assembler
from pyspark.ml.feature import VectorAssembler

# nasledujci príkaz spojí všetky vstupné atribúty do číselného vektora, ktorý uloží do nového stĺpca ‘features’
vector_data = VectorAssembler(inputCols=["petal_length", "petal_width", "sepal_length", "sepal_width"],
        outputCol="features").transform(df)

vector_data.head()

# dáta rozdelíme na trénovaciu (70%) a testovaciu (30%) množinu náhodným výberom
training_data, test_data = vector_data.randomSplit([0.7, 0.3], seed=123)

# importujeme potrebné knižnice
from pyspark.ml.classification import LinearSVC

# najprv vytvoríme objekt ‘LinearSVC’ a nastavíme parametre algoritmu 
svm_classifier = LinearSVC(
        featuresCol="features",                 # parameter features - dátový stĺpec obsahujúci vektor vstupných atribútov
        labelCol="label")                       # parameter labelCol - dátový stĺpec obsahujúci cieľový atribút (indexy tried)

# model naučíme funkciou ‘fit’, ktorej predáme trénovacie dáta
svm_model = svm_classifier.fit(training_data)

# presnosť klasifikácie vyhodnotíme na testovacích dátach pomocou funkcie ‘transform’
predictions = svm_model.transform(test_data)

predictions.head()

test_error = predictions.filter(predictions["prediction"] != predictions["label"]).count() / float(test_data.count())
print("Testing error: {0:.4f}".format(test_error))

# naimportujeme potrebné moduly
from pyspark.sql import Row
import urllib

# stiahneme dáta a načítame ich ako zoznamy reťazcov
# urllib.request.urlretrieve("http://kdd.ics.uci.edu/databases/kddcup99/kddcup.data_10_percent.gz", "kddcup.data_10_percent.gz")
raw_data = sc.textFile("./kddcup.data_10_percent.gz")
csv_data = raw_data.map(lambda x: x.split(","))

df_data = csv_data.map(lambda line: Row(
        duration= float(line[0]),
        protocol_type = line[1],
        src_bytes = float(line[4]),
        dst_bytes = float(line[5]),
        land = float(line[6]),
        attack_type = line[41]))
df = spark.createDataFrame(df_data)

# pre kontrolu zobrazíme prvý záznam
df.first()

df.groupBy('protocol_type').count().show()

df.groupBy('attack_type').count().show(40)

from pyspark.ml.feature import StringIndexer

# najprv vytvoríme index hodnôt volaním funkcie ‘fit’
attack_type_index = StringIndexer(inputCol="attack_type", outputCol="attack_type_index").fit(df)
# po aplikovaní transformácie sa do dátového rámca pridá nový číselný atribút ‘attack_type_index’
df = attack_type_index.transform(df)

df.head()

# zoznam nominálnych hodnôt usporiadaný podľa priradených indexov je možné získať z objektu indexu cez atribút ‘labels’
# napr. nasledujúci príkaz vypíše počet tried, t.j. počet hodnôt cieľového atribútu ‘attack_type’
print("Number of classes: {0}".format(len(attack_type_index.labels)))

from pyspark.ml.feature import OneHotEncoder

protocol_type_index = StringIndexer(inputCol="protocol_type", outputCol="protocol_type_index").fit(df)
df = protocol_type_index.transform(df)

encoder = OneHotEncoder(inputCol="protocol_type_index", outputCol="protocol_encoded").fit(df)
df = encoder.transform(df)

df.head()

# odstránime pôvodné nominálne hodnoty (tzn. dátový rámec bude ďalej obsahovať iba číselné stĺpce)
# df = df.drop("protocol_type")
# df = df.drop("attack_type")
# df.show()

from pyspark.ml.feature import VectorAssembler

# nasledujci príkaz spojí všetky vstupné atribúty do číselného vektora, ktorý uloží do nového stĺpca ‘features’
vector_data = VectorAssembler(inputCols=["dst_bytes", "duration", "land", "src_bytes", "protocol_encoded"],
        outputCol="features").transform(df)

vector_data.head()

training_data, testing_data = vector_data.randomSplit([0.8, 0.2], seed=1234)

from pyspark.ml.classification import DecisionTreeClassifier, DecisionTreeClassificationModel

tree_classifier = DecisionTreeClassifier(
        featuresCol="features",                 # dátový stĺpec obsahujúci vektor vstupných atribútov
        labelCol="attack_type_index",           # dátový stĺpec obsahujúci cieľový atribút (indexy tried)
        impurity="entropy",                     # pre výber atribútov pri delení sa použije kritérium informačného zisku
        maxDepth=5)                             # ohraničíme maximálnu hĺbku generovaného stromu

# klasifikačný model vytvoríme volaním funkcie ‘fit’ na trénovacích dátach
tree_model = tree_classifier.fit(training_data)

# vytvorený model si môžeme uložiť do súboru pomocou funkcie ‘save’
tree_model.save("decision_tree_1.model")

# uložený model môžete spätne načítať zo súboru funkciou ‘DecisionTreeClassificationModel.load’
tree_model = DecisionTreeClassificationModel.load("decision_tree_1.model")

print(tree_model.toDebugString)

# presnosť klasifikácie vyhodnotíme na testovacích dátach pomocou funkcie ‘transform’
# po klasifikácii sa do dátového rámca pridajú nové stĺpce, ktoré obsahujú predikovanú triedu a pravdepodobnosti
predictions = tree_model.transform(testing_data)
# predikovaná trieda je uložená v stĺpci ‘prediction’, spočítame počet chybne klasifikovaných príkladov
# pri ktorých sa ‘prediction’ nerovná cieľovému atribútu ‘attack_type_index’
test_error = predictions.filter(predictions["prediction"] != predictions["attack_type_index"]).count() / float(testing_data.count())
print("Testing error: {0:.4f}".format(test_error))

Cvičenie 9 - Učenie modelov pomocou knižnice MLlib¶

Úloha 9.1¶

Úloha 9.2¶

Úloha 9.3¶