CILJEVI PREDMETA:
Glavni cilj predmeta je razvoj tehnike matematičkog modeliranja i prikladnih matematičkih metoda za probleme složene analize podataka. Fokus je na glavnom problemu podatkovnih znanosti - kako iz neke (obično ogromne) kolekcije sirovih podataka izlučiti dodatnu, kvalitetniju informaciju. Na konkretnim primjerima primjena iz realnog svijeta (npr. pretraživači Interneta, obrada podataka vezanih za strukture proteina, obrada slike-algoritamsko prepoznavanje lica i algoritamsko čitanje) će se pokazati kako objekte iz realnog svijeta i veze među njima opisati matematičkim objektima i funkcijama nad njima. Pokazuje se kako nizom sasvim elementarnih razmatranja dolazimo do visoko sofisticiranih matematičkih modela koji kombiniraju tehnike statistike, numeričke matematike, teorije grafova, multilinearne algebre itd. U tom smislu je kolegij dobra vježba integralne primjene naučenih matematičkih tehnika na probleme iz realnih primjena, a glavna dodana vrijednost je svladavanje modernih tehnika podatkovnih znanosti iz područja redukcije dimenzije, klasteriranja, analize strukture mreža.
NASTAVNI SADRŽAJI:
1. Vektorski model podataka (motivacija i primjeri - tekstualni podaci, slika, video, itd.)
2. Metode klasteriranja (k-sredine s varijacijama, spektralna relaksacija k-sredina)
3. SVD dekompozicija i primjene na redukciju dimenzije i uklanjanje šuma, te steganografiju.
4. Klasteriranje pomocu spektralnih rezova u tezinskom grafu
5. Google page rank algoritam s detaljnom analizom koja ukljucuje elemente teorije stohastickih i nenegativnih matrica
6. Centralnost i druge tezinske mjere vrhova u grafu
7. Tenzori i tenzorske dekompozicije
8. Tenzorski SVD i kompresija tenzora s primjenama
9. Nenegativne matricne faktorizacije s primjenama u klasteriranju
10 Studijski primjeri
|
-
The 25,000,000,000 Eigenvector: The Linear Algebra behind Google., Kurt Bryan, Tanya Leise, SIAM Review Vol. 48, No. 3, 2006.
-
Link Analysis: Hubs and Authorities on the World Wide Web, Chris H. Q. Ding, Hongyuan Zha, Xiaofeng He, Horst D. Simon, SIAM Review 46(2), 2002.
-
A Measure of Similarity between Graph Vertices: Applications to Synonym Extraction and Web Searching, V. D. Blondel, A.í Gajardo, M. Heymans, P. Senellart, P. Van Dooren, SIAM Review 46(4), 2004.
-
Spectral relaxation for k-means clustering, H. Zha, X. He, CH. Ding. H. Simon, M. Gu, NIPS, 2001.
-
Tensor Decompositions and Applications, T. G. Kolda, B. W. Bader, SIAM Review 51(3), 2009.
-
Higher-order web link analysis using multilinear algebra, T.Kolda, B. Bader, J. Kenny, Sandia Tech Report, 2005.
|