Cilj svake domaće zadaće je

(1) Teorijski dio -- rješenja zadataka koja možete skenirati ili natipkati u latexu; neće uvijek biti potrebno riješiti sve zadatke za dobiti maksimalan broj bodova, ali u tom slučaju preostali zadaci služe kao priprema za završni ispit.

(2) Praktični dio -- (a) kratak dokument (pdf, prezentacija ili slično) u kojem su prezentirani glavni rezultati (slike, tablice itd.) te zaključci i komentari za dane zadatke, te (b) R kod koji rješava zadane zadatke.

Broj dobivenih bodova uz točnost ovisit će o načinu na koji ste prikazali i komentirali/objasnili rezultate (npr. da iz grafova bude jasno što oni točno prikazuju, ako se uspoređuju različiti slučajevi da grafove stavite na istu skalu, da rezultate prikažete bez previše suvišnih riječi i komentara itd.) te urednosti i čitljivosti koda. Kada radimo s pravim podacima (ili nešto pokušavamo zaključiti na temelju rezultata simulacijske studije) i traži se od vas da objasnite ili komentirate dobivene rezultate, tu nema "točnog" i "netočnog" odgovora, nego samo dobro ili loše argumentiran odgovor -- vaši komentari i objašnjenja su jedan od važnijih dijelova zadaće.

Diskusija među studentima je naravno dopuštena, ali očekuje se da svaki student potpuno samostalno napiše svoje rješenje. Na vašem rješenju obavezno naznačite s kime ste od kolega diskutirali o rješenju zadaće.

Sa svaki dan kašnjenja, maksimalni mogući broj bodova koji možete dobiti iz zadaće se smanjuje za dodatnih 20% od ukupnog broja bodova.

 Pripazite da se vaši rezultati mogu reproducirati (koristite funkciju set.seed). U slučaju bilo kakvih nejasnoća, pitajte!

 

  • Rezultati svih zadaća i ukupni bodovi
    • Studenti koji nisu skupili barem 20 bodova nemaju pravo izlaska na ispit čime automatski padaju kolegij.
    • Studenti koji su na svakoj od prve tri zadaće ostvarili barem 50% od ukupnog broja bodova, dobili su dodatnih 5 bodova.
    • Troje studenata (u ovom slučaju su to studentice) koji su generalno najbolje rješavali zadaće su dobili dodatnih 5 bodova (dakle, ukupno dodatnih 10 bodova). 

 

  • 1. domaća zadaća -- rok za predaju 3.11.2023., broj bodova: 10
    • bodovi
    • generalni komentari (teorijski zadaci):
      • Često su falila objašnjenja koraka (npr. gdje se koristi nezavisnost i slično).
      • Kod interpretacije odnosa između pristranosti i varijance, trebalo je na ovom konkretnom primjeru objasniti npr. zašto se pristranost smanjuje kada se k smanjuje -- tada uzimamo susjede koji su bliže x-u, a budući da je funkcija glatka, njihov prosjek će biti bliže stvarnoj vrijednosti regresijske funkcije u x.
    • generalni komentari (praktični zadaci):
      • Većina studentata nije shvatila poantu 1. zadatka. Kada radimo procjenu testne greške, to je dakle samo procjena -- bolja je ona procjena koja je bliže stvarnoj vrijednosti greške, a ne ona koja je manja
      • U prilogu je što sam ja dobio za dijelove (i)-(iii). Budući da smo u dijelu (i) birali model s najmanjom procjenom testne greške, ta greška će tipično biti preoptimistična, tj. manja od stvarne vrijednosti, što je u skladu s onim što sam dobio; ovdje mi ne znamo stvarnu vrijednost greške, ali boxplotovi daju nekakvu indikaciju gdje bi ona mogla biti. S druge strane, kada koristimo CV metodu, testni skup ne koristimo za validaciju, te je onda procjena na njemu nepristrana procjena testne greške, što je u skladu s dobivenim rezultatima. To ne znači da ćemo CV metodom uvijek izabrati optimalan model, ali ipak znači da ćemo dobiti realniju procjenu testne greške modela kojeg smo odabrali.
      • Što se tiče dijela (iv), budući da koristimo veći skup za trening, očekujemo da ćemo dobiti modele s manjom testnom greškom, što je u skladu s rezultatom koji sam ja dobio (crtao sam prosjeke grešaka za svaki k). Ipak, kao uvijek, postoji "tradeoff" -- sada procjenu radimo na manjem skupu, pa očekujemo da rezultirajući procjenitelji imaju veću varijancu, što je opet u skladu s rezultatom kojim sam barem ja dobio. Dakle, povećavanjem skupa za trening te smanjenjem skupa za validaciju/test, tipično će optimalni model imati manju (stvarnu) testnu grešku, ali zbog povećane varijance u procjeni greške moguće je da ćemo (zbog slučajnosti) jednostavno izabrati model čija je stvarna testna greška puno lošija od optimalne, i moguće veća nego u slučaju s manjim skupom za trening; također, kod manjeg skupa za test, iz istog razloga tipično imamo lošiju procjenu testne greške odabranog modela.
      • prilogu je ono što sam ja dobio simulacijskom studijom za 2. zadatak. Ono što je vidljivo u drugom slučaju je "prokletstvo dimenzionalnosti" -- budući da je dimenzija prostora kovarijata velika, potrebno je smanjiti broj susjeda kako bi zaista imali točke koje su blizu traženoj točki, tj. kako bi kontrolirali pristranost. Ipak, time se povećava varijanca, te jednostavno nije moguće istovremeno imati malu pristranosti i varijancu. U trećem slučaju prostor kovarijata je zapravo dimenzije 3, pa ovdje nemamo "prokletstvo dimenzionalnost" te su rezultati slični kao u prvom slučaju.
  • 2. domaća zadaća -- rok za predaju 6.12.2023., broj bodova: 10
    • zad1 (kod)
    • zad2_web (kod)
    • bstar.Rdata
    • generalni komentari (teorijski zadaci):
      • U 1. teorijskom zadatku, često se nije argumentiralo zašto je nađena stacionarna točka globalni minimum. To naravno slijedi iz konveksnosti funkcije čiji minimum tražimo.
    • generalni komentari (praktični zadaci):
      • U 1. zadatku, lasso i elastic net očekivano daju bolje rezultate. Ono što je zanimljivo je da zavisnost u prvom zavisnom slučaju zapravo pomaže pri rekonstrukciji vektora bstar.
      • U 2.  zadatku, za faithful podatke,  kada se gleda svaki klaster zasebno, "smoothing" splajn u odnosu na linearnu regresiju "predviđa" manji utjecaj trajanja erupcije na vrijeme do iduće erupcije (pogotovo u drugom klasteru). Kod funkcije S_diag, "trik" je bio za vektor odziva y staviti i-ti vektor kanonske baze u R^n.
  • 3. domaća zadaća -- rok za predaju 12.1.2023., broj bodova: 15
    • ceb.rda
    • generalni komentari (praktični zadaci):
      • Prvi zadatak je generalno bio dobro riješen. U nekoliko zadaća je falila interpretacija slobodnog člana.
      • Drugi zadatak je generalno bio dobro riješen. Samo dvije stvari -- Kod GAM-a za Poissonovu razdiobu s kanonskom funkcijom veze, logaritam očekivanog broja smrti  je modeliran s aditivnom funkcijom. Kod dodatnog zadatka s interakcijom, na temelju parcijalne funkcije za temperaturu i razinu ozonu ispada da su istovremeno visoka temperatura i razina ozona posebno smrtonosne.
  • 4. domaća zadaća -- samo za vježbu