ΜΑΣ 458 (Στατιστική Ανάλυση Δεδομένων) και ΜΑΣ468 (Θέματα Στατιστικής ΙΙ)

Εργασία 2

Ημερομηνία Παράδοσης: 03/03/2019

  1. Nα γράψετε συνάρτηση στην R, η οποία παίρνει ως όρισμα δύο δείγματα και κάνει το αντίστοιχο QQ-plot. Επιτρέπεται η χρήση της συνάρτησης sort. Να παράξετε δύο δείγματα μεγέθους 100 από κατανομές της επιλογής σας και να χρησιμοποιήσετε τη συνάρτησή σας για να παρουσιάσετε το αντίστοιχο QQ-plot.

  2. Να χρησιμοποιήσετε την εντολή rcauchy για να παράξετε ανεξάρτητο δείγμα μεγέθους 100 από την τυπική κατανομή Cauchy. Να παράξετε ανεξάρτητο δείγμα ίσου μεγέθους από την τυπική κανονική κατανομή. Να συγκρίνετε τα ιστογράμματα, κυτιογραφήματα, μη παραμετρικές εκτιμήτριες συνάρτησης πυκνότητας πιθανότητας και εμπειρικές συναρτήσεις κατανομής των δύο δειγμάτων. Ποιες οι ομοιότητες και ποιες οι διαφορές των δύο δειγμάτων;

  3. Να γράψετε συνάρτηση στην R, η οποία παίρνει ορίσματα \(a,c\in\mathbb{R}\), \(b\in[0,1]\) και φυσικό αριθμό \(n\) και επιστρέφει δείγμα από μια χρονοσειρά Gaussian autoregression \(AR(1)\) που έχει τη μορφή \[X_t = a + b X_{t-1} + \epsilon_t, \;t=1,2,\dots, n,\] όπου \(Χ_0=c\) και \(\epsilon_t\stackrel{iid}{\sim}N(0,1)\) για \(t=1,2,\dots,n\). Για \(n=1000\), να κάνετε τα γραφήματα των χρονοσειρών καθώς και των συναρτήσεων αυτοσυσχέτισης για τους πιο κάτω συνδιασμούς τιμών των παραμέτρων:
  1. Θεωρήστε την κατανομή Bernoulli με πιθανότητα επιτυχίας \(p=1/3\). Να ελέγξετε με προσομοίωση την ισχύ του Κεντρικού Οριακού Θεωρήματος. Για να το πετύχετε αυτό γράψετε συνάρτηση η οποία παίρνει ως όρισμα φυσικό αριθμό \(n\) και επιστρέφει ένα δείγμα από την \(S_n=\sum_{i=1}^nX_i,\) όπου \(X_i\stackrel{iid}\sim Bernoulli(p)\). Ακολούθως γράψετε μια άλλη συνάρτηση, η οποία παίρνει ως όρισμα φυσικούς αριθμούς \(m\) και \(n\) και επιστρέφει \(m\) ανεξάρτητα δείγματα της \(S_n\). Τέλος παράξετε 1000 δείγματα της \(S_n\) για \(n=10,100,1000\) και ελέγξετε γραφικά και με στατιστικό έλεγχο την ισχύ του Κεντρικού Οριακού Θεωρήματος.

  2. Nα βρείτε από το διαδίκτυο δεδομένα και να κάνετε μια στατιστική διερεύνηση των τιμών μιας από τις μεταβλητές που περιλαμβάνουν, με χρήση στατιστικών συναρτήσεων, γραφημάτων και στατιστικών ελέγχων. Να εξηγήσετε περιληπτικά τι αφορά η μεταβλητή και να συζητήσετε χαρακτηριστικά των παρατηρήσεων της όπως παράμετροι θέσεις και εύρους, κατά πόσο φαίνονται να προέρχονται από κάποια γνωστή κατανομή, συμμετρικότητα ή λοξότητα, αν απουσιάζουν κάποιες τιμές, ύπαρξη ακραίων τιμών κλπ. Δύο βάσεις δεδομένων είναι οι https://www.kaggle.com/datasets και https://ec.europa.eu/eurostat/data/database