Lugs Penguin Logo

LUGS - die Mailingliste
Statistik

LUGS

Über die LUGS
Statuten und Protokolle
Sektionen
Terminliste
IRC
Mailinglisten
Kontaktadressen
Mitglied werden
Internes
Mitgliederliste

LINUX

Was ist Linux?
   Screenshots
Distributionen
   kmLinux
Firmen
Ressourcen
LIB

Dokumentation
Events
Projekte
Vorträge
Allgemeines

ChangeLog
Sprache
Galerie

Motivation

In letzter Zeit (Jahreswechsel 98-99) haben einige Leute über zunehmenden Verkehr auf der Lugs-Liste gemeckert. Neil hat dazu ein Email (<199902071616.RAA00666@chonsp.franklin.ch>) geschrieben und da ein paar Zahlen geschickt, leider sind seine statistischen Analyse-Methoden nicht so ausgefeilt. Ich möchte hier eine tiefergehende Analyse bieten.

Zahlen

Ich habe diese Zahlen hier verwendet, es sind nicht die von Neil. Es sind die Grössen (in Bytes) der Dateien, die als Ausgangs-Material für das Archiv der Liste dienen.

199619971998
MonatGrösse
1
2
3
4
5
6
7
8
9
10
11602233
12345798
MonatGrösse
1554377
2396518
3820006
4545071
5660066
6464273
7660025
8396322
9562131
10801793
11723821
12771723
MonatGrösse
1936287
2705023
3695199
41070003
5947468
6859563
71825356
81237781
91424154
101524244
111516101
122085884

Die beiden Zahlen aus dem Jahr 1996 sind aus dem Mail von Neil, da das Archiv erst 1997 anfängt.

Analyse

Ich habe für die Analyse die Statistik-Software R benutzt. R ist dem bekannten S-PLUS nachempfunden.

Ein einfacher Scatter-Plot der Daten zeigt, dass es sich um ein exponentielles Ansteigen handeln könnte. Der Plot der logarithmierten Daten zeigt ein schöneres lineares Ansteigen.

> plot(linux, main="LUGS Mailing-Liste Nov. 96 bis Dez. 98")
> plot(log(linux), 
  main="LUGS Mailing-Liste Nov. 96 bis Dez. 98, logarithmiert")

Die Plots (zwei Bilder à ca. 4kB).

Da lässt sich nun natürlich Regression mit den Daten machen. (Ich versuche also mit der Methode der kleinsten Fehlerquadrate eine Gerade durch die Punkte zu legen.)

Zuerst mit den rohen Daten:

> id _ 1:26
> summary(lm(linux ~ id))

Call:
lm(formula = linux ~ id)

Residuals:
    Min      1Q  Median      3Q     Max 
-368043 -150150  -17738   85411  576293 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   220139     103153   2.134   0.0433 *  
id             49594       6679   7.425 1.15e-07 ***
---
Signif. codes:  0  `***'  0.001  `**'  0.01  `*'  0.05  
                                  `.'  0.1   ` '  1 

Residual standard error: 255400 on 24 degrees of freedom
Multiple R-Squared: 0.6967,     Adjusted R-squared: 0.6841 
F-statistic: 55.13 on 1 and 24 degrees of freedom,
                                p-value: 1.151e-07 

Die Nullhypothese der lineare Regression lautet: "es gibt keinen linearen Zusammenhang zwischen id und linux". Diese Nullhypothese kann mit hoher statistischer Signifikanz verworfen werden.

Das Resultat der Regression auf den transformierten Daten ist analog:

> summary(lm(log(linux) ~ id))

Call:
lm(formula = log(linux) ~ id)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.50823 -0.20573  0.02685  0.08872  0.48713 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 12.861670   0.100016 128.596  < 2e-16 ***
id           0.053654   0.006476   8.285 1.69e-08 ***
---
Signif. codes:  0  `***'  0.001  `**'  0.01  `*'  0.05  
                                  `.'  0.1   ` '  1 

Residual standard error: 0.2477 on 24 degrees of freedom
Multiple R-Squared: 0.7409,     Adjusted R-squared: 0.7301 
F-statistic: 68.64 on 1 and 24 degrees of freedom,
                                 p-value: 1.69e-08 

Der wichtige Unterschied zwischen diesen beiden Resultaten ist allerdings, dass im transformierten Modell R2 grösser ist. R2 gibt den Anteil der Gesamtvariabilität an, der durch die Regression erklärt wird. Dh. das transformierte Modell ist besser, da R2 grösser ist.

Schauen wir uns das graphisch an:

> plot(linux, main="LUGS Mailing-Liste Nov. 96 bis Dez. 98")
> abline(linux.linear)
> plot(linux, 
  main="LUGS Mailing-Liste Nov. 96 bis Dez. 98, transformiert")
> lines(id, exp(12.861670)*exp(0.053654*id))

Die Plots (zwei Bilder à ca. 4kB).

Schlussfolgerungen

Die statistische Analyse von oben zeigt, dass das Volumen auf der Liste über die letzen zwei Jahre tatsächlich gewachsen ist :-). Sie ermöglicht es aber auch, ein Abschätzung des weiteren Wachstums zu geben. Die Unsicherheit wird zwar immer grösser, je weiter entfernt die Schätzung liegt, aber berechnen lässt sich ja vieles:

Wannrohe Datentransformierte
Daten
Dez. 199921047112959474
Dez. 200026998395634224

Die Regression der rohen Daten berechnet, dass das Volumen jeden Monat um etwa 50kB zunimmt. Die Regression auf den transformierten Daten berechnet, dass sich das Volumen alle 13 Monate verdoppelt.

Na dann Prost.

Powered by Linux, served by Apache / PHP, last changes done 04.02.2008 -- Copyright