Anàlisi de Dades Experimentals
© Antoni Amengual Colom. Departament de Física, Universitat de les Illes Balears.
Versió 1.0 publicada al setembre de 2013. DL: PM 860-2013.
Distribució normal (gaussiana)
L'error probable d'una mitjana (Student)
Introducció «
William S. Gosset començà a fer feina com a estadístic a la fàbrica de cervesa Guiness de Dublin (Irlanda) al 1899. A l'any 1908, publicà l'article The probable error of a mean a la revista Biometrika amb el pseudònim Student. El motiu d'usar un pseudònim es pot trobar en dues versions.
Una de les versions prové de l'article British Statistics and Statisticians (H. Hotelling, JASA, 1930) on es diu que «un altre investigador de Guinness havia publicat prèviament un document que contenia secrets comercials de la fàbrica de cervesa Guinness. Per impedir la divulgació addicional d'informació confidencial, Guinness va prohibir als seus empleats la publicació de qualsevol document, independentment de la informació continguda. No obstant això, després de pregar i explicar que les seves conclusions matemàtiques i filosòfiques no tenien cap utilitat pràctica possible als productors rivals, se li va permetre publicar, però sota un pseudònim» (traduït de l'article de wikipedia sobre W. Gosset consultat al gener de 2013; la imatge de Gosset adjunta s'ha composat a partir d'una imatge del mateix article).
Però en un escrit sobre Gosset, E. Bruce Brooks exposà que «el seu treball a la Guinness el portà a investigar la validesa estadística dels resultats obtinguts a partir de mostres petites (la teoria estadística anterior s'havia centrat en mostres grans). Va tenir un permís a 1906/1907 per estudiar amb Karl Pearson a l'University College de Londres. Les seves publicacions a la revista de Pearson Biometrika es signaren com a Student, no a causa d'una política de la companyia Guinness prohibint que els empleats publiquèssin, com es diu sovint, sinó a causa del desig de l'empresa per mantenir en secret que estaven guanyant un avantatge industrial contractant a estadístics.»
La introducció de l'article de Gosset publicat a la revista Biometrika (vol. 6, núm. 1, p. 1-25) amb el pseudònim Student i el títol The probable error of a mean es presenta a continuació.
Introducció de L'error probable d'una mitjana «
català » anglès
L'ERROR PROBABLE D'UNA MITJANA
per Student
INTRODUCCIÓ
Qualsevol experiment es pot considerar un element d'una «població» d'experiments que es poden realitzar en les mateixes condicions. Una sèrie d'experiments és una mostra extreta d'aquesta població.
Ara, qualsevol sèrie d'experiments només té valor en la mesura que ens permet formar un judici sobre les constants estadístiques de la població a la qual pertanyen els experiments. En la majoria de casos, la qüestió finalment versa sobre el valor d'una mitjana, ja sigui directament o com la diferència mitjana entre dues quantitats.
Si el nombre d'experiments és molt gran, podem tenir informació precisa sobre el valor de la mitjana, però si la mostra és petita, tenim dues fonts d'incertesa: (1) a causa de «l'error de mostreig aleatori» la mitjana de la nostra sèrie d'experiments es desvia més o menys àmpliament de la mitjana de la població, i (2) la mostra no és prou gran per determinar quina és la llei de distribució dels elements. És usual, però, suposar una distribució normal, pel fet que, en un nombre molt nombrós de casos, l'aproximació és tan gran que una mostra petita no dóna cap informació real de la manera com la població es desvia de la normalitat: atès que s'ha d'assumir una llei de distribució, és millor treballar amb una corba les ordenades i l'àrea de la qual es tenen tabulades, i amb propietats ben conegudes. Aquest supòsit és el que s'assumeix en el present document, de manera que les conclusions no són aplicables estrictament a poblacions que se sap que no es distribueixen normalment, si bé sembla probable que la desviació de la normalitat ha de ser molt extrema per conduir a un error greu. Ens referim aquí únicament a la primera de les dues fonts d'incertesa esmentades.
El mètode usual de determinar la probabilitat que la mitjana de la població es trobi dins una distància donada de la mitjana de la mostra és assumir un distribució normal al voltant de la mitjana de la mostra amb una desviació estàndard igual a s/, on s és la desviació estàndard de la mostra, i utilitzar llavors les taules de la integral de probabilitat.
Però, a mesura que es disminueix el nombre d'experiments, el valor de la desviació estàndard trobat a partir de la mostra d'experiments esdevé ell mateix subjecte a un error creixent, fins que els judicis assolits d'aquesta manera es poden convertir en totalment enganyosos.
En el treball de rutina, hi ha dues maneres de fer front a aquesta dificultat: (1) un experiment es pot repetir moltes vegades, fins que s'obté una sèrie tan llarga que la desviació estàndard es determina d'una vegada per totes amb la suficient precisió. Aquest valor se pot utilitzar llavors per a una sèrie posterior més curta d'experiments similars. (2) Quan els experiments es realitzen per duplicat en el curs natural de la feina, la mitjana quadràtica de la diferència entre els corresponents parells és igual a la desviació estàndard de la població multiplicat per . Podem així combinar diverses sèries d'experiments amb el propòsit de determinar la desviació estàndard. Però a causa del canvi secular, el valor obtingut és gairebé sempre massa baix, els experiments successius tenen correlació positiva.
Hi ha altres experiments que no es poden repetir molt sovint de manera fàcil. En aquests casos, de vegades és necessari jutjar la certesa dels resultats a partir d'una mostra molt petita, la qual proporciona a més l'única indicació de la variabilitat. Alguns experiments químics, molts de biològiques, la majoria dels agrícoles i els experiments de gran escala pertanyen a aquesta classe, que fins ara ha estat gairebé fora de l'abast de la investigació estadística.
Un cop més, tot i que és ben conegut que el mètode d'utilització de la corba normal només és fiable quan la mostra és «gran», ningú ens ha dit encara clarament on s'ha de traçar el límit entre mostres «grans» i «petites».
L'objectiu d'aquest treball és determinar el punt en el qual podem fer servir les taules de la integral de probabilitat per jutjar la significació de la mitjana d'una sèrie d'experiments, i proporcionar taules alternatives per usar quan el nombre d'experiments sigui massa petit.