Suderinamumo uždavinys

Atsitiktinai parinkta 400 žmonių ir tirta, kurią savaitės dieną kievienas iš jų yra gimę. Gauti duomenys suvesti į tokią empirinio skirstinio lentelę, paremtą absoliutiniais kokybinio požymio savaitės diena dažnumais:

Ar šie duomenys suderinami su nuostata, kad tikimybė gimti bet kurią savaitės dieną yra vienoda (t.y. lygi 1 / 7 = 0,142857)?
Tai vienas iš paprastesnių suderinamumo uždavinių, nes visus empirinius kokybinio požymio (savaitės diena) reikšmių dažnumus tenka lyginti tik su vienu, pastoviu „predikatu“, apspręstu pastovios tikimybės 1/7. Didžiumoje kitų suderinamumo uždavinių kiekvienos iš reikšmių tikimybė būna vis kitokia, tad ir lyginimo „predikatai“ įvairuoja.

Jeigu nuostata, kad tikimybė gimti bet kurią savaitės dieną yra pastovi ir lygi 1 / 7 = 0,142857 teisinga,tai bet kurią savaitės dieną „teoriškai“ turėtų būti gimę po… 0,142857*400 = 57, 14286 žmogaus! Sprendžiant klausimą apie šių konkrečių duomenų suderinamumą su minėta nuostata, būtent su šiuo „predikatu“ ir tektų lyginti turimus empirinius absoliutinius dažnumus. Tačiau – kaip lyginti?

Suderinamumo uždavinių statistinis modelis bendru atveju būtų toks:

Situacija. Imtis atsitiktinė, tiriamas požymis – diskretusis (jis gali būti kokybinis, ranginis arba kiekybinis diskretusis; jei jis – kiekybinis tolydusis požymis, tai diskretizuojamas dirbtinai, paprastai – grupuojant reikšmes intervalais). Imtyje jis įgauna k skirtingų reikšmių. Eksperimentiškai yra nustatytas kiekvienos (i-tosios; i = 1, 2 … k) iš tų reikšmių absoliutinis dažnumas a_{i}, o taip pat esama galimybių apskaičiuoti kiekvienos iš jų teorinę tikimybę t_{i}. Visi šie duomenys paprastai suvedami į vadinamąją dažnių lentelę, panašią į anksčiau pateiktąją, tik turinčią dar ir trečią eilutę, skirtą teorinėms reikšmių tikimybėms t_{i}. Natūralu, kad taip pat yra žinomas ir visos imties dydis (n) – jis prilygsta visų reikšmių absoliutinių dažnumų sumai: n = suma(a_{i}), kur i = 1, 2 … k.

Statistines prielaidas šiuo atveju suprantamiau yra suformuluoti žodžiais. Bendru atveju jas galima apibūdinti
maždaug taip:

H_{0}: Stebimasis empirinis reikšmių skirstinys iš esmės nesiskiria nuo parinktojo teorinio modelio ir yra su juo statistiškai suderinamas
H_{1}: Stebimasis empirinis reikšmių skirstinys iš esmės skiriasi nuo parinktojo teorinio modelio ir yra su juo statistiškai nesuderinamas

Formalizuotas statistinių prielaidų „pavaizdavimas“ taip pat galimas: tada nulinėje hipotezėje teigtume, kad visiems i = 1, 2 … k požymio skirtingų reikšmių proporcijos pi populiacijoje, iš kurios paimta imtis, esmingai nesiskiria nuo jų teorinių tikimybių t_{i}:

H_{0}: p_{i}=t_{i}

H_{1}: p_{i}\neq{t_{i}}

Kriterijaus statistika skaičiuojama tokių dydžių suma (pažymėkime ją x):

x=\sum\limits_{i=1}^{k}\frac{(a_{i}-nt_{i})^{2}}{nt_{i}}

Kai H_{0} teisinga, ši KS turi chi-kvadrato skirstinį su tam tikru  f  laisvės laipsnių skaičiumi, kuris priklauso nuo to, kokiu konkrečiu būdu buvo apskaičiuojamos tikimybės t_{i}, tiksliau – nuo to, kelių parametrų
empiriniais įverčiais naudotasi apskaičiuojant t_{i}. Šių įverčių kiekį pažymėję h, laisvės laipsnių
skaičių gautosios x chi-kvadrato skirstiniui nustatytume šitaip:

f=h-k-1

Prielaidų vertinimas remiasi apskaičiuotąja x reikšme. Jeigu remiamasi iš anksto pasirinktu reikšmingumo lygmeniu \alpha, tai H0 atmetama, kai x viršija turimą laisvės laipsnių skaičių atitinčią kritinę reikšmę (KR), kurią galima arba rasti statistikos knygų prieduose, arba apskaičiuoti su Excel remiantis žinomu laisvės laipsnių skaičiumi f ir pasirinktuoju reikšmingumo lygmeniu \alpha:

KR = CHIINV( f; \alpha)

Kita vertus su Excel lengva apskaičiuoti ir gautąjį x dydį atitinkančią p-reikšmę:

p = CHIDIST(x; f )

Jeigu p-reikšmė gaunama nedidelė (paprastai – mažesnė už tradicinius reikšmingumo lygmenis), H_{0} taip pat atmetama (su tokio pat dydžio pirmos rūšies klaidos rizika) bei, tuo pačiu, verifikuojama (patvirtinama esanti teisinga) alternatyva. O jeigu p-reikšmė gaunama pakankamai žymi ar netgi didelė, tai H_{0} neatmetama ir paliekama toliau „likti prielaida“.

Jeigu grįžtume prie šio post’o pradžioje pateikto pavyzdžio ir aptartu būdu jam apskaičiuotume kriterijaus statistiką, tai gautume x = 8,765; laisvės laipsnių skaičius būtų f = 7 – 1 = 6 (nes kokybinis požymis savaitės diena įgyja 7 skirtingas reikšmes, o tikimybes t_{i} = \frac{1}{7} „išprotavome“ nesinaudodami nė vieno parametro empiriniu įverčiu, taigi, h = 0), todėl pagal imties duomenis gaunama p-reikšmė būtų p = 0,187232. Tad nulinei hipotezei atmesti nebūtų visiškai tvirto pamato (kone 19% siekianti pirmos rūšies klaidos rizika dar yra gerokai per didelė), ir turėtume sakyti, kad šios imties duomenys nepaneigia nuostatos, jog tikimybė gimti bet kurią savaitės dieną yra vienoda.

Išvada. Suderinamumo uždavinius tenka spręsti ir siekiant patikrinti, ar eksperimento metu gautų duomenų empirinis
skirstinys atitinka kokį nors hipotetinį teorinį skirstinį (pvz., normalųjį – tai dažna problema).

Žymos:

Vienas atsakymas to “Suderinamumo uždavinys”

  1. cyzius Says:

    Siu duomenu netikslus atspindejimas tikimybes tikrodo, kad reikia ddinti imties diduma ir tada artesimne prie tos teorines tikimybes.

Parašykite komentarą