Diagrama medis

5 gruodžio, 2009

Sugrupuota dažnių lentelė turi trūkumą – grupavimo metu pradinė informacija prarandama. Diagrama medis leidžia šio trūkumo išvengti. Kaip ši diagrama yra sudaroma? Jei skaičius turi du ar daugiau skaitmenų, tada jį galima išskaidyti į šaką ir lapą. Šaka yra pirmasis skaitmuo, lapas – paskutinis skaitmuo.

Pavyzdys. Studentų svoriai yra tokie:

78, 67, 65, 87, 75, 65, 71, 54, 94,64,84,82,81,68,85, 76, 89, 98, 59, 57, 79, 65, 59, 80, 67.

1 žingsnis. Šakos skaitmenis išdėstome vertikaliai. Brūkšniu atskiriame šaką nuo lapų:

5|\\6|\\7|\\8|\\9|

2 žingsnis. Kiekvieną lapą atidedame į dešinę nuo savojo skaitmens šakoje. Kadangi pirmasis skaičius
yra 78, skaičiaus 7 dešinėje parašome 8:
5|\\6|\\7|8\\8|\\9|

Tęsdami šį procesą, sudarome tokią diagramą:

5| 9 7 4 9

6| 4 5 7 5 7 8 5

7| 8 6 1 9 5

8| 5 4 2 9 7 1 0

9| 8 4

Lapų tvarka neturi reikšmės. Bet jei lapai yra išdėstyti didėjimo tvarka, gauname sutvarkytą diagramą. Pažvelgę į diagramą medį, nesunkiai pastebėsime, kad:

  • Didžiausias svoris yra 98 kg;
  • Mažiausias svoris yra 54 kg;
  • Svoriai kinta nuo 54 iki 98 kg;
  • Sveriančiųjų daugiau kaip 90 kg yra mažiausiai;
  • Daugiausiai yra studentų, kurių svoris yra nuo 60 iki 70 ir nuo 80 iki 90 kg.

Išvada. Lapų skaičius nurodo, kiek reikšmių patenka į atitinkamą intervalą.

Suderinamumo uždavinys

5 gruodžio, 2009

Atsitiktinai parinkta 400 žmonių ir tirta, kurią savaitės dieną kievienas iš jų yra gimę. Gauti duomenys suvesti į tokią empirinio skirstinio lentelę, paremtą absoliutiniais kokybinio požymio savaitės diena dažnumais:

Ar šie duomenys suderinami su nuostata, kad tikimybė gimti bet kurią savaitės dieną yra vienoda (t.y. lygi 1 / 7 = 0,142857)?
Tai vienas iš paprastesnių suderinamumo uždavinių, nes visus empirinius kokybinio požymio (savaitės diena) reikšmių dažnumus tenka lyginti tik su vienu, pastoviu „predikatu“, apspręstu pastovios tikimybės 1/7. Didžiumoje kitų suderinamumo uždavinių kiekvienos iš reikšmių tikimybė būna vis kitokia, tad ir lyginimo „predikatai“ įvairuoja.

Jeigu nuostata, kad tikimybė gimti bet kurią savaitės dieną yra pastovi ir lygi 1 / 7 = 0,142857 teisinga,tai bet kurią savaitės dieną „teoriškai“ turėtų būti gimę po… 0,142857*400 = 57, 14286 žmogaus! Sprendžiant klausimą apie šių konkrečių duomenų suderinamumą su minėta nuostata, būtent su šiuo „predikatu“ ir tektų lyginti turimus empirinius absoliutinius dažnumus. Tačiau – kaip lyginti?

Suderinamumo uždavinių statistinis modelis bendru atveju būtų toks:

Situacija. Imtis atsitiktinė, tiriamas požymis – diskretusis (jis gali būti kokybinis, ranginis arba kiekybinis diskretusis; jei jis – kiekybinis tolydusis požymis, tai diskretizuojamas dirbtinai, paprastai – grupuojant reikšmes intervalais). Imtyje jis įgauna k skirtingų reikšmių. Eksperimentiškai yra nustatytas kiekvienos (i-tosios; i = 1, 2 … k) iš tų reikšmių absoliutinis dažnumas a_{i}, o taip pat esama galimybių apskaičiuoti kiekvienos iš jų teorinę tikimybę t_{i}. Visi šie duomenys paprastai suvedami į vadinamąją dažnių lentelę, panašią į anksčiau pateiktąją, tik turinčią dar ir trečią eilutę, skirtą teorinėms reikšmių tikimybėms t_{i}. Natūralu, kad taip pat yra žinomas ir visos imties dydis (n) – jis prilygsta visų reikšmių absoliutinių dažnumų sumai: n = suma(a_{i}), kur i = 1, 2 … k.

Statistines prielaidas šiuo atveju suprantamiau yra suformuluoti žodžiais. Bendru atveju jas galima apibūdinti
maždaug taip:

H_{0}: Stebimasis empirinis reikšmių skirstinys iš esmės nesiskiria nuo parinktojo teorinio modelio ir yra su juo statistiškai suderinamas
H_{1}: Stebimasis empirinis reikšmių skirstinys iš esmės skiriasi nuo parinktojo teorinio modelio ir yra su juo statistiškai nesuderinamas

Formalizuotas statistinių prielaidų „pavaizdavimas“ taip pat galimas: tada nulinėje hipotezėje teigtume, kad visiems i = 1, 2 … k požymio skirtingų reikšmių proporcijos pi populiacijoje, iš kurios paimta imtis, esmingai nesiskiria nuo jų teorinių tikimybių t_{i}:

H_{0}: p_{i}=t_{i}

H_{1}: p_{i}\neq{t_{i}}

Kriterijaus statistika skaičiuojama tokių dydžių suma (pažymėkime ją x):

x=\sum\limits_{i=1}^{k}\frac{(a_{i}-nt_{i})^{2}}{nt_{i}}

Kai H_{0} teisinga, ši KS turi chi-kvadrato skirstinį su tam tikru  f  laisvės laipsnių skaičiumi, kuris priklauso nuo to, kokiu konkrečiu būdu buvo apskaičiuojamos tikimybės t_{i}, tiksliau – nuo to, kelių parametrų
empiriniais įverčiais naudotasi apskaičiuojant t_{i}. Šių įverčių kiekį pažymėję h, laisvės laipsnių
skaičių gautosios x chi-kvadrato skirstiniui nustatytume šitaip:

f=h-k-1

Prielaidų vertinimas remiasi apskaičiuotąja x reikšme. Jeigu remiamasi iš anksto pasirinktu reikšmingumo lygmeniu \alpha, tai H0 atmetama, kai x viršija turimą laisvės laipsnių skaičių atitinčią kritinę reikšmę (KR), kurią galima arba rasti statistikos knygų prieduose, arba apskaičiuoti su Excel remiantis žinomu laisvės laipsnių skaičiumi f ir pasirinktuoju reikšmingumo lygmeniu \alpha:

KR = CHIINV( f; \alpha)

Kita vertus su Excel lengva apskaičiuoti ir gautąjį x dydį atitinkančią p-reikšmę:

p = CHIDIST(x; f )

Jeigu p-reikšmė gaunama nedidelė (paprastai – mažesnė už tradicinius reikšmingumo lygmenis), H_{0} taip pat atmetama (su tokio pat dydžio pirmos rūšies klaidos rizika) bei, tuo pačiu, verifikuojama (patvirtinama esanti teisinga) alternatyva. O jeigu p-reikšmė gaunama pakankamai žymi ar netgi didelė, tai H_{0} neatmetama ir paliekama toliau „likti prielaida“.

Jeigu grįžtume prie šio post’o pradžioje pateikto pavyzdžio ir aptartu būdu jam apskaičiuotume kriterijaus statistiką, tai gautume x = 8,765; laisvės laipsnių skaičius būtų f = 7 – 1 = 6 (nes kokybinis požymis savaitės diena įgyja 7 skirtingas reikšmes, o tikimybes t_{i} = \frac{1}{7} „išprotavome“ nesinaudodami nė vieno parametro empiriniu įverčiu, taigi, h = 0), todėl pagal imties duomenis gaunama p-reikšmė būtų p = 0,187232. Tad nulinei hipotezei atmesti nebūtų visiškai tvirto pamato (kone 19% siekianti pirmos rūšies klaidos rizika dar yra gerokai per didelė), ir turėtume sakyti, kad šios imties duomenys nepaneigia nuostatos, jog tikimybė gimti bet kurią savaitės dieną yra vienoda.

Išvada. Suderinamumo uždavinius tenka spręsti ir siekiant patikrinti, ar eksperimento metu gautų duomenų empirinis
skirstinys atitinka kokį nors hipotetinį teorinį skirstinį (pvz., normalųjį – tai dažna problema).

Mončio Holo uždavinys

5 gruodžio, 2009

Mončio Holo uždavinys (angl. Monty Hall problem) yra tikimybių teorijos uždavinys, paremtas amerikiečių televizijos laida Let’s make a deal. Uždavinys pavadintas laidos vedėjo Mončio Holo vardu. Uždavinys taip pat kartais vadinamas yra Mončio Holo paradoksu, nes uždavinio išvada kai kuriems žmonėms atrodo absurdiška, nepaisant to, kad jos teisingumą galima įrodyti matematiškai.

Paradoksas. Tarkime, kad jūs esate žaidime, kuriame turite pasirinkti vieną iš trejų durų. Už vienų durų yra automobilis (pagrindinis prizas), o už kitų dviejų durų – ožkos (paguodos prizai). Mašina ir ožkos yra atsitiktinai sudėliojamos už durų prieš prasidedant laidai. Žaidimo taisyklės yra tokios: jums pasirinkus vienas duris, tos durys lieka uždarytos. Žaidimo vedėjas Montis Holas, kuris žino, kas yra už kiekvienų durų, dabar turi atverti vieną iš jūsų nepasirinktų durų. Jis privalo atverti duris, už kurių slėptųsi ožka. Jei jūs pasirinkote duris, už kurių yra automobilis, vedėjas atveria bet kurią iš dvejų durų, nes už jų abiejų slepiasi ožkos. Atvėręs duris vedėjas jūsų paklausia, ar norėsite pasilikti su savo pirmuoju pasirinkimu, ar norėsite jį pakeisti ir atverti kitas duris. Pavyzdžiui, įsivaizduokite, kad pasirenkate pirmąsias duris ir po to vedėjas atveria trečiąsias duris, už kurių yra ožka. Tada vedėjas jūsų paklausia „Ar norite pakeisti savo pasirinkimą ir atverti antrąsias duris?“. Ar jums apsimoka priimti šį vedėjo pasiūlymą?

Už vienerių durų slepiasi mašina, o už kitų dvejų – ožkos. Pirmasis duri atveria vedėjas ir už jo pasirinktų durų būtinai yra ožka.

Sprendimai. Kadangi žaidėjas niekaip negali žinoti, už kurių durų slepiasi automobilis, daugelis žmonių intuityviai galvoja, kad abi durys turi tokią pačią galimybę būti laimingomis ir todėl yra nesvarbu, ar žaidėjas pakeis savo pasirinkimą, ar ne. Vis dėlto, iš tikrųjų pakeisdamas savo pasirinkimą, žaidėjas padvigubina laimėjimo tikimybę nuo \frac{1}{3} iki \frac{2}{3}. Yra keli būdai tą įrodyti. Vienas iš populiariausių sprendimų gali būti pavaizduotas tokia schema:

Žaidėjas iš pradžių turi lygias galimybes pasirinkti duris, už kurių yra mašina, ožka A ir ožka B, tad visi trys parodyti variantai yra vienodai tikėtini. Iš schemos galima matyti, kad pakeitus durų pasirinkimą laimima dviem atvejais iš trijų, o nepasikeitus – tik vienu, todėl pakeitus sprendimą galimybė laimėti yra \frac{2}{3}, o nepakeitus – \frac{1}{3}.

Kitas sprendimo būdas. Kitas būdas suprasti sprendimą yra galvoti apie dvi duris, kurių žaidėjas iš pradžių nepasirinko, kaip apie vieną objektą. Iš pradžių, tikimybė, kad už vienų iš šių dvejų durų slepiasi automobilis yra \frac{2}{3}. Vedėjui atvėrus vienas iš šių durų, ši tikimybė nesumažėja, nes vedėjas turi būtinai atverti nelaimingas duris.

Tikimybė, kad už žaidėjo pasirinktų durų slepiasi automobilis yra \frac{1}{3} o kad jis yra už vienos iš kitų dvejų durų – \frac{2}{3}.

Tikimybė, kad pradinis žaidėjo pasirinkimas laimės tebėra \frac{1}{3}. Skirtumas tik tas, kad tikimybė, kad už vedėjo atidarytų durų yra automobilis po jų atidarymo tampa lygi nuliui. Taigi lieka \frac{2}{3} tikimybė, kad automobilis yra už neatidarytų ir žaidėjo nepasirinktų durų.

Monte Karlo metodas

5 gruodžio, 2009

Monte Karlo metodas – skaičiavimo algoritmas, pagrįstas statistiniu modeliavimu ir gautų rezultatų apdorojimu statistiniais metodais. Šis metodas leidžia brangiai kainuojančius bandymus pakeisti modeliavimu kompiuteriais ir labai sumažina tyrimų trukmę. Monte Karlo metodai dažniausiai naudojami fizikinių ir matematinių sistemų modeliavimui, kai neįmanoma gauti tikslių rezultatų naudojant deterministinį algoritmą.

Idėja. Norint atlikti labai sudėtingą skaičiavimą, reikalaujantį ištyrinėti didelę duomenų erdvę, galima tą patį skaičiavimą atlikti tik su keletu atsitiktinai pasirinktų duomenų. Atsitiktinai parinkti duomenys dažniausiai būna „tipiški“, todėl natūralu tikėtis, kad ir atliktas skaičiavimas ne itin daug skirsis nuo tikslaus. Pavyzdžiui, nežinodami kaip apskaičiuoti apskritimo, nubrėžto kompiuterio ekrane, plotą, galėtume atsitiktinai išdėlioti keliasdešimt taškų. Suskaičiavę, kokia dalis taškų pateko į apskritimą, galėtume apytiksliai pasakyti ir jo plotą. Žinoma, tam turime suprasti, kaip generuojami atsitiktiniai taškai.

Naudojimas. Norint atlikti išėjimo parametro reikšmių išsibarstymo tyrimą, reikia turėti ryšio funkciją y=f(x_{1},x_{2},...,x_{n}).

Tikslumo tyrimas susideda iš tokių etapų:

  • Modeliuojami elementų parametrų skirstiniai W(x_{i});
  • Skaičiuojamos išėjimo parametro y reikšmės, esant atsitiktinėms xi reikšmių kombinacijoms, atitinkančioms W(x_{i}) dėsnius, t.y. modeliuojamas kūrybinis procesas;
  • Modeliavimo rezultatai apdorojami statistiniais metodais.

Šio apdorojimo tikslas yra įvertinti skaitines išėjimo parametro charakteristikas (vidutinę reikšmę ir dispersiją D(y), nustatyti išėjimo parametro skirstinį w(y) arba surasti tikimybę, kad išėjimo parametro reikšmės bus duotosiose ribose, kintant elementų parametrų reikšmėms pagal skirstinius.

Tiriant išėjimo parametrų tikslumą statistinių bandymų metodu, reikalingos elementų parametrų atsitiktinės reikšmės. Šių reikšmių modeliavimui naudojami atsitiktinių skaičių generatoriai. Didžiausią praktinę reikšmę turi vienodos tikimybės skaičiai intervale [0, 1]. Skaičiai su kitokiais norimais skirstiniais w(x) gaunami naudojant vienodos tikimybės skaičius ir sprendžiant lygtį parametro x atžvilgiu, esant įvairioms tikimybės P reikšmėms: (0 ≤ P ≤ 1).

Tokiu būdu gaunami pseudoatsitiktiniai skaičiai xi, pasiskirstę pagal skirstinį w(xi). Naudojami ir kitokie atsitiktinių skaičių gavimo būdai. Visos šiuolaikinės elektroninės skaičiavimo mašinos turi programas, leidžiančias generuoti pseudoatsitiktinius skaičius, pasiskirsčiusius pagal norimą skirstinį. Nepriklausomai nuo atsitiktinių skaičių gavimo būdo apie jų kokybę galima spręsti iš gauto statistinio skirstinio sutapimo su norimu teoriniu skirstiniu. Apie skirstinių sutapimo laipsnį sprendžiama iš sutapimo kriterijų. Praktikoje plačiausiai naudojami Pirsono ir Kolmagorovo sutapimo kriterijai.

Statistinių bandymų metodo pagrindiniai privalumai yra šie:

  • Galima tirti išėjimo parametrų tikslumą, esant bet kokiems elementų parametrų skirstiniams;
  • Galima gauti rezultatus su norimai maža paklaida; kai bandymų skaičius N artėja prie begalybės, skaičiavimų paklaida artėja prie nulio;
  • Galima paskaičiuoti kiekybines išėjimo parametrų charakteristikas (vidutinę reikšmę, dispersiją), rasti skirstinį w(y) arba tikimybę, kad išėjimo parametras bus duotose ribose;
  • Palyginus su natūrinių bandymų metodu, atsitktinių bandymų metodas reikalauja mažai lėšų ir laiko išėjimo parametrų y tikslumo tyrimui atlikti.

Statistinių bandymų metodo trūkumas – sunku generuoti tarpusavyje priklausomų atsitiktinių dydžių reikšmes, t.y. sunku tyrinėti tikslumą, kai elementų parametrai yra priklausomi atsitiktiniai dydžiai.

Harmoninis vidurkis bendru atveju ir sąryšis su kitais Pitagoro vidurkiais

3 gruodžio, 2009

Matematikoje n skaičių harmoninis vidurkis apibrėžiamas taip:

H=\frac{1}{\frac{1}{a_{1}}+\frac{1}{a_{2}}+...+\frac{1}{a_{n}}}\equiv\frac{n}{\sum\limits_{i=1}^{n}\frac{1}{a_{i}}}

Pavyzdys. Skaičių 3 ir 5 harmoninis vidurkis:

H=\frac{2}{\frac{1}{3}+\frac{1}{5}}=\frac{15}{4}=3,75

Harmoninis vidurkis niekada nebūna didesnis nei už aritmetinį, nei už geometrinį vidurkius.

Dviejų skaičių harmoninis vidurkis. Skaičiuojant dviejų skaičių harmoninį vidurkį, galima taikyti supaprastintą formulę:

H=\frac{2a_{1}a_{2}}{a_{1}+a_{2}}

Dviejų skaičių aritmetinis vidurkis yra:

A=\frac{a_{1}+a_{2}}{2},

o geometrinis:

G=\sqrt{a_{1}\cdot{a_{2}}}.

Iš šių formulių išplaukia sąryšis tarp šių trijų Pitagoro vidurkių:

H=\frac{G^{2}}{A}.

Arba

G=\sqrt{A\cdot{H}}.

Išvada. Dviejų skaičių geometrinis vidurkis yra aritmetinio vidurkio ir harmoninio vidurkio geometrinis vidurkis. Tačiau šis sąryšis nebegalioja didesnio kiekio skaičių vidurkiams.
Pavyzdys. Patikrinsim, ar tikrai  sutampa geometrinio vidurkio reikšmė su geometriniu vidurkiu, apskaičiuotu panaudojant aritmetinį ir  harmoninį vidurkius. Paimkime du skaičius  2 ir 8.

Geometrinis vidurkis: G=\sqrt{8\cdot{2}}=4,

harmonis vidurkis: H=\frac{2\cdot{2}\cdot{8}}{2+8}=\frac{32}{10}=\frac{16}{5},

aritmetinis vidurkis: A=\frac{8+2}{2}=5,

geometrinis vidurkis pagal sąryšį: G=\sqrt{A\cdot{H}}=\sqrt{5\cdot{\frac{16}{5}}}=4.

Taigi matome, kad ieškoti vidurkiai sutampa, teorija teisinga.

Ekscesas

3 gruodžio, 2009

Ekscesas – statistinė imties charakteristika, palyginanti skirstinio dažnumų kreivės piko aštrumo laipsnį su normaliojo skirstinio kreivės piko aštrumu. Jei E>0, nagrinėjama kreivė turi aštresnį piką, negu galima tikėtis esant normaliniam pasiskirstymui. Jei E<0, pikas mažiau aštrus. Ekscesas apskaičiuojamas pagal formulę

E=\frac{1}{nD^{2}}\sum\limits_{i=1}^n (x_{i}-\bar{x})-3

čia n – matavimų skaičius,\bar{x} – matavimų aritmetinis vidurkis, D – matavimų dispersija. Jei trejetas nebūtų atimamas, Gauso skirstinio kreivės piko aštrumas būtų lygus trims.

Skirstinys, kurio ekscesas mažesnis nei normaliojo, vadinamas platikurtiniu. Jei jis didesnis, skirstinys vadinamas leptokurtiniu. Skirstinys, kurio ekscesas nesiskiria nuo normaliojo skirstinio eksceso, vadinamas mezokurtiniu.

Pavyzdys. Ilgabangė raudona šviesa pakeitė kviečių daigų linkimo greičio pavertus ant šono skirstinį iš platikurtinio (-0,194, A) į leptokurtinį (0,055, D). Šiek tiek sumažėjo ir dispersija (nuo 21,780 iki 16,597)

Statistikos tyrimo metodai

27 lapkričio, 2009

Įvadas

Statistika – tai valstybės ribose esančių reiškinių padėtis, jų būklės atspindys. Šiuo metu statistika suprantama taip: tai mokslas, nagrinėjantis masinius socialinius ekonominius bei kitus reiškinius, kiekybiniu aspektu su jų kokybiniu turiniu vietos ir laiko sąlygomis.
Statistikos objekto ypatybės sąlygoja jos metodą. Statistikos metodas – tai būdų, priemonių visuma masinių procesų dėsningumams tirti.
Statistikos metodai glaudžiai tarpusavyje susiję, jie įgalina logiškai nuosekliai atskleisti tiriamo objekto turinį. Jos metodų vienybę ir sąryšį nulemia tai, kad statistika visuomeninius reiškinius ir procesus tiria tarpusavyje susijusius, nuolat besivystančius, dinamiškus, kaip atsitiktinumo ir būtinumo dialektinį sąryšį. Tai leidžia statistikai pažinti masinius visuomeninius reiškinius tokius, kokie jie yra, o ne kokie atrodo.
Pagrindinis mokslinis principas – tarpusavyje susijusių visumos faktų tyrimas. Dialektinio metodo požiūriu nė vienas reiškinys negali būti pažintas, suprastas jį nagrinėjant izoliuotai. Todėl vienas iš svarbiausių statistikos uždavinių yra priežastinių ryšių atskleidimas, jų išmatavimas.
Antra vertus, dialektinis metodas reikalauja reiškinius tirti jiems judant, kintant, vystantis. Čia ypač svarbus vaidmuo tenka kiekybinių pakitimų perėjimo į naują kokybę dėsniui.
Visuomeniniai reiškiniai nėra vienarūšiai, jie kiekybiškai skirtingai išreiškiami. Statistikos uždavinys – atskleisti naują kokybę, kurią nulėmė kiekybiniai pakitimai.
Taigi dialektinis materializmas, kaip bendrasis metodas, duoda kryptį kurti specifinius statistinius metodus, kurie yra ne tik priemonė objektyviai informacijai apie tikrovę gauti, bet ir instrumentas nuodugniau jai pažinti.

STATISTIKOS TYRIMO METODAI

Tiriant masinius visuomeninius reiškinius statistikos metodais, pereinami keturi etapai, kuriuose atitinkamai taikomos keturios statistikos metodų grupės (statistinio stebėjimo, statistinės medžiagos suvedimo ir analizės, analizės rezultatų įvertinimo). Šie keturi tyrimo etapai atliekami nuosekliai, jie yra glaudžiai tarpusavyje susiję. Kiekviename etape taikomi specifiniai tyrimo metodai.
Pirmame tyrimo etape naudojami masiniai stebėjimai. Jie atliekami taikant įvairias stebėjimo formas, rūšis ir būdus priklausomai nuo tiriamo objekto specifikos. Tik atliekant masinius stebėjimus, galima atskleisti ir ištirti dėsningumus bei tendencijas.
Antrame tyrimo etape susisteminami ir sutvarkomi stebėjimo metu gauti duomenys. Šiame etape taikomi surinktų duomenų kontrolė, rūšiavimas, grupavimai, apibendrinančių rodiklių apskaičiavimas, statistinių lentelių suvedimo bei grafikų vaizdavimo metodai.
Trečiame tyrimo etape atliekama gautų rezultatų analizė, t. y. nustatomi reiškinių santykiai, ryšiai bei vystymosi tendencijos. Tam tikslui taikomi tokie specifiniai statistikos metodai kaip koreliacijos bei regresijos, dinamikos eilučių, indeksų ir kt. Ši analizė gali būti dviejų lygių: gautų duomenų tikslumo vertinimas (parametrų įvertinimo, statistinių hipotezių patikrinimo metodai) ir dalykinė tiriamo objekto būklės analizė.

Ketvirtame tyrimo etape pateikiamos išvados apie tiriamo reiškinio objekto būklę (ekonominis interpretavimas), prognozės ateičiai, gali būti rekomendacijos.
Masinių stebėjimų būtinumą sąlygoja didžiųjų skaičių dėsnis. Jis atskleidžia atsitiktinumo ir būtinumo dialektiką, t. y. kad dėsningumas išryškėja tik masiškai stebint. Tokio stebėjimo metu atskirų vienetų reikšmių nukrypimai vienas kitą „kompensuoja“, panaikina, o vidutinė reikšmė jau nėra atsitiktinė ir gali būti nustatyta gan tiksliai. Esant masiniams stebėjimams, išryškėja įtik pagrindinių, esminių veiksnių įtaka ir neatsispindi .antraeilių, šalutinių priežasčių poveikis.
Šio dėsnio veikimas tuo aiškesnis, kuo didesnis stebėjimų skaičius. Pavyzdžiui, kiekvienos šeimos narių skaičius atskirai gali būti traktuojamas kaip atsitiktinis. Jis negali atspindėti tam tikro regiono šeimos dydžio. Tačiau tiriant .daugiau šeimų, vidutinis šeimas narių skaičius vis labiau ryškėja, stabilizuojasi. Pakankamai tiksliai šis vidurkis gali būti nustatytas tik atlikus masinį faktų registravimą.
Matematiškai didžiųjų sikaičių dėsnis išreiškiamas keliomis teoremomis. Pavyzdžiui, įrodoma, kad kuo didesnis stebėjimų skaičius, tuo tiksliau nustatytos charakteristikos atspindi tiriamos visumos savybes, dėsningumus.
Su didžiųjų skaičių dėsnio sąvoka susijęs statistinis dėsningumas išplaukia iš jo turinio. Statistinis dėsningumas yra viena iš reiškinių visuotinio ryšio formų. Tai esminių tarpusavio ryšių sąlygotas reiškinių ir procesų vyksmo pobūdis. Jis išryškėja tik verkiant didžiųjų skaičių dėsniui. Priešingai dinaminiam dėsningumui, kai vienų veiksnių reikšmes atitinka griežtai apibrėžtos priklausomų dydžių reikšmės ir kai priklausomų dydžių santykiai tiksliai gali būti nustatyti kiekvienu konkrečiu atveju, statistinis dėsningumas išryškėja tik stebint daug to paties tipo reiškinių. Kiekvienu konkrečiu atveju reiškinio pasirodymas turi tikimybinį pobūdį.
Pavyzdžiui, negalima tvirtinti, kad jei Petraitis dirba tekintoju penkiolika metų, tai jo tarifinė kategorija bus ketvirta, penkta arba šešta. Tačiau jeigu ištirsime didelį tekintojų skaičių, tai nesunkiai pastebėsime, kad tekintojo kvalifikacija priklauso nuo darbo stažo. Galima teigti, (kad tai yra dėsninga.
Be to, priklausomybę galima išreikšti ir kiekybiškai. Pavyzdžiui, apskaičiuoti vidutinę tarifinę kategoriją tekintojų, kurių darbo stažas penkeri, dešimt, penkiolika ir daugiau metų, t. y. kiekvienos tekintojų grupės pagal darbo stažą. Ir tai bus tikslu tik ištirtai tekintojų visumai.
Statistinis dėsningumas išreiškia būtinumo ir atsitiktinumo vienybę. Tirdami statistinius dėsningumus, visada randame atsitiktinumo elementų. Tai galima paaiškinti tuo, kad tikrovės pažinimo procesas yra begalinis.
Mokslo tiesa nėra absoliuti, o greičiau iš dalies apytikslė ir laikina. Mokslui žengiant į priekį, atskleidžiamos vis naujos reiškinio pasirodymo priežastys. Tačiau ne visos jos žinomos, o tai ir paaiškinama statistiniu dėsningumu, kuris išryškėja tik atliekant masinį stebėjimą ir nepastebimas tiriant pavienius faktus.
Kitaip tariant, kiekvienas dėsningumas yra statistinis, o dinaminis (pvz., determinuotas ryšys) – tik apytikrė reiškinių ir procesų sąveikos išraiška. Netgi klasikinės mechanikos dėsniai, kurie buvo laikomi visiškai tiksliais, pasirodė esantys tik santykiniai.
Atliekant mokslinį tyrimą ir operuojant konkrečiais duomenimis, nustatomi vadinamieji empiriniai dėsningumai, t. y. faktų tvarkingas pasikartojamumais, konkreti statistinio dėsningumo pasireiškimo forma. Tiriant jų pasireiškimo formas, galima pažinti reiškinių esmę ir turinį.
Statistinio dėsningumo atskleidimas prasideda nuo hipotezės iškėlimo. Hipotezė iškeliama kaip prielaida, kaip spėjimas, padiktuotas tam tikros naujuose faktuose pastebėtos tvarkos, kur negali būti primestas visiškas atsitiktinumas. Norint ją patikrinti, reikia masinių duomenų. Vadinasi, mokslas žengia pirmyn, pereidamas vis prie tikresnių žinių. Šioje hipotezių iškėlimo ir patikrinimo grandinėje labai svarbus statistikos vaidmuo.
Sistemindama, apdorodama ir analizuodama masinių stebėjimų duomenis, statistika plačiai naudoja matematinės statistikos metodus. Jie pritaikomi tiek, kiek masiniai reiškiniai sudaro tam tikra prasme aibes viena rūšių elementų, kurių kiekybinės charakteristikos tarpusavyje nepriklausomos, t. y. tarp jų nėra determinuoto ryšio. Tokiems masiniams reiškiniams tirti naudojami vidurkiai, variacijos rodikliai ir pasiskirstymo eilučių teorija, hipotezių tikrinimas, atrankinis, koreliacijos, regresijos ir daugiamatės analizės metodai (daugiamačiai grupavimai, faktorinė analizė ir kt.).
Statistikos, kaip visuomeninio mokslo, pagrindinis vaidmuo pasireiškia tuo, kad kiekvienu konkrečiu atveju reikia parinkti tuos rodiklius, jų skaičiavimo būdus ir metodus, kurie labiausiai atitinka reiškinių socialinį ekonominį turinį; be to, reikia juos pritaikyti atsižvelgiant į konkrečias sąlygas, kad būtų galima nuodugniau pažinti tiriamų reiškinių esmę. Pavyzdžiui, sakykim, kad keli darbininkai gamina tas pačias detales visą darbo dieną. Kiekvieno darbininko sugaištas laikas vienai detalei pagaminti bus nevienodas. Individualias darbo laiko sąnaudas pažymėkime Xi, x2, x3,…, xn. Matematiškai, remiantis šiais duomenimis, galima apskaičiuoti bet kurį vidurkį: aritmetinį, geometrinį, harmoninį ir kitus.
Tačiau, norint nustatyti vidutines (tipiškas) darbo laiko sąnaudas vienai detalei pagaminti, negalima naudoti nei aritmetinio, nei geometrinio vidurkių, kadangi tai neatitinka šio rodiklio turinio. Šiuo atveju taikytinas harmoninis vidurkis. Tik šis vidurkis atitinka darbo laiko sąnaudų vienai detalei pagaminti turinį.
Vadinasi, statistika universalių matematinės statistikos metodų negali taikyti formaliai, t. y. nepriklausomai nuo socialinių ekonominių reiškinių turinio, savybių bei ryšių, kaip objektyvaus jų pagrindo.
Tirdama masinius reiškinius ir procesus, statistika naudoja specifines sąvokas ir kategorijas: didžiųjų skaičių dėsnį, statistinį dėsningumą, požymį, statistinę visumą, variaciją, rodiklį ir kt. Su pirmomis dviem sąvokomis susipažinome anksčiau. Suprasti kitas sąvokas ir kategorijas taip pat labai svarbu. Be jų mes negalėsime suprasti statistikos mokslo turinio. Kaip ir kitų mokslų, taip ir statistikos sąvokose ir kategorijose yra sutelkiamos pagrindinės žinios, ir nors sąvokoje išskiriama tik bendrybė, be jos mes negalėsime paaiškinti konkrečių reiškinių ir procesų ypatybių. Trumpai apžvelgsime kitas statistikos sąvokas ir kategorijas.
Požymis – reiškinių arba procesų charakteringas bruožas, savybė arba ypatybė, kuri gali būti apibūdinta statistiniais dydžiais, t. y. stebima ir išmatuota. Pavyzdžiui, darbininko požymiai tokie: lytis, amžius, profesija, darbo stažas, tarifinis atlygis, mėnesinis darbo užmokestis, dalyvavimas racionalizatorių veikloje ir t. t.
Požymius galime suskirstyti į kiekybinius ir kokybinius, nors toks skirstymas yra sąlyginis, nes nėra griežtos ribos tarp jų.
Kiekybiniais (variaciniais) požymiais vadiname tokius, kurių reikšmės viena nuo kitos skiriasi apibrėžtu, išmatuojamu dydžiu (amžiumi, darbo stažu, tarifiniu atlygiu, mėnesiniu darbo užmokesčiu) .
Kokybiniais (atributyviniais) vadiname kiekybiškai neišreikštus požymius (lytį, profesiją). Svarbią vietą statistikoje užima atskiras atributyvinių požymių atvejis – alternatyviniai požymiai, kurie gali įgyti tik viena kitai priešingas dvi reikšmes (dalyvauja racionalizatorių judėjime arba nedalyvauja, įvykdo išdirbio normas arba neįvykdo).
Pagal statistinio tyrimo tikslo svarbą požymiai skirstomi į esminius ir neesminius.
Tyrimo metu išskiriami esminiai (pagrindiniai) požymiai, pagal kuriuos nustatomas reiškinių tipas. Remiantis jais, atliekami grupavimai, nustatomi jų tarpusavio ryšiai ir pan. Požymių svarbą galiausiai sąlygoja tyrimo tikslas.
Statistinė visuma – tai objektų arba reiškinių, egzistuojančių laike ir erdvėje, panašių pagal savo turinį, turinčių bendrų požymių ir besiskiriančių pagal jų reikšmes, visuma. Tai visuma pramonės įmo¬nių, šalies miestų, įmonių darbininkų, gaminių partijų ir t. t. Pirminiai nedalijami visumos elementai (objektai ir reiškiniai), turintys
bendrų visumos požymių, yra vadinami visumos vienetais (pramonės įmonė, miestas, darbininkas, gaminys ir t. t.).
Jeigu vienas arba keli bendri požymiai yra esminiai, statistinė visuma vadinama kokybiškai vienarūše. Visuma, kurią sudaro ne vieno tipo elementai, yra nevienarūšė. Pažymėtina, kad ta pati visuma vienu požiūriu kokybiškai vienarūšė, kitu – ne.
Visumos vienarūšiškumą nulemia vidinių priežasčių ir bendrų sąlygų įtaka. Kitaip tariant, kiekviena statistinė visuma visais atžvilgiais negali būti vienarūšė. Visumoje visada galima išskirti kokybiškai skirtingas grupes, kurių vienetai turi kiekybinių bei daugiau ar mažiau reikšmingų kokybinių skirtumų. Pavyzdžiui, aukštosios mokyklos studentai, kaip statistinė visuma, pagal mokymo formas sudaro tris grupes: dieninio, vakarinio ir neakivaizdinio, todėl turi skirtingų požymių.
Reiškinys, kai visumos arba jos dalių elementai skiriasi vienas nuo kito vieno ar kito požymio reikšmėmis, t. y. kai jos reikšmės svyruoja, kinta, yra vadinamas variacija. Pavyzdžiui, dieninio skyriaus studentai gali skirtis amžiumi, pažangumu, gali gauti stipendiją arba jos negauti ir t. t. Variacija – svarbus statistinės visumos bruožas. Jeigu nebūtų variacijos, nereikėtų statistikos. Variacija atsiranda dėl įvairių priežasčių poveikio reiškiniui. Ji pasireiškia tiek laike, tiek erdvėje.
Statistinis rodiklis – skaitmeninė charakteristika, parodanti visuomeninio reiškinio tam tikrą savybę ar ypatybę konkrečiomis vietos ir laiko sąlygomis.
Jeigu statistinis rodiklis .atspindi tam tikrą reiškinį (pvz., pramonės įmonės realizuotos produkcijos apimtį), tai jis vadinamas individualiu. Todėl rodikliai dažnai vadinami tiesiog statistiniais duomenimis.
Jeigu rodiklis charakterizuoja reiškinių visumą (šalies gyventojus, pramonės įmones ir t. t.), jis vadinamas apibendrinančiu.
Nors statistiniai rodikliai išreiškia kiekybinę reiškinių pusę, tačiau kartu atspindi ir kokybinę. Pavyzdžiui, darbo našumo plano įvykdymo procentas kartu apibūdina įmonės darbo kokybę. Vadinasi, statistiniuose rodikliuose atsispindi visuomeninių reiškinių kiekybės ir kokybės vienybė.
Statistinių rodiklių turinys nustatomas iš anksto, t. y. paruošiamajame statistinio tyrimo etape. Tokiu atveju paminėtini rodikliai, kategorijos, kurie apibūdina vieno tipo reiškinių bendras savybes, bendrus požymius (mažmeninė prekių apyvarta, vidutinis sąrašinis darbuotojų skaičius, nacionalinės pajamos, vidutinis mėnesinis darbo užmokestis ir t. t.). Statistikos teorija parengia šių rodiklių skaičiavimo metodiką, kuria remiantis gaunami konkretūs rodikliai.
Turinys konkretinamas ir kiekybinė charakteristika gaunama statistinės medžiagos suvedimo etape ir yra statistikos praktinės veiklos rezultatas.
Socialiniams ekonominiams reiškiniams, jų apimčiai, lygiui, dinamikai bei santykiams atvaizduoti statistika naudoja rodiklių visumą, kuri vadinama statistinių rodiklių sistema.
Statistiniai rodikliai skiriasi nuo planinių tuo, kad jie yra objektyvūs, negali būti pakeisti, nes atspindi tai, kas jau įvyko, kas yra, kas pasiekta. Tačiau ne visi reiškiniai planuojami; daugelis iš jų turi būti skaičiuojami, pvz., natūralaus gyventojų judėjimo rodikliai skaičiuojami, tačiau neplanuojami. Dėl šios priežasties statistinių rodiklių sistema yra platesnė už planinių rodiklių sistemą.
Rodiklių įvairovė reikalauja juos klasifikuoti. Yra žinomi keli rodiklių klasifikavimo požymiai:
1. Gavimo būdas (pirminiai ir išvestiniai rodikliai).
2. Statistinė prigimtis – absoliutinių bei santykinių dydžių rodikliai ir vidurkiai; jie gali išreikšti reiškinių apimtis, santykius arba tipišką jų lygį.
3. Laiko charakteristika (momentiniai ir intervaliniai rodikliai parodo reiškinio lygį apibrėžta data arba jo apimtį, vidutinį lygį per tam tikrą laikotarpį).
Pagal socialinį ekonominį turinį rodikliai skirstomi į gyventojų skaičiaus, visuomenės darbo išteklių, visuomeninio produkto gamybos, nacionalinių pajamų, gyvenimo lygio, gyventojų sveikatos apsaugos ir kt. Tokią rodiklių klasifikaciją nagrinėja ekonominė statistika.

IŠVADOS

1. Savo dalykui tyrinėti statistika parengia ir pritaiko įvairius metodus, kurių visuma sudaro statistinę metodologiją. Tai, koks metodas bus naudojamas statistiniuose tyrimuose, lemia jų užduotys ir pradinės informacijos pobūdis.
2. Statistinio tyrimo tikslas – apibendrintų duomenų gavimas ir siekimas atskleisti tų reiškinių visumos bendrąsias savybes konkrečiomis vietos ir laiko sąlygomis.
3. Atliekant statistinius tyrimus tenka išskirti šiuos tyrimo etapus, kuriuose statistika naudoja savo specifinius metodus:
• Statistinis stebėjimas (faktų registravimo ir apskaitos metodai);
• Statistinės medžiagos suvedimas, t.y. surinktų duomenų kontrolės, rūšiavimo, grupavimo metodai, apibendrinančių rodiklių apskaičiavimo, statistinių lentelių suvedimo bei grafikų vaizdavimo metodai;
• Statistinės medžiagos analizė, kuri gali būti dviejų lygių: gautų duomenų tikslumo vertinimas (parametrų įvertinimo, statistinių hipotezių patikrinimo metodai) ir dalykinė tiriamo objekto būklės analizė;
• Analizės rezultatų įvertinimas. Pateikiamos išvados apie tiriamo reiškinio objekto būklę (ekonominis interpretavimas), prognozės ateičiai, gali būti rekomendacijos.

// // // //

Parametrų įverčių kintamumo charakteristika

25 lapkričio, 2009

Nežinomų parametrų, kaip antai vidurkio, dispersijos, tikimybės, įverčiai gauti tiek didžiausio tikėtinumo, tiek Bajeso metodu, yra imties funkcijos. Kadangi šie įverčiai yra atsitiktinių dydžių funkcijos, t.y. atsitiktiniai dydžiai, todėl būtina įvertinti jų kintamumą. Pastebėsime, kad žemiau esančioje lentelėje pateikti parametrų įverčiai yra nepriklausomų atsitiktinių dydžių sumų funkcijų reikšmės, todėl imtis pakankamai didelė, šių įverčių skirstinius galime laikyti normaliaisiais. Normaliojo atsitiktinio dydžio kintamumą charakterizuoja dispersija arba standartinis nuokrypis.

Todėl pateikiant įvertintus kintamojo (populiacijos) parametrus pateikiami ir jų standartinių nuokrypių įverčiai. Standartinių nuokrypių įverčiai dar vadinami standartinėmis paklaidomis, žymimi SE(…). Žemiau esančioje lentelėje pateikti parametrų įverčių standartiniai nuokrypiai ir standartinės paklaidos.

Sakykime, kiekybinis kintamasis turi unimodalųjį skirstinį su vidurkiu m  ir dispersija \sigma^{2}. Teorinio nežinomo vidurkio m įvertis yra imties vidurkis \bar{x}. Teorinė \bar{x} dispersija yra \frac{\sigma^{2}}{n}, standartinis nuokrypis – \frac{\sigma}{\sqrt{n}}, standartinis nuokrypio įvertis yra \frac{s}{\sqrt{n}} ir žymimas s_{x}. Įvertis s_{x} yra vadinamas standartine vidurkio paklaida. Kiekybinio rodiklio vidurkis paprastai pateikiamas kartu su savo standartine paklaida: pavyzdžiui, x\pm{s_{x}}.

Analizuojant sudėtingesnius modelius, pavyzdžiui, regresinius, vertinamas ne tik vidurkio, bet ir viso daugiamačio parametro \Theta={(\Theta_{1},\Theta_{2},...,\Theta_{k} )} įverčio \Theta={(\hat{\Theta_{1}},\hat{\Theta_{2}},...,\hat{\Theta_{k}})} kintamumas. Jis vertinamas kovariacijų matrica cov(\hat{\Theta}) (žr. žemiau esantį pav.).

Jei \Theta yra vertinamas Bajeso metodu, tai \Theta kintamumas nustatomas modeliuojant p(\Theta|x) skirstinį arba naudojantis tikslia p(\Theta|x) išraiška.Jei \Theta yra vertinamas pakartotinos atrankos metodu, tai jo standartinis nuokrypis lygus kiekvienoje imtyje nustatytųstandartinių nuokrypių vidurkiui.

Pakartotinės imties metodai

22 lapkričio, 2009

Naudodami imties reikšmes, generuojame naujas imtis. Kiekvienai sugeneruotai imčiai įvertiname nežinomus parametrus. Šių parametrų reikšmių vidurkis ir yra nežinomų parametrų įvertis. Iš n dydžio imties reikšmių galima sugeneruoti n^{n} skirtingų n dydžio imčių. Ši procedūra vadinama visa pakartotine atranka(complete resampling).

Pavyzdys. Turime imtį 1, 6, 9. Šios imties vidurkis \overline{x}=5,33, s=4,04. Iš 1, 6, 9 reikšmių galima sudaryti 3^{3}=27 skirtingų imčių. Žemiau lentelėje pateikti kiekvienos šių imčių vidurkis ir standartinis nuokrypis.

Priklausomai nuo naujų imčių generavimo taisyklių, naudojami plėtros (bootstrap) bei atmestos reikšmės (jackknife) metodai.

Plėtros metodas. Metodo esmė – iš n imties reikšmių sudaromos imtys po m (m<n) narių kiekvienoje: iš viso gaunama m^{n} imčių.

Atmestos reikšmės metodas. Iš n dydžio imties po vieną pašalinamas elementas, po to iš likusių (n-1) narių vertinami nežinomi parametrai.

Iš gautų parametrų įverčių reikšmių skaičiuojami vidurkiai. Jie laikomi nežinomų parametrų įverčiais.



Faktorinnės analizės apibūdinimas ir jos taikymo apibendrinimas

19 lapkričio, 2009

Norėdami atskleisti ir įvertinti tiriamus ekonominius procesus, mokslininkai susiduria su painiais stebimų požymių kitimo šablonais, neaiškiais tarpusavio ryšiais, didžiuliu kokybinių ir kiekybinių kintamųjų kiekiu ir nepatikimais duomenimis. Tada ieškomi tinkamiausi metodai ir dažnai žvilgsniai nukrypsta į faktorinę analizę, kurios metodai leidžia vienu metu tvarkyti šimtus kintamųjų, kompensuoti atsitiktines klaidas, išpainioti sudėtingus tarpusavio ryšius ir nustatyti jų kitimo dėsningumus ir periodiškumus. Faktorinė analizė plačiai taikoma rinkodaroje, produktų vertinimui, sociologijoje, medicinoje.

Faktorinė analizė padeda nagrinėti ir išskirti reiškinio dėsningumus ir struktūrą. Bet kurie reiškiniai, vykstantys tam tikroje vietoje ir tam tikru laiku, turi savo kitimo šablonus ir daugelis šių šablonų yra susieti tarpusavio priklausomybės ryšiais. Pavyzdžiui, „požiūrio“ šablonas priklausys nuo nagrinėjamo socialinio sluoksnio (vienokius turės verslininkai, kitokius pensininkai). Kokį reiškinį benagrinėtume, kiekvienas turės jam būdingus šablonus.

Faktorinė analizė ypatinga tuo, kad ji neturi vienintelio sprendinio. Koreliacinę matricą galima pavaizduoti faktoriais be galo daug būdų. Be to, faktorinė analizė nėra kažkoks vienas metodas. Ją sudaro skirtingi modeliai, iš kurių dažniausiai naudojami: pagrindinių komponenčių analizė PKA, pagrindinė faktorinė analizė PFA, kuri dažniausiai vadinama tiesiog faktorine analize FA, kanoninė faktorinė analizė KFA, alfa faktorinė analizė AFA. Visi šie modeliai paremti faktorių svorių matricos apskaičiavimu. Dažniausiai faktorinės analizės programos iškart siūlo keletą skirtingų metodų. Pavyzdžiui, SPSS programa siūlo šiuos metodus: pagrindinių komponentų metodą, maksimalaus tikėtinumo metodą, bendrąją faktorinę analizę, nesvertinį mažiausių kvadratų metodą, alfa metodą ir vaizdų faktorius. Tyrėjui kyla natūralus klausimas, kuris metodas yra geresnis. Daugelio mokslininkų nuomone, nėra įrodyta, kad koks nors vienas metodas priartėja prie “tikrųjų” bendrumų reikšmių geriau, nei kiti metodai. Geriausio metodą pasirinkimą dažniausiai lemia skaičiavimo patogumas, o taip pat tyrėjo, kuriam tas ar kitas metodas atrodė labiau adekvatus jo bendrumų suvokimui, prielankumas ar prisirišimas.

Tačiau kaip ir kiti metodai, faktorinė analizė turi eilę trūkumų. Faktorinė analizė pasižymi sudėtingais matematiniais skaičiavimais ir specialiais terminais: bendrieji ir specifiniai faktoriai, komponentai, tikrinės vertės, svoriai ir sukimai. Faktorinės analizės rezultatų suvestinės užima keletą puslapių, o jų analizei sugaištama daug laiko. Pateikiant faktorinės analizės aprašus, tenka įvertinti ir pagrįsti šių metodų taikymo galimybes ir ypatybes, matematinių modelių veikimo principus, o rezultatų interpretacija nėra paprasta ir vienareikšmė.

Kada ir kam taikoma faktorinė analizė? Faktorinė analizės metodais sprendžiami dviejų tipų uždaviniai: tiriamieji ir patvirtinamieji. Pagal šiuos uždavinius ir faktorinė analizė vadinama tiriamąja ir patvirtinamąja.

Tiriamoji faktorinė analizė taikoma tada, kai turima kintamųjų aibė ir neaišku, nei kiek gali būti faktorių, nei kokie kintamieji juos sudaro. Ir netgi neaišku, ar apskritai kintamieji yra kolinearūs. Pavyzdžiui, turint kelių metų duomenis apie regionus (valstybes, miestus) sprendžiamas uždavinys, kiek ir kokius nepriklausomus faktorius matuoja šie požymiai.

Patvirtinančioji faktorinė analizė taikoma tada, kai iš anksto žinomi teoriniai ar anksčiau atlikti empiriniai tyrimai ir norima jau turimas žinias patvirtinti ar išplėsti.

Tiriamoji faktorinė analizė taikoma dažniau, nei patvirtinančioji. Pagrindinė tiriamosios faktorinės analizės taikymo sritis – požymių tarpusavio ryšių ir šablonų išskyrimas ir apibrėžimas . Kai manoma, kad surinkti duomenys (ataskaitų duomenys, atsakymai į klausimus, asmenų savybės ar vartojimo įpročiai) gali būti susiję įvairiais sudėtingais ryšiais, faktorinės analizės metodai padeda išnarplioti šiuos ryšius, juos atskirti ir įvertinti kitimo šablonus. Atskiras šablonas pasireiškia kaip faktorius, žymintis tarpusavyje susijusių duomenų klasterį.

Duomenų kiekio mažinimas . Faktorinė analizė leidžia sumažinti duomenų kiekį, kuris dažnai apsunkina rinkos procesų analizę. Taikant faktorinės analizės metodus išskiriama keletas bendrųjų šablonų, kuriuose sukoncentruota informacija be nuostolių pakeičia informaciją, užfiksuotą dešimtyse požymių.

Klasifikavimas ir aprašymas . Faktorinė analizė yra viena iš empirinės topologijos sudarymo priemonių. Tarpusavyje susiję požymiai grupuojami į atskiras kategorijas (produktų savybės, vartojimo įpročiai, gyvenimo kokybė, stabilumas, teisinė bazė), kurios gali būti taikomas objektų grupių su panašiomis charakteristikomis sudarymui, ryšių įvertinimui ir palyginimui.

Integruotų rodiklių ir skalių sudarymas . Sričių ar atskirų gyventojų grupių tyrimams sudaromos integruotų rodiklių matavimo skalės. Skalių sudarymo problema – svorių suteikimas atskiriems jungiamiems požymiams. Faktorinės analizės metodai leidžia priskirti stebimus požymius faktoriams, o kiekvienas faktorius atvaizduoja požymių empirinius ryšius. Be to, faktoriai kiekvienam požymiui suteikia svorį, kuris gali būti naudojamas jungiant požymius į integruotus rodiklius.

Hipotezių tikrinimas . Analizuojant socialinių grupių ar atskirų asmenų vartojimo įpročius, nuomones ar elgesį pirkimo metu, dažnai formuluojamos pradinės hipotezės apie šių savybių tarpusavio ryšius. Faktorinės analizės metodai leidžia įvertinti vienai ar kitai grupei būdingos savybės ir jų ryšius. Šie metodai gali būti taikomi tikrinant ir kito tipo hipotezes, pavyzdžiui, sparčią vartojimo plėtrą ir socialinį stabilumą, kartu įvertinant ir kitas savybes, kurios gali daryti įtaką tiriamiems procesams.

Duomenų transformavimas . Faktorinė analizė gali būti pritaikyta pradinių duomenų transformavimui tokiu būdu, kad jie atitiktų kitų statistikos metodų keliamus reikalavimus. Pavyzdžiui, taikant daugiamatės regresijos metodus, reikalaujama, kad nepriklausomi kintamieji tarpusavyje būtų nekoreliuoti. Kai ši sąlyga netenkinama, pradžioje gali būti taikomi faktorinės analizės metodai, kurios pagalba nepriklausomų kintamųjų skaičius sumažinamas iki mažesnės faktorių reikšmių imties, kurią galima panaudoti regresinei analizei, neprarandant duomenyse esančios informacijos.