Metodi di ricerca statistica probabilistica. Metodi probabilistici e statistici per la modellizzazione dei sistemi economici. Caratteristiche numeriche delle variabili casuali

3.5.1. Metodo di ricerca probabilistico-statistico.

In molti casi, è necessario studiare non solo processi deterministici, ma anche probabilistici (statistici) casuali. Questi processi sono considerati sulla base della teoria della probabilità.

L'insieme delle variabili casuali x costituisce il materiale matematico primario. Per insieme si intende un insieme di eventi omogenei. Un insieme contenente le varianti più diverse di un fenomeno di massa è chiamato popolazione generale, o grande campione N. Di solito viene studiata, chiamata, solo una parte della popolazione popolazione elettiva o piccolo campione.

Probabilità P(x) eventi X chiamato rapporto tra il numero di casi N(x), che portano al verificarsi di un evento X, al numero totale di casi possibili N:

P(x)=N(x)/N.

Teoria della probabilità esamina le distribuzioni teoriche delle variabili casuali e le loro caratteristiche.

Statistiche matematiche si occupa delle modalità di elaborazione e analisi di eventi empirici.

Queste due scienze correlate costituiscono un'unica teoria matematica dei processi casuali di massa, ampiamente utilizzata per analizzare la ricerca scientifica.

I metodi probabilistici e statistici matematici sono molto spesso utilizzati nella teoria dell'affidabilità, della sopravvivenza e della sicurezza, ampiamente utilizzata in vari rami della scienza e della tecnologia.

3.5.2. Metodo di modellazione statistica o test statistico (metodo Monte Carlo).

Questo metodo è un metodo numerico per la risoluzione di problemi complessi e si basa sull'utilizzo di numeri casuali che simulano processi probabilistici. I risultati della risoluzione di questo metodo consentono di stabilire empiricamente le dipendenze dei processi in esame.

La risoluzione dei problemi utilizzando il metodo Monte Carlo è efficace solo con l'uso di computer ad alta velocità. Per risolvere i problemi utilizzando il metodo Monte Carlo, è necessario disporre di una serie statistica, conoscere la legge della sua distribuzione, il valore medio e l'aspettativa matematica t(x), deviazione standard.

Utilizzando questo metodo, è possibile ottenere una precisione della soluzione specificata arbitrariamente, ad es.

-> t(x)

3.5.3. Metodo di analisi del sistema.

L'analisi del sistema è intesa come un insieme di tecniche e metodi per studiare i sistemi complessi, che sono un insieme complesso di elementi interagenti. L'interazione degli elementi del sistema è caratterizzata da connessioni dirette e di feedback.

L'essenza dell'analisi del sistema è identificare queste connessioni e stabilire la loro influenza sul comportamento dell'intero sistema nel suo insieme. L'analisi del sistema più completa e approfondita può essere eseguita utilizzando i metodi della cibernetica, che è la scienza dei sistemi dinamici complessi in grado di percepire, immagazzinare ed elaborare informazioni a fini di ottimizzazione e controllo.

L’analisi del sistema si compone di quattro fasi.

La prima fase consiste nell'enunciare il problema: vengono determinati l'oggetto, gli scopi e gli obiettivi dello studio, nonché i criteri per studiare l'oggetto e gestirlo.

Nella seconda fase vengono determinati i confini del sistema oggetto di studio e viene determinata la sua struttura. Tutti gli oggetti e i processi relativi all'obiettivo sono divisi in due classi: il sistema stesso studiato e l'ambiente esterno. Distinguere Chiuso E aprire sistemi. Quando si studiano i sistemi chiusi, l'influenza dell'ambiente esterno sul loro comportamento viene trascurata. Quindi vengono identificati i singoli componenti del sistema - i suoi elementi - e viene stabilita l'interazione tra essi e l'ambiente esterno.

La terza fase dell'analisi del sistema consiste nel compilare un modello matematico del sistema in esame. Innanzitutto, il sistema viene parametrizzato, gli elementi principali del sistema e gli impatti elementari su di esso vengono descritti utilizzando determinati parametri. Allo stesso tempo, vengono distinti i parametri che caratterizzano i processi continui e discreti, deterministici e probabilistici. A seconda delle caratteristiche dei processi, viene utilizzato l'uno o l'altro apparato matematico.

Come risultato della terza fase dell'analisi del sistema, si formano modelli matematici completi del sistema, descritti in un linguaggio formale, ad esempio algoritmico.

Nella quarta fase viene analizzato il modello matematico risultante, vengono individuate le sue condizioni estreme al fine di ottimizzare i processi e i sistemi di controllo e formulare conclusioni. L'ottimizzazione viene valutata secondo il criterio di ottimizzazione, che in questo caso assume valori estremi (minimo, massimo, minimax).

Di solito, viene selezionato un criterio e per gli altri vengono impostati i valori massimi di soglia consentiti. A volte vengono utilizzati criteri misti, che sono funzione dei parametri primari.

Sulla base del criterio di ottimizzazione selezionato, viene elaborata la dipendenza del criterio di ottimizzazione dai parametri del modello dell'oggetto (processo) in studio.

Sono noti vari metodi matematici per l'ottimizzazione dei modelli oggetto di studio: metodi di programmazione lineare, non lineare o dinamica; metodi probabilistico-statistici basati sulla teoria delle code; teoria dei giochi, che considera lo sviluppo dei processi come situazioni casuali.

Domande per l'autocontrollo della conoscenza

Metodologia della ricerca teorica.

Le sezioni principali della fase di sviluppo teorico della ricerca scientifica.

Tipologie di modelli e tipologie di modellazione dell'oggetto di ricerca.

Metodi di ricerca analitica.

Metodi analitici di ricerca mediante esperimento.

Metodo di ricerca probabilistico-analitico.

Metodi di modellazione statica (metodo Monte Carlo).

Metodo di analisi del sistema.

metodi statistici

metodi statistici- metodi di analisi statistica dei dati. Esistono metodi di statistica applicata, che possono essere utilizzati in tutte le aree della ricerca scientifica e in qualsiasi settore dell'economia nazionale, e altri metodi statistici, la cui applicabilità è limitata all'una o all'altra area. Ciò si riferisce a metodi come il controllo statistico dell'accettazione, il controllo statistico dei processi tecnologici, l'affidabilità e i test e la pianificazione degli esperimenti.

Classificazione dei metodi statistici

I metodi statistici di analisi dei dati sono utilizzati in quasi tutte le aree dell'attività umana. Vengono utilizzati ogni volta che è necessario ottenere e giustificare eventuali giudizi su un gruppo (oggetti o soggetti) con una certa eterogeneità interna.

Si consiglia di distinguere tre tipologie di attività scientifiche e applicate nel campo dei metodi statistici di analisi dei dati (in base al grado di specificità dei metodi associati all'immersione in problemi specifici):

a) sviluppo e ricerca di metodi di uso generale, senza tener conto delle specificità del campo di applicazione;

b) sviluppo e ricerca di modelli statistici di fenomeni e processi reali in conformità con le esigenze di una particolare area di attività;

c) applicazione di metodi e modelli statistici per l'analisi statistica di dati specifici.

Statistica applicata

Una descrizione del tipo di dati e del meccanismo per la loro generazione è l'inizio di qualsiasi studio statistico. Per descrivere i dati vengono utilizzati sia metodi deterministici che probabilistici. Utilizzando metodi deterministici, è possibile analizzare solo i dati a disposizione del ricercatore. Ad esempio, con il loro aiuto sono state ottenute tabelle che sono state calcolate dagli organi statistici statali ufficiali sulla base dei rapporti statistici presentati da imprese e organizzazioni. I risultati ottenuti possono essere trasferiti ad una popolazione più ampia e utilizzati per la previsione e il controllo solo sulla base di modelli probabilistico-statistici. Pertanto, nella statistica matematica sono spesso inclusi solo metodi basati sulla teoria della probabilità.

Non riteniamo possibile contrapporre metodi deterministici e probabilistico-statistici. Li consideriamo come passaggi sequenziali dell'analisi statistica. Nella prima fase è necessario analizzare i dati disponibili e presentarli in una forma di facile lettura utilizzando tabelle e grafici. Successivamente è opportuno analizzare i dati statistici sulla base di alcuni modelli probabilistici e statistici. Si noti che la possibilità di una visione più approfondita dell'essenza di un fenomeno o processo reale è assicurata dallo sviluppo di un modello matematico adeguato.

Nella situazione più semplice, i dati statistici sono i valori di alcune caratteristiche degli oggetti studiati. I valori possono essere quantitativi o fornire un'indicazione della categoria in cui può essere classificato l'oggetto. Nel secondo caso si parla di segno qualitativo.

Quando misuriamo in base a diverse caratteristiche quantitative o qualitative, otteniamo un vettore come dati statistici su un oggetto. Può essere pensato come un nuovo tipo di dati. In questo caso il campione è costituito da un insieme di vettori. Ci sono parte delle coordinate - numeri e parte - dati qualitativi (categorizzati), quindi stiamo parlando di un vettore di diversi tipi di dati.

Un elemento del campione, ovvero una dimensione, può essere la funzione nel suo insieme. Ad esempio, a descrivere la dinamica dell'indicatore, cioè il suo cambiamento nel tempo, è l'elettrocardiogramma del paziente o l'ampiezza del battito dell'albero motore. Oppure una serie temporale che descrive le dinamiche della performance di una particolare azienda. Quindi l'esempio è costituito da un insieme di funzionalità.

Gli elementi campione possono anche essere altri oggetti matematici. Ad esempio, relazioni binarie. Pertanto, quando esaminano gli esperti, spesso utilizzano l'ordinamento (classifica) degli oggetti di esame: campioni di prodotti, progetti di investimento, opzioni per decisioni di gestione. A seconda delle prescrizioni dello studio esperto, gli elementi di campionamento possono essere vari tipi di relazioni binarie (ordinamento, partizionamento, tolleranza), insiemi, insiemi fuzzy, ecc.

Pertanto, la natura matematica degli elementi campione in vari problemi di statistica applicata può essere molto diversa. Tuttavia, si possono distinguere due classi di dati statistici: numerici e non numerici. Di conseguenza, la statistica applicata è divisa in due parti: statistica numerica e statistica non numerica.

Le statistiche numeriche sono numeri, vettori, funzioni. Possono essere sommati e moltiplicati per coefficienti. Pertanto, nelle statistiche numeriche, varie somme sono di grande importanza. L'apparato matematico per analizzare le somme degli elementi casuali di un campione sono le leggi (classiche) dei grandi numeri e i teoremi limite centrale.

I dati statistici non numerici sono dati categorizzati, vettori di diversi tipi di caratteristiche, relazioni binarie, insiemi, insiemi fuzzy, ecc. Non possono essere sommati e moltiplicati per coefficienti. Pertanto non ha senso parlare di somme di statistiche non numeriche. Sono elementi di spazi matematici (insiemi) non numerici. L'apparato matematico per l'analisi dei dati statistici non numerici si basa sull'uso delle distanze tra gli elementi (nonché misure di prossimità, indicatori di differenza) in tali spazi. Con l'aiuto delle distanze si determinano le medie empiriche e teoriche, si dimostrano le leggi dei grandi numeri, si costruiscono stime non parametriche della densità di distribuzione di probabilità, si risolvono problemi diagnostici e analisi di cluster, ecc. (vedi).

La ricerca applicata utilizza vari tipi di dati statistici. Ciò è dovuto, in particolare, alle modalità per ottenerli. Ad esempio, se i test su alcuni dispositivi tecnici continuano fino a un certo punto nel tempo, otteniamo il cosiddetto. dati censurati costituiti da una serie di numeri: la durata di funzionamento di un numero di dispositivi prima del guasto e le informazioni che i restanti dispositivi hanno continuato a funzionare alla fine del test. I dati censurati vengono spesso utilizzati per valutare e monitorare l'affidabilità dei dispositivi tecnici.

In genere, i metodi statistici per l'analisi dei dati dei primi tre tipi vengono considerati separatamente. Questa limitazione è causata dal fatto sopra notato che l'apparato matematico per l'analisi dei dati di natura non numerica è significativamente diverso da quello per i dati sotto forma di numeri, vettori e funzioni.

Modellazione probabilistico-statistica

Quando si applicano metodi statistici in specifici campi della conoscenza e settori dell'economia nazionale, si ottengono discipline scientifiche e pratiche come "metodi statistici nell'industria", "metodi statistici in medicina", ecc. Da questo punto di vista, l'econometria è "metodi statistici metodi in economia”. Tali discipline del gruppo b) si basano solitamente su modelli probabilistico-statistici costruiti in funzione delle caratteristiche del campo di applicazione. È molto istruttivo confrontare modelli probabilistico-statistici utilizzati in vari ambiti, per scoprirne le somiglianze e allo stesso tempo notare alcune differenze. Pertanto, si può vedere la somiglianza tra le affermazioni dei problemi e i metodi statistici utilizzati per risolverli in settori come la ricerca medico-scientifica, la ricerca sociologica specifica e la ricerca di mercato, o, in breve, nella medicina, nella sociologia e nel marketing. Questi sono spesso raggruppati sotto il nome di "studi campione".

La differenza tra studi campionari e studi esperti si manifesta, prima di tutto, nel numero di oggetti o soggetti censiti - negli studi campione si parla solitamente di centinaia, e negli studi esperti - circa decine. Ma la tecnologia della ricerca esperta è molto più sofisticata. La specificità è ancora più pronunciata nei modelli demografici o logistici, quando si elaborano informazioni narrative (testo, cronaca) o quando si studia l'influenza reciproca dei fattori.

Le questioni di affidabilità e sicurezza dei dispositivi e delle tecnologie tecniche, la teoria delle code sono discusse in dettaglio in un gran numero di lavori scientifici.

Analisi statistica di dati specifici

L'applicazione di metodi e modelli statistici per l'analisi statistica di dati specifici è strettamente legata alle problematiche del settore di riferimento. I risultati del terzo dei tipi identificati di attività scientifiche e applicate si trovano all'intersezione delle discipline. Possono essere considerati come esempi di applicazione pratica dei metodi statistici. Ma non ci sono meno ragioni per attribuirli al corrispondente campo dell'attività umana.

Ad esempio, i risultati di un sondaggio sui consumatori di caffè solubile sono naturalmente attribuiti al marketing (che è quello che fanno quando tengono conferenze sulle ricerche di mercato). Lo studio della dinamica della crescita dei prezzi utilizzando gli indici di inflazione calcolati da informazioni raccolte in modo indipendente è interessante principalmente dal punto di vista dell'economia e della gestione dell'economia nazionale (sia a livello macro che a livello delle singole organizzazioni).

Prospettive di sviluppo

La teoria dei metodi statistici è finalizzata alla risoluzione di problemi reali. Pertanto, in esso sorgono costantemente nuove formulazioni di problemi matematici per l'analisi dei dati statistici e vengono sviluppati e giustificati nuovi metodi. La giustificazione viene spesso effettuata con mezzi matematici, cioè dimostrando teoremi. Un ruolo importante è svolto dalla componente metodologica: come impostare esattamente i problemi, quali ipotesi accettare ai fini di ulteriori studi matematici. Il ruolo delle moderne tecnologie informatiche, in particolare degli esperimenti informatici, è eccezionale.

Un compito urgente è quello di analizzare la storia dei metodi statistici al fine di identificare le tendenze di sviluppo e applicarle per le previsioni.

Letteratura

2. Naylor T. Esperimenti di simulazione macchina con modelli di sistemi economici. - M.: Mir, 1975. - 500 p.

3. Kramer G. Metodi matematici della statistica. - M.: Mir, 1948 (1a ed.), 1975 (2a ed.). - 648 pag.

4. Bolshev L. N., Smirnov N. V. Tabelle di statistica matematica. - M.: Nauka, 1965 (1a ed.), 1968 (2a ed.), 1983 (3a ed.).

5. Smirnov N. V., Dunin-Barkovsky I. V. Corso di teoria della probabilità e statistica matematica per applicazioni tecniche. Ed. 3°, stereotipato. - M.: Nauka, 1969. - 512 pag.

6. Norman Draper, Harry Smith Analisi di regressione applicata. Regressione multipla = Analisi di regressione applicata. - 3a ed. - M.: “Dialettica”, 2007. - P. 912. - ISBN 0-471-17082-8

Guarda anche

Fondazione Wikimedia. 2010.

  • Yat-Kha
  • Amalgama (disambiguazione)

Scopri cosa sono i "metodi statistici" in altri dizionari:

    METODI STATISTICI- METODI STATISTICI metodi scientifici per la descrizione e lo studio dei fenomeni di massa che consentono un'espressione quantitativa (numerica). La parola “statistica” (da Igal. stato stato) ha una radice comune con la parola “stato”. Inizialmente... ... Enciclopedia filosofica

    METODI STATISTICI -- metodi scientifici di descrizione e studio dei fenomeni di massa che consentono l'espressione quantitativa (numerica). La parola “statistica” (dall’italiano stato) ha una radice comune con la parola “stato”. Inizialmente si riferiva alla scienza del management e... Enciclopedia filosofica

    metodi statistici- (in ecologia e biocenologia) metodi di statistica delle variazioni, che consentono di studiare il tutto (ad esempio fitocenosi, popolazione, produttività) secondo i suoi aggregati parziali (ad esempio, secondo i dati ottenuti nei siti di registrazione) e valutare la grado di precisione... ... Dizionario ecologico

    metodi statistici- (in psicologia) (dal latino status state) alcuni metodi di statistica matematica applicata, utilizzati in psicologia principalmente per l'elaborazione dei risultati sperimentali. Lo scopo principale dell'utilizzo di S. m. è aumentare la validità delle conclusioni in ... ... Grande enciclopedia psicologica

    metodi statistici- 20.2. Metodi statistici I metodi statistici specifici utilizzati per organizzare, regolare e testare le attività includono, ma non sono limitati a quanto segue: a) progettazione di esperimenti e analisi fattoriale; b) analisi della varianza e... Dizionario-libro di consultazione dei termini della documentazione normativa e tecnica

    METODI STATISTICI- metodi per lo studio delle quantità. aspetti delle società di massa. fenomeni e processi. S. m. permettono di caratterizzare in termini digitali i cambiamenti in atto nelle società. processi, studiare vari. forme di socio-economico. modelli, cambiamento... ... Dizionario enciclopedico agricolo

    METODI STATISTICI- alcuni metodi di statistica matematica applicata utilizzati per l'elaborazione dei risultati sperimentali. Sono stati sviluppati numerosi metodi statistici appositamente per testare la qualità dei test psicologici, da utilizzare in ambito professionale... ... Educazione professionale. Dizionario

    METODI STATISTICI- (in psicologia dell'ingegneria) (dal latino status state) alcuni metodi di statistica applicata utilizzati in psicologia dell'ingegneria per elaborare i risultati sperimentali. Lo scopo principale dell'utilizzo di S. m. è aumentare la validità delle conclusioni in ... ... Dizionario enciclopedico di psicologia e pedagogia

Parte 1. Fondamenti di statistica applicata

1.2.3. L'essenza dei metodi probabilistico-statistici del processo decisionale

Come vengono utilizzati gli approcci, le idee e i risultati della teoria della probabilità e della statistica matematica nel processo decisionale?

La base è un modello probabilistico di un fenomeno o processo reale, ad es. un modello matematico in cui le relazioni oggettive sono espresse in termini di teoria della probabilità. Le probabilità vengono utilizzate principalmente per descrivere le incertezze di cui bisogna tenere conto quando si prendono decisioni. Ciò si riferisce sia alle opportunità indesiderabili (rischi) che a quelle attraenti (“fortunate possibilità”). A volte la casualità viene introdotta deliberatamente in una situazione, ad esempio quando si estrae un lotto, si selezionano casualmente unità per il controllo, si conducono lotterie o si conducono sondaggi sui consumatori.

La teoria della probabilità consente di utilizzare una probabilità per calcolarne altre di interesse per il ricercatore. Ad esempio, utilizzando la probabilità di ottenere uno stemma, puoi calcolare la probabilità che in 10 lanci di moneta otterrai almeno 3 stemmi. Tale calcolo si basa su un modello probabilistico, secondo il quale i lanci delle monete sono descritti da uno schema di prove indipendenti; inoltre, lo stemma e i cancelletti sono ugualmente possibili, e quindi la probabilità di ciascuno di questi eventi è uguale a ½. Un modello più complesso è quello che considera il controllo della qualità di un’unità di produzione invece del lancio di una moneta. Il corrispondente modello probabilistico si basa sul presupposto che il controllo di qualità delle varie unità di produzione sia descritto da uno schema di test indipendente. A differenza del modello del lancio della moneta, è necessario introdurre un nuovo parametro: la probabilità R che il prodotto è difettoso. Il modello sarà descritto in modo completo se si assume che tutte le unità di produzione abbiano la stessa probabilità di essere difettose. Se l'ultima ipotesi non è corretta, il numero di parametri del modello aumenta. Ad esempio, si può supporre che ciascuna unità di produzione abbia la propria probabilità di essere difettosa.

Consideriamo un modello di controllo della qualità con una probabilità di difettosità comune a tutte le unità di produzione R. Per “arrivare al numero” analizzando il modello, è necessario sostituire R ad un valore specifico. Per fare ciò è necessario andare oltre il modello probabilistico e rivolgersi ai dati ottenuti durante il controllo qualità. La statistica matematica risolve il problema inverso rispetto alla teoria della probabilità. Il suo obiettivo è, sulla base dei risultati delle osservazioni (misure, analisi, test, esperimenti), ottenere conclusioni sulle probabilità alla base del modello probabilistico. Ad esempio, in base alla frequenza con cui si verificano prodotti difettosi durante l'ispezione, si possono trarre conclusioni sulla probabilità di difettosità (vedi sopra il teorema di Bernoulli). Sulla base della disuguaglianza di Chebyshev, sono state tratte conclusioni sulla corrispondenza della frequenza di comparsa dei prodotti difettosi con l'ipotesi che la probabilità di difettosità assuma un certo valore.

Pertanto, l'applicazione della statistica matematica si basa su un modello probabilistico di un fenomeno o processo. Vengono utilizzate due serie parallele di concetti: quelli relativi alla teoria (modello probabilistico) e quelli relativi alla pratica (campionamento dei risultati dell'osservazione). Ad esempio, la probabilità teorica corrisponde alla frequenza trovata nel campione. L'aspettativa matematica (serie teorica) corrisponde alla media aritmetica campionaria (serie pratica). Di norma, le caratteristiche del campione sono stime di quelle teoriche. Allo stesso tempo, le quantità relative alle serie teoriche “sono nella testa dei ricercatori”, si riferiscono al mondo delle idee (secondo l'antico filosofo greco Platone) e non sono disponibili per la misurazione diretta. I ricercatori dispongono solo di dati campione con cui cercano di stabilire le proprietà di un modello probabilistico teorico che li interessa.

Perché abbiamo bisogno di un modello probabilistico? Il fatto è che solo con il suo aiuto è possibile trasferire le proprietà stabilite dall'analisi di un campione specifico ad altri campioni, così come all'intera cosiddetta popolazione generale. Il termine "popolazione" viene utilizzato quando si fa riferimento a un insieme ampio ma finito di unità studiate. Ad esempio, sulla totalità di tutti i residenti in Russia o sulla totalità di tutti i consumatori di caffè solubile a Mosca. Lo scopo delle indagini di marketing o sociologiche è trasferire le dichiarazioni ottenute da un campione di centinaia o migliaia di persone a popolazioni di diversi milioni di persone. Nel controllo di qualità, un lotto di prodotti agisce come una popolazione generale.

Per trasferire le conclusioni da un campione a una popolazione più ampia sono necessarie alcune ipotesi sulla relazione tra le caratteristiche del campione e le caratteristiche di questa popolazione più ampia. Tali ipotesi si basano su un modello probabilistico appropriato.

Naturalmente, è possibile elaborare i dati campione senza utilizzare l'uno o l'altro modello probabilistico. Ad esempio, puoi calcolare una media aritmetica campione, contare la frequenza di adempimento di determinate condizioni, ecc. Tuttavia, i risultati del calcolo si riferiranno solo a un campione specifico; trasferire le conclusioni ottenute con il loro aiuto a qualsiasi altra popolazione non è corretto. Questa attività è talvolta chiamata “analisi dei dati”. Rispetto ai metodi probabilistico-statistici, l’analisi dei dati ha un valore educativo limitato.

Pertanto, l'uso di modelli probabilistici basati sulla stima e sulla verifica di ipotesi utilizzando le caratteristiche del campione è l'essenza dei metodi probabilistico-statistici del processo decisionale.

Sottolineiamo che la logica dell'utilizzo delle caratteristiche del campione per prendere decisioni basate su modelli teorici implica l'uso simultaneo di due serie parallele di concetti, una delle quali corrisponde a modelli probabilistici e la seconda a dati campione. Sfortunatamente, in un certo numero di fonti letterarie, solitamente obsolete o scritte con spirito di ricetta, non viene fatta alcuna distinzione tra caratteristiche campione e teoriche, il che porta i lettori a confusione ed errori nell'uso pratico dei metodi statistici.

Precedente

Il gruppo di metodi in esame è il più importante nella ricerca sociologica; questi metodi sono utilizzati in quasi tutti gli studi sociologici che possono essere considerati veramente scientifici. Mirano principalmente a identificare modelli statistici nelle informazioni empiriche, vale a dire modelli che vengono soddisfatti “in media”. In realtà la sociologia si occupa dello studio della “persona media”. Inoltre, un altro scopo importante dell'utilizzo di metodi probabilistici e statistici in sociologia è valutare l'affidabilità del campione. Quanta fiducia c'è che il campione fornisca risultati più o meno accurati e qual è l'errore delle conclusioni statistiche?

L'oggetto principale di studio quando si applicano metodi probabilistici e statistici è variabili casuali. Portare una variabile casuale ad un certo valore lo è evento casuale– un evento che, se tali condizioni sono soddisfatte, può verificarsi o meno. Ad esempio, se un sociologo conduce sondaggi nel campo delle preferenze politiche in una strada cittadina, l'evento "il prossimo intervistato risulta essere un sostenitore del partito al potere" è casuale se nulla nell'intervistato aveva precedentemente rivelato le sue preferenze politiche . Se un sociologo intervistasse un intervistato vicino all'edificio della Duma regionale, l'evento non sarebbe più casuale. Si caratterizza un evento casuale probabilità la sua offensiva. A differenza dei classici problemi con dadi e combinazioni di carte insegnati nei corsi di probabilità, nella ricerca sociologica il calcolo della probabilità non è così semplice.

La base più importante per la valutazione empirica della probabilità è tendenza della frequenza alla probabilità, se per frequenza intendiamo il rapporto tra quante volte si è verificato un evento e quante volte teoricamente sarebbe potuto verificarsi. Ad esempio, se tra 500 intervistati selezionati casualmente per le strade della città, 220 risultassero sostenitori del partito al potere, la frequenza con cui tali intervistati si verificano è 0,44. Quando campione rappresentativo di dimensioni sufficientemente grandi otterremo la probabilità approssimativa di un evento o la proporzione approssimativa di persone che possiedono una determinata caratteristica. Nel nostro esempio, con un campione ben selezionato, troviamo che circa il 44% dei cittadini sono sostenitori del partito al potere. Naturalmente, poiché non tutti i cittadini sono stati intervistati e alcuni potrebbero aver mentito durante l'indagine, è presente qualche errore.

Consideriamo alcuni problemi che sorgono nell'analisi statistica dei dati empirici.

Stima della distribuzione della magnitudo

Se una certa caratteristica può essere espressa quantitativamente (ad esempio, l'attività politica di un cittadino come valore che mostra quante volte negli ultimi cinque anni ha partecipato alle elezioni a vari livelli), allora si può impostare il compito di valutare la legge di distribuzione di questa caratteristica come variabile casuale. In altre parole, la legge di distribuzione mostra quali valori una quantità assume più spesso e quali meno spesso, e quanto spesso/meno spesso. Molto spesso si trova sia nella tecnologia, nella natura, sia nella società legge della distribuzione normale. La sua formula e le sue proprietà sono esposte in qualsiasi libro di testo di statistica e in Fig. 10.1 mostra l'aspetto del grafico: si tratta di una curva “a campana”, che può essere più “allungata” verso l'alto o più “spalmata” lungo l'asse dei valori della variabile casuale. L'essenza della legge normale è che molto spesso una variabile casuale assume valori vicini a un valore "centrale", chiamato aspettativa matematica, e più ci si allontana da esso, meno spesso il valore “arriva” lì.

Esistono molti esempi di distribuzioni che possono essere accettate come normali con un piccolo errore. Nel 19° secolo. Lo scienziato belga A. Quetelet e l'inglese F. Galton hanno dimostrato che la distribuzione di frequenza di qualsiasi indicatore demografico o antropometrico (aspettativa di vita, altezza, età al matrimonio, ecc.) è caratterizzata da una distribuzione “a campana”. Lo stesso F. Galton e i suoi seguaci hanno dimostrato che le caratteristiche psicologiche, ad esempio le capacità, obbediscono alla legge normale.

Riso. 10.1.

Esempio

L’esempio più eclatante di distribuzione normale in sociologia riguarda l’attività sociale delle persone. Secondo la legge della distribuzione normale, risulta che le persone socialmente attive nella società sono solitamente circa il 5-7%. Tutte queste persone socialmente attive vanno a manifestazioni, conferenze, seminari, ecc. Circa lo stesso numero di persone sono del tutto escluse dalla partecipazione alla vita sociale. La maggior parte delle persone (80-90%) sembra essere indifferente alla politica e alla vita pubblica, ma segue i processi che li interessano, anche se in generale hanno un atteggiamento distaccato nei confronti della politica e della società e non mostrano un'attività significativa. Queste persone perdono la maggior parte degli eventi politici, ma occasionalmente guardano le notizie in televisione o su Internet. Vanno a votare anche nelle elezioni più importanti, soprattutto se vengono “minacciati con un bastone” o “incoraggiati con una carota”. I membri di questo 80-90% sono quasi inutili individualmente dal punto di vista socio-politico, ma i centri di ricerca sociologica sono piuttosto interessati a queste persone, poiché ce ne sono molti e le loro preferenze non possono essere ignorate. Lo stesso vale per le organizzazioni pseudoscientifiche che svolgono ricerche su ordine di politici o aziende commerciali. E l'opinione delle "masse grigie" su questioni chiave legate alla previsione del comportamento di molte migliaia e milioni di persone alle elezioni, così come durante eventi politici acuti, durante una divisione nella società e conflitti tra diverse forze politiche, non è indifferente a questi centri.

Naturalmente non tutti i valori sono distribuiti secondo la distribuzione normale. Oltre a ciò, le più importanti nella statistica matematica sono le distribuzioni binomiale ed esponenziale, le distribuzioni Fisher-Snedecor, Chi-quadrato e Student.

Valutazione della relazione tra caratteristiche

Il caso più semplice è quando è sufficiente stabilire la presenza/assenza di una connessione. Il metodo più popolare a questo proposito è il metodo del Chi-quadrato. Questo metodo è focalizzato sull'utilizzo di dati categorici. Ad esempio, questi sono chiaramente il genere e lo stato civile. Alcuni dati a prima vista sembrano numerici, ma possono essere "trasformati" in dati categorici dividendo l'intervallo di valori in diversi piccoli intervalli. Ad esempio, l'esperienza in fabbrica può essere classificata come inferiore a un anno, da uno a tre anni, da tre a sei anni e superiore a sei anni.

Lasciamo il parametro X disponibile P valori possibili: (x1,..., X r1) e il parametro Y–t valori possibili: (y1,..., A T) , Q ij è la frequenza osservata di occorrenza della coppia ( X io, A j), cioè il numero di occorrenze rilevate di tale coppia. Calcoliamo le frequenze teoriche, cioè quante volte deve apparire ciascuna coppia di valori per quantità assolutamente non correlate:

Sulla base delle frequenze osservate e teoriche, calcoliamo il valore

È inoltre necessario calcolare l'importo gradi di libertà secondo la formula

Dove M, N– il numero di categorie tabulate. Inoltre, scegliamo livello di significatività. Il più alto affidabilità che vogliamo ottenere, tanto più basso dovrà essere il livello di significatività. In genere, viene scelto un valore pari a 0,05, il che significa che possiamo fidarci dei risultati con una probabilità di 0,95. Successivamente, nelle tabelle di riferimento troviamo il valore critico in base al numero di gradi di libertà e al livello di significatività. Se , allora i parametri X E Y sono considerati indipendenti. Se , allora i parametri X E Sì- dipendente. Se, allora è pericoloso trarre conclusioni sulla dipendenza o sull'indipendenza dei parametri. In quest'ultimo caso, è consigliabile condurre ulteriori ricerche.

Si noti inoltre che il test del chi quadrato può essere utilizzato con un'affidabilità molto elevata solo quando tutte le frequenze teoriche non sono inferiori a una determinata soglia, che di solito è considerata pari a 5. Sia v la frequenza teorica minima. Per v > 5, il test del Chi-quadrato può essere utilizzato con sicurezza. Al v< 5 использование критерия становится нежелательным. При v ≥ 5 вопрос остается открытым, требуется дополнительное исследование о применимости критерия "Хи-квадрат".

Facciamo un esempio di utilizzo del metodo del Chi-quadrato. Supponiamo, ad esempio, che in una determinata città sia stato condotto un sondaggio tra i giovani tifosi delle squadre di calcio locali e siano stati ottenuti i seguenti risultati (Tabella 10.1).

Avanziamo un’ipotesi sull’indipendenza delle preferenze calcistiche dei giovani della città N dal sesso dell'intervistato a un livello di significatività standard di 0,05. Calcoliamo le frequenze teoriche (Tabella 10.2).

Tabella 10.1

Risultati del sondaggio tra i tifosi

Tabella 10.2

Frequenze di preferenza teoriche

Ad esempio, la frequenza teorica per i giovani tifosi della Zvezda si ottiene come

allo stesso modo - altre frequenze teoriche. Successivamente, calcoliamo il valore del Chi-quadrato:

Determiniamo il numero di gradi di libertà. Per un livello di significatività pari a 0,05, cerchiamo il valore critico:

Poiché la superiorità è notevole, possiamo quasi certamente affermare che sono le preferenze calcistiche dei ragazzi e delle ragazze della città N variano molto, tranne nel caso di un campione non rappresentativo, ad esempio se il ricercatore non ha ottenuto un campione da diverse zone della città, limitandosi a intervistare gli intervistati nel proprio isolato.

Una situazione più difficile è quando è necessario quantificare la forza della connessione. In questo caso, vengono spesso utilizzati metodi analisi di correlazione. Questi metodi sono solitamente discussi nei corsi avanzati di statistica matematica.

Approssimazione delle dipendenze utilizzando dati puntuali

Lascia che ci sia una serie di punti: dati empirici ( X io, Yi), io = 1, ..., P.È necessario approssimare la reale dipendenza del parametro A da parametro X, e sviluppare anche una regola per il calcolo del valore sì, Quando X si trova tra due "nodi" Xi.

Esistono due approcci fondamentalmente diversi per risolvere il problema. Il primo è che tra le funzioni di una data famiglia (ad esempio i polinomi), venga selezionata una funzione il cui grafico passa per i punti esistenti. Il secondo approccio non "forza" il grafico della funzione a passare per i punti. Il metodo più popolare in sociologia e in molte altre scienze è metodo dei minimi quadrati– appartiene al secondo gruppo di metodi.

L'essenza del metodo dei minimi quadrati è la seguente. Data una famiglia di funzioni A(x, a 1, ..., UN t) con M coefficienti incerti. È necessario selezionare coefficienti incerti risolvendo un problema di ottimizzazione

Valore minimo della funzione D può fungere da misura della precisione di approssimazione. Se questo valore è troppo alto, è necessario selezionare una classe di funzione diversa A o estendere la classe utilizzata. Ad esempio, se la classe “polinomi di grado non superiore a 3” non fornisce una precisione accettabile, prendiamo la classe “polinomi di grado non superiore a 4” o anche “polinomi di grado non superiore a 5”.

Molto spesso, il metodo viene utilizzato per la famiglia dei “polinomi di grado non superiore a N":

Ad esempio, quando N= 1 è una famiglia di funzioni lineari, con N = 2 – famiglia di funzioni lineari e quadratiche, con N = 3 – famiglia di funzioni lineari, quadratiche e cubiche. Permettere

Quindi i coefficienti della funzione lineare ( N= 1) vengono cercati come soluzione ad un sistema di equazioni lineari

Coefficienti di una funzione della forma UN 0 +a 1x+a 2X 2 (N= 2) vengono ricercate come soluzione al sistema

Coloro che desiderano applicare questo metodo a un valore arbitrario N può farlo vedendo lo schema secondo il quale sono compilati i sistemi di equazioni dati.

Facciamo un esempio di utilizzo del metodo dei minimi quadrati. Lasciamo che il numero di un certo partito politico cambi come segue:

Si può notare che le variazioni nella dimensione del partito nei diversi anni non sono molto diverse, il che ci consente di approssimare la dipendenza con una funzione lineare. Per facilitare il calcolo, invece di una variabile X– anno – introdurre una variabile t = x – 2010, cioè Prendiamo il primo anno di conteggio come “zero”. Calcoliamo M 1; M 2:

Ora calcoliamo M", M*:

Probabilità UN 0, UN 1 funzioni y = a 0T + UN 1 sono calcolati come soluzione al sistema di equazioni

Risolvendo questo sistema, ad esempio, utilizzando la regola di Cramer o il metodo di sostituzione, otteniamo: UN 0 = 11,12; UN 1 = 3,03. Otteniamo così l’approssimazione

che consente non solo di operare con una funzione anziché con un insieme di punti empirici, ma anche di calcolare valori di funzione che vanno oltre i limiti dei dati iniziali - "per predire il futuro".

Si noti inoltre che il metodo dei minimi quadrati può essere utilizzato non solo per i polinomi, ma anche per altre famiglie di funzioni, ad esempio per logaritmi ed esponenziali:

Il grado di confidenza di un modello costruito utilizzando il metodo dei minimi quadrati può essere determinato in base alla misura R-quadrato, o coefficiente di determinazione. Viene calcolato come

Qui . Il più vicino R 2 a 1, tanto più adeguato è il modello.

Rilevamento valori anomali

Un valore anomalo di una serie di dati è un valore anomalo che risalta nettamente nel campione generale o nelle serie generali. Ad esempio, supponiamo che la percentuale di cittadini di un paese che hanno un atteggiamento positivo nei confronti di un determinato politico sia nel periodo 2008-2013. rispettivamente 15, 16, 12, 30, 14 e 12%. È facile notare che uno dei valori differisce nettamente da tutti gli altri. Nel 2011, per qualche motivo, il rating del politico ha superato nettamente i valori abituali, che erano compresi tra il 12 e il 16%. La presenza di emissioni può essere dovuta a vari motivi:

  • 1)errori di misurazione;
  • 2) natura insolita dei dati di input(ad esempio, quando si analizza la percentuale media dei voti ricevuti da un politico; questo valore in un seggio elettorale in un'unità militare può differire significativamente dal valore medio in città);
  • 3) conseguenza della legge(i valori che differiscono nettamente dal resto possono essere determinati da una legge matematica - ad esempio, nel caso di una distribuzione normale, un oggetto con un valore nettamente diverso dalla media può essere incluso nel campione);
  • 4) disastri(ad esempio, durante un periodo di confronto politico breve ma acuto, il livello di attività politica della popolazione può cambiare radicalmente, come è accaduto durante le “rivoluzioni colorate” del 2000-2005 e la “Primavera araba” del 2011);
  • 5) azioni di controllo(ad esempio, se nell'anno precedente allo studio un politico ha preso una decisione molto popolare, quest'anno la sua valutazione potrebbe essere significativamente più alta rispetto agli altri anni).

Molti metodi di analisi dei dati non sono resistenti ai valori anomali, quindi per utilizzarli in modo efficace, i dati devono essere eliminati dai valori anomali. Un esempio lampante di metodo instabile è il metodo dei minimi quadrati menzionato sopra. Il metodo più semplice per la ricerca dei valori anomali si basa sul cosiddetto distanza interquartile. Determinazione dell'intervallo

Dove Q M Senso T- quarto quartile. Se qualche membro della serie non rientra nell'intervallo, viene considerato un valore anomalo.

Spieghiamo con un esempio. Il significato dei quartili è che dividono una serie in quattro gruppi uguali o approssimativamente uguali: il primo quartile “separa” il quarto sinistro della serie, ordinato in ordine crescente, il terzo quartile separa il quarto destro della serie, il secondo quartile corre nel mezzo. Spieghiamo come effettuare la ricerca Q 1 e Q 3. Inserire una serie di numeri ordinati in ordine crescente P valori. Se n+ Quindi 1 è divisibile per 4 senza resto Q k essenza K(P+ 1)/4° termine della serie. Ad esempio, data la serie: 1, 2, 5, 6, 7, 8, 10, 11, 13, 15, 20, ecco il numero dei termini n = 11. Quindi ( P+ 1)/4 = 3, cioè primo quartile Q 1 = 5 – terzo termine della serie; 3( n+ 1)/4 = 9, cioè terzo quartile Q:i= 13 – nono membro della serie.

Il caso è un po' più complicato quando n+ 1 non è un multiplo di 4. Ad esempio, data la serie 2, 3, 5, 6, 7, 8, 9, 30, 32, 100, dove il numero di termini P= 10. Quindi ( P + 1)/4 = 2,75 -

posizione tra il secondo membro della serie (v2 = 3) e il terzo membro della serie (v3 = 5). Quindi prendiamo il valore 0.75v2 + 0.25v3 = 0.75 3 + 0.25 5 = 3.5 - questo sarà Q 1. 3(P+ 1)/4 = 8,25 – posizione tra l'ottavo membro della serie (v8= 30) e il nono membro della serie (v9=32). Prendiamo il valore 0.25v8 + 0.75v9 = 0.25 30 + + 0.75 32 = 31.5 - questo sarà Q 3. Esistono altre opzioni di calcolo Q 1 e Q 3, ma si consiglia di utilizzare l'opzione qui presentata.

  • A rigor di termini, in pratica, di solito si incontra una legge normale "approssimativamente" - poiché la legge normale è definita per una quantità continua lungo l'intero asse reale, molte quantità reali non possono soddisfare rigorosamente le proprietà delle quantità normalmente distribuite.
  • Nasledov A.D. Metodi matematici della ricerca psicologica. Analisi e interpretazione dei dati: libro di testo, manuale. San Pietroburgo: Rech, 2004. pp. 49–51.
  • Per le più importanti distribuzioni di variabili casuali, vedere, ad esempio: Orlov A.I. Matematica del caso: probabilità e statistica - fatti di base: libro di testo. indennità. M.: MZ-Press, 2004.

Come vengono utilizzate la teoria della probabilità e la statistica matematica? Queste discipline sono la base dei metodi probabilistici e statistici del processo decisionale. Per utilizzare il loro apparato matematico è necessario esprimere i problemi decisionali in termini di modelli probabilistico-statistici. L’applicazione di uno specifico metodo decisionale probabilistico-statistico si compone di tre fasi:

Il passaggio dalla realtà economica, gestionale, tecnologica ad uno schema matematico e statistico astratto, cioè costruzione di un modello probabilistico di un sistema di controllo, processo tecnologico, procedura decisionale, in particolare basato sui risultati del controllo statistico, ecc.

Effettuare calcoli e trarre conclusioni utilizzando mezzi puramente matematici nell'ambito di un modello probabilistico;

Interpretazione di conclusioni matematiche e statistiche in relazione a una situazione reale e presa di una decisione appropriata (ad esempio, sulla conformità o non conformità della qualità del prodotto con i requisiti stabiliti, la necessità di adeguare il processo tecnologico, ecc.), in particolare, conclusioni (sulla proporzione di unità di prodotto difettose in un lotto, sulla forma specifica delle leggi di distribuzione dei parametri controllati del processo tecnologico, ecc.).

La statistica matematica utilizza i concetti, i metodi e i risultati della teoria della probabilità. Consideriamo le principali questioni relative alla costruzione di modelli probabilistici del processo decisionale in situazioni economiche, gestionali, tecnologiche e di altro tipo. Per l'uso attivo e corretto dei documenti normativi, tecnici e didattici sui metodi probabilistici e statistici del processo decisionale, è richiesta una conoscenza preliminare. Pertanto, è necessario sapere in quali condizioni dovrebbe essere utilizzato un determinato documento, quali informazioni iniziali sono necessarie per la sua selezione e applicazione, quali decisioni dovrebbero essere prese sulla base dei risultati dell'elaborazione dei dati, ecc.

Esempi di applicazione teoria della probabilità e statistica matematica. Consideriamo alcuni esempi in cui i modelli probabilistico-statistici sono un buon strumento per risolvere problemi gestionali, produttivi, economici ed economici nazionali. Così, ad esempio, nel romanzo di A.N. Tolstoj “Camminando nel tormento” (vol. 1) si dice: “l’officina produce il 23% degli scarti, tu ti attieni a questa cifra”, ha detto Strukov a Ivan Ilyich”.

Sorge la domanda su come interpretare queste parole nella conversazione dei dirigenti delle fabbriche, poiché un'unità di produzione non può essere difettosa al 23%. Può essere buono o difettoso. Probabilmente Strukov intendeva dire che un lotto di grandi volumi contiene circa il 23% di unità di produzione difettose. Sorge allora la domanda: cosa significa “approssimativamente”? Supponiamo che su 100 unità di produzione testate 30 risultino difettose, o su 1.000 - 300, o su 100.000 - 30.000, ecc., Strukov dovrebbe essere accusato di mentire?

O un altro esempio. La moneta utilizzata per il lotto deve essere “simmetrica”, ovvero quando lo si lancia, in media, nella metà dei casi dovrebbe apparire lo stemma e nell'altra metà dei casi un hash (code, numero). Ma cosa significa "in media"? Se esegui molte serie da 10 lanci in ciascuna serie, incontrerai spesso serie in cui la moneta atterra come uno stemma 4 volte. Per una moneta simmetrica, ciò avverrà nel 20,5% delle esecuzioni. E se dopo 100.000 lanci ci sono 40.000 stemmi, la moneta può dirsi simmetrica? La procedura decisionale si basa sulla teoria della probabilità e sulla statistica matematica.

L’esempio in questione potrebbe non sembrare abbastanza serio. Tuttavia non lo è. Il sorteggio è ampiamente utilizzato nell'organizzazione di esperimenti tecnici ed economici industriali, ad esempio, quando si elaborano i risultati della misurazione dell'indicatore di qualità (coppia di attrito) dei cuscinetti in base a vari fattori tecnologici (l'influenza dell'ambiente di conservazione, metodi di preparazione dei cuscinetti prima della misurazione , l'influenza dei carichi sui cuscinetti durante il processo di misurazione, ecc.). P.). Diciamo che è necessario confrontare la qualità dei cuscinetti in base ai risultati della loro conservazione in diversi oli preservanti, ad es. negli oli di composizione UN E IN. Quando si pianifica un simile esperimento, sorge la domanda: quali cuscinetti dovrebbero essere inseriti nell'olio della composizione UN e quali - nella composizione dell'olio IN, ma in modo tale da evitare la soggettività e garantire l'obiettività della decisione presa.

La risposta a questa domanda può essere ottenuta mediante sorteggio. Un esempio simile può essere fornito con il controllo di qualità di qualsiasi prodotto. Per decidere se il lotto di prodotti controllato soddisfa o meno i requisiti stabiliti, da esso viene selezionato un campione. Sulla base dei risultati del controllo del campione, viene tratta una conclusione sull'intero lotto. In questo caso è molto importante evitare la soggettività nella formazione del campione, ovvero è necessario che ciascuna unità di prodotto del lotto controllato abbia la stessa probabilità di essere selezionata per il campione. In condizioni di produzione, la selezione delle unità di prodotto per il campione viene solitamente effettuata non per lotto, ma tramite tabelle speciali di numeri casuali o utilizzando sensori di numeri casuali del computer.

Problemi simili per garantire l'obiettività del confronto sorgono quando si confrontano vari schemi di organizzazione della produzione, retribuzione, durante gare e concorsi, selezione dei candidati per posti vacanti, ecc. Ovunque abbiamo bisogno di un sorteggio o di procedure simili. Spieghiamo con l'esempio di identificazione della squadra più forte e della seconda più forte quando si organizza un torneo secondo il sistema olimpico (il perdente viene eliminato). Lascia che la squadra più forte sconfigga sempre quella più debole. È chiaro che la squadra più forte diventerà sicuramente campione. La seconda squadra più forte raggiungerà la finale se e solo se non avrà partite con il futuro campione prima della finale. Se si prevede una partita del genere, la seconda squadra più forte non arriverà alla finale. Chi pianifica il torneo può "eliminare" la seconda squadra più forte del torneo prima del previsto, contrapponendola al leader nel primo incontro, oppure fornirle il secondo posto assicurando incontri con le squadre più deboli fino al finale. Per evitare soggettività, viene effettuato un sorteggio. Per un torneo a 8 squadre, la probabilità che le prime due squadre si incontrino in finale è 4/7. Di conseguenza, con una probabilità di 3/7, la seconda squadra più forte lascerà anticipatamente il torneo.

Qualsiasi misurazione delle unità del prodotto (utilizzando un calibro, un micrometro, un amperometro, ecc.) contiene errori. Per scoprire se esistono errori sistematici, è necessario effettuare misurazioni ripetute di un'unità di prodotto di cui si conoscono le caratteristiche (ad esempio, un campione standard). Va ricordato che oltre all’errore sistematico esiste anche l’errore casuale.

Sorge quindi la questione di come scoprire dai risultati della misurazione se esiste un errore sistematico. Se notiamo solo se l'errore ottenuto durante la misurazione successiva è positivo o negativo, questo compito può essere ridotto a quello precedente. Paragoniamo infatti una misura al lancio di una moneta, un errore positivo alla perdita di uno stemma, un errore negativo ad una griglia (un errore zero con un numero sufficiente di divisioni di scala non si verifica quasi mai). Allora verificare l’assenza di errori sistematici equivale a verificare la simmetria della moneta.

Lo scopo di queste considerazioni è ridurre il problema della verifica dell'assenza di un errore sistematico al problema della verifica della simmetria di una moneta. Il ragionamento sopra esposto porta al cosiddetto “criterio dei segni” in statistica matematica.

Nella regolamentazione statistica dei processi tecnologici, basata sui metodi della statistica matematica, vengono sviluppate regole e piani per il controllo statistico dei processi, volti al rilevamento tempestivo di problemi nei processi tecnologici e all'adozione di misure per adeguarli e impedire il rilascio di prodotti che non lo fanno soddisfare i requisiti stabiliti. Queste misure mirano a ridurre i costi di produzione e le perdite derivanti dalla fornitura di unità di bassa qualità. Durante il controllo statistico di accettazione, sulla base dei metodi della statistica matematica, vengono sviluppati piani di controllo della qualità analizzando campioni provenienti da lotti di prodotto. La difficoltà sta nel riuscire a costruire correttamente modelli probabilistico-statistici dei processi decisionali, sulla base dei quali poter rispondere alle domande sopra poste. Nella statistica matematica, a questo scopo sono stati sviluppati modelli probabilistici e metodi per verificare le ipotesi, in particolare l'ipotesi che la proporzione di unità di produzione difettose sia uguale a un certo numero R 0 , Per esempio, R 0 = 0,23 (ricordate le parole di Strukov dal romanzo di A.N. Tolstoj).

Compiti di valutazione. In una serie di situazioni gestionali, produttive, economiche ed economiche nazionali sorgono problemi di tipo diverso: problemi di valutazione delle caratteristiche e dei parametri delle distribuzioni di probabilità.

Diamo un'occhiata a un esempio. Lascia che un lotto di N lampade elettriche Da questo lotto, un campione di N lampade elettriche Sorgono una serie di domande naturali. Come determinare la durata media delle lampade elettriche in base ai risultati dei test sugli elementi campione e con quale precisione è possibile valutare questa caratteristica? Come cambierà la precisione se prendiamo un campione più grande? A che numero di ore T si può garantire che almeno il 90% delle lampade elettriche dureranno T e più ore?

Supponiamo che quando si testa una dimensione del campione N le lampade elettriche si sono rivelate difettose X lampade elettriche Allora sorgono le seguenti domande. Quali limiti possono essere specificati per un numero? D lampadine difettose in un lotto, per il livello di difettosità D/ N e così via.?

Oppure, quando si analizza statisticamente l'accuratezza e la stabilità dei processi tecnologici, è necessario valutare indicatori di qualità come il valore medio del parametro controllato e il grado della sua dispersione nel processo in esame. Secondo la teoria della probabilità, è consigliabile utilizzare la sua aspettativa matematica come valore medio di una variabile casuale e la dispersione, la deviazione standard o il coefficiente di variazione come caratteristica statistica dello spread. Ciò solleva la domanda: come stimare queste caratteristiche statistiche dai dati campione e con quale accuratezza è possibile farlo? Ci sono molti esempi simili che si possono fornire. Qui era importante mostrare come la teoria della probabilità e la statistica matematica possano essere utilizzate nella gestione della produzione quando si prendono decisioni nel campo della gestione statistica della qualità del prodotto.

Cos'è la "statistica matematica"? Per statistica matematica si intende “una branca della matematica dedicata ai metodi matematici di raccolta, sistematizzazione, elaborazione e interpretazione dei dati statistici, nonché al loro utilizzo per conclusioni scientifiche o pratiche. Le regole e le procedure della statistica matematica si basano sulla teoria della probabilità, che ci consente di valutare l’accuratezza e l’affidabilità delle conclusioni ottenute in ciascun problema sulla base del materiale statistico disponibile”. In questo caso, i dati statistici si riferiscono alle informazioni sul numero di oggetti in una collezione più o meno ampia che presentano determinate caratteristiche.

In base al tipo di problemi da risolvere, la statistica matematica è solitamente divisa in tre sezioni: descrizione dei dati, stima e verifica delle ipotesi.

In base alla tipologia dei dati statistici trattati, la statistica matematica si suddivide in quattro aree:

Statistica univariata (statistica delle variabili casuali), in cui il risultato di un'osservazione è descritto da un numero reale;

Analisi statistica multivariata, in cui il risultato dell'osservazione di un oggetto è descritto da più numeri (vettore);

Statistica di processi casuali e serie temporali, dove il risultato dell'osservazione è una funzione;

Statistiche di oggetti di natura non numerica, in cui il risultato di un'osservazione è di natura non numerica, ad esempio è un insieme (una figura geometrica), un ordinamento o ottenuto come risultato di una misurazione basata su un criterio qualitativo.

Storicamente, alcune aree della statistica di oggetti di natura non numerica (in particolare, problemi di stima della proporzione dei difetti e di verifica di ipotesi al riguardo) e statistiche unidimensionali sono state le prime ad apparire. L'apparato matematico è più semplice per loro, quindi il loro esempio viene solitamente utilizzato per dimostrare le idee di base della statistica matematica.

Solo le modalità di trattamento dei dati, ad es. le statistiche matematiche sono basate sull'evidenza, che si basano su modelli probabilistici di fenomeni e processi reali rilevanti. Stiamo parlando di modelli di comportamento dei consumatori, del verificarsi di rischi, del funzionamento delle apparecchiature tecnologiche, dell'ottenimento di risultati sperimentali, del decorso di una malattia, ecc. Un modello probabilistico di un fenomeno reale dovrebbe considerarsi costruito se le quantità considerate e le connessioni tra loro sono espresse in termini di teoria della probabilità. Corrispondenza al modello probabilistico della realtà, cioè la sua adeguatezza è comprovata, in particolare, utilizzando metodi statistici per verificare le ipotesi.

I metodi non probabilistici di elaborazione dei dati sono esplorativi e possono essere utilizzati solo nell'analisi preliminare dei dati, poiché non consentono di valutare l'accuratezza e l'affidabilità delle conclusioni ottenute sulla base di materiale statistico limitato.

I metodi probabilistici e statistici sono applicabili ovunque sia possibile costruire e giustificare un modello probabilistico di un fenomeno o processo. Il loro utilizzo è obbligatorio quando le conclusioni tratte dai dati del campione vengono trasferite all'intera popolazione (ad esempio, da un campione a un intero lotto di prodotti).

In aree specifiche di applicazione vengono utilizzati sia metodi probabilistici e statistici di applicazione generale che specifici. Ad esempio, nella sezione della gestione della produzione dedicata ai metodi statistici di gestione della qualità del prodotto, vengono utilizzate statistiche matematiche applicate (inclusa la progettazione di esperimenti). Utilizzando i suoi metodi, vengono effettuate analisi statistiche dell'accuratezza e della stabilità dei processi tecnologici e valutazione statistica della qualità. Metodi specifici includono metodi di controllo statistico dell'accettazione della qualità del prodotto, regolamentazione statistica dei processi tecnologici, valutazione e controllo dell'affidabilità, ecc.

Le discipline probabilistiche e statistiche applicate come la teoria dell'affidabilità e la teoria delle code sono ampiamente utilizzate. Il contenuto del primo è chiaro dal nome, il secondo riguarda lo studio di sistemi come una centrale telefonica, che riceve chiamate in orari casuali - i requisiti degli abbonati che compongono i numeri sui loro apparecchi telefonici. La durata della manutenzione di questi requisiti, ad es. anche la durata delle conversazioni è modellata da variabili casuali. Un grande contributo allo sviluppo di queste discipline è stato dato dal membro corrispondente dell'Accademia delle scienze dell'URSS A.Ya. Khinchin (1894-1959), accademico dell'Accademia delle scienze della SSR ucraina B.V. Gnedenko (1912-1995) e altri scienziati nazionali.

Brevemente sulla storia della statistica matematica. La statistica matematica come scienza inizia con le opere del famoso matematico tedesco Carl Friedrich Gauss (1777-1855), che, basandosi sulla teoria della probabilità, investigò e giustificò il metodo dei minimi quadrati, da lui creato nel 1795 e utilizzato per l'elaborazione dei dati astronomici ( per chiarire l’orbita del piccolo pianeta Cerere). Una delle distribuzioni di probabilità più popolari, quella normale, porta spesso il suo nome, e nella teoria dei processi casuali l'oggetto principale di studio sono i processi gaussiani.

Alla fine del 19° secolo. - inizio del XX secolo I maggiori contributi alla statistica matematica furono apportati da ricercatori inglesi, principalmente K. Pearson (1857-1936) e R. A. Fisher (1890-1962). In particolare, Pearson sviluppò il test chi-quadrato per testare ipotesi statistiche e Fisher sviluppò l'analisi della varianza, la teoria del disegno sperimentale e il metodo della massima verosimiglianza per la stima dei parametri.

Negli anni '30 del XX secolo. Il polacco Jerzy Neumann (1894-1977) e l'inglese E. Pearson svilupparono la teoria generale della verifica delle ipotesi statistiche, mentre i matematici sovietici, l'accademico A.N. Kolmogorov (1903-1987) e il membro corrispondente dell'Accademia delle scienze dell'URSS N.V. Smirnov (1900-1966) gettarono le basi della statistica non parametrica. Negli anni Quaranta del XX secolo. Il rumeno A. Wald (1902-1950) ha sviluppato la teoria dell'analisi statistica sequenziale.

La statistica matematica si sta sviluppando rapidamente attualmente. Pertanto, negli ultimi 40 anni, si possono distinguere quattro aree di ricerca fondamentalmente nuove:

Sviluppo e implementazione di metodi matematici per la pianificazione di esperimenti;

Sviluppo della statistica di oggetti di natura non numerica come direzione indipendente nella statistica matematica applicata;

Sviluppo di metodi statistici resistenti a piccole deviazioni dal modello probabilistico utilizzato;

Sviluppo diffuso del lavoro sulla creazione di pacchetti software per computer progettati per l'analisi statistica dei dati.

Metodi probabilistico-statistici e ottimizzazione. L'idea di ottimizzazione permea la moderna statistica matematica applicata e altri metodi statistici. Vale a dire, metodi di pianificazione degli esperimenti, controllo statistico dell'accettazione, regolamentazione statistica dei processi tecnologici, ecc. D'altra parte, le formulazioni di ottimizzazione nella teoria del processo decisionale, ad esempio, la teoria applicata dell'ottimizzazione della qualità del prodotto e dei requisiti standard, prevedono la uso diffuso di metodi statistici probabilistici, principalmente statistiche matematiche applicate.

Nella gestione della produzione, in particolare, quando si ottimizza la qualità del prodotto e i requisiti standard, è particolarmente importante applicare metodi statistici nella fase iniziale del ciclo di vita del prodotto, ad es. nella fase di ricerca, preparazione degli sviluppi della progettazione sperimentale (sviluppo di requisiti di prodotto promettenti, progettazione preliminare, specifiche tecniche per lo sviluppo della progettazione sperimentale). Ciò è dovuto alle limitate informazioni disponibili nella fase iniziale del ciclo di vita del prodotto e alla necessità di prevedere le capacità tecniche e la situazione economica per il futuro. I metodi statistici dovrebbero essere utilizzati in tutte le fasi della risoluzione di un problema di ottimizzazione: quando si ridimensionano le variabili, si sviluppano modelli matematici del funzionamento di prodotti e sistemi, si conducono esperimenti tecnici ed economici, ecc.

Nei problemi di ottimizzazione, inclusa l'ottimizzazione della qualità del prodotto e dei requisiti standard, vengono utilizzate tutte le aree della statistica. Vale a dire statistica di variabili casuali, analisi statistica multivariata, statistica di processi casuali e serie temporali, statistica di oggetti di natura non numerica. Si consiglia di selezionare un metodo statistico per l'analisi di dati specifici in conformità con le raccomandazioni.