Contenenti segni di caratteristiche statistiche. Caratteristiche statistiche di base della DSI. I. Momento organizzativo

Argomento 2.1. Fondamenti di elaborazione statistica dei dati sperimentali nella ricerca agronomica. Caratteristiche statistiche della variabilità quantitativa e qualitativa

Piano.

  1. Fondamenti di statistica
  2. Caratteristiche statistiche della variabilità quantitativa
  3. Tipi di distribuzione statistica
  4. Metodi per verificare ipotesi statistiche

1. Fondamenti di statistica

Il mondo che ci circonda è saturo di informazioni: vari flussi di dati ci circondano, catturandoci nel campo della loro azione, privandoci della corretta percezione della realtà. Non sarebbe esagerato dire che l'informazione diventa parte della realtà e della nostra coscienza.

Senza adeguate tecnologie di analisi dei dati, una persona risulta essere indifesa in un ambiente informativo crudele e assomiglia piuttosto a una particella browniana, subendo duri colpi dall'esterno e incapace di prendere una decisione razionalmente.

Le statistiche ti consentono di descrivere in modo compatto i dati, comprenderne la struttura, classificarli e vedere i modelli nel caos dei fenomeni casuali. Anche i metodi più semplici di analisi dei dati visivi ed esplorativi possono chiarire in modo significativo una situazione complessa che inizialmente colpisce con una pila di numeri.

La descrizione statistica di un insieme di oggetti occupa una posizione intermedia tra la descrizione individuale di ciascuno degli oggetti dell'insieme, da un lato, e la descrizione dell'insieme secondo le sue proprietà generali, che non richiede la sua divisione in distinti oggetti a tutti, dall'altro. Rispetto al primo metodo, i dati statistici sono sempre più o meno impersonali e hanno solo un valore limitato nei casi in cui sono i dati individuali ad essere significativi (ad esempio, un insegnante, facendo conoscenza con una classe, riceverà solo un orientamento molto preliminare su lo stato delle cose da una statistica del numero del suo predecessore esposto di voti eccellenti, buoni, soddisfacenti e insoddisfacenti). D'altra parte, rispetto ai dati sulle proprietà totali della popolazione osservate esternamente, i dati statistici consentono una visione più approfondita dell'essenza della questione. Ad esempio, i dati sulle dimensioni delle rocce (ovvero i dati sulla distribuzione dimensionale delle particelle che formano le rocce) forniscono preziosi Informazioni aggiuntive rispetto al test su campioni di roccia indivisa, consentendo in una certa misura di spiegare le proprietà della roccia, le condizioni per la sua formazione e così via.

Il metodo di ricerca, basato sulla considerazione di dati statistici su determinati insiemi di oggetti, è chiamato statistico. Il metodo statistico è utilizzato in vari campi della conoscenza. Tuttavia, le caratteristiche del metodo statistico quando applicato a oggetti di diversa natura sono così peculiari che sarebbe inutile combinare, ad esempio, statistiche socio-economiche, statistiche fisiche.

Le caratteristiche generali del metodo statistico nei vari campi della conoscenza si riducono al conteggio del numero di oggetti inclusi in determinati gruppi, considerando la distribuzione delle quantità, le caratteristiche, applicando il metodo del campionamento (nei casi in cui uno studio dettagliato di tutti gli oggetti di un vasto popolazione è difficile), utilizzando la teoria della probabilità per valutare la sufficienza il numero di osservazioni per determinate conclusioni, ecc. Questo aspetto matematico formale dei metodi di ricerca statistica, indifferente alla natura specifica degli oggetti in studio, è l'oggetto statistiche matematiche

La connessione tra statistica matematica e teoria della probabilità ha un carattere diverso nei diversi casi. La teoria della probabilità non studia alcun fenomeno, ma fenomeni casuali e precisamente “probabilisticamente casuali”, cioè quelli per i quali ha senso parlare delle distribuzioni di probabilità ad essi corrispondenti. Tuttavia, la teoria della probabilità gioca anche un certo ruolo nello studio statistico di fenomeni di massa di qualsiasi natura, che non possono essere classificati come probabilisticamente casuali. Ciò avviene attraverso la teoria del campionamento e la teoria degli errori di misura basata sulla teoria della probabilità. In questi casi, le regolarità probabilistiche sono soggette non ai fenomeni studiati in sé, ma ai metodi del loro studio.

Un ruolo più importante è svolto dalla teoria della probabilità nello studio statistico dei fenomeni probabilistici. Qui, trovano piena applicazione sezioni di statistica matematica basate sulla teoria della probabilità come la teoria della verifica statistica delle ipotesi probabilistiche, la teoria della stima statistica delle distribuzioni di probabilità e dei loro parametri e così via. L'area di applicazione di questi metodi statistici più profondi è molto più ristretta, poiché qui è richiesto che i fenomeni stessi oggetto di studio siano soggetti a leggi probabilistiche sufficientemente definite.

I modelli probabilistici ricevono un'espressione statistica (le probabilità vengono eseguite approssimativamente sotto forma di frequenze e aspettative matematiche - sotto forma di medie) a causa dei grandi numeri della legge.

Al fine di identificare e valutare le migliori pratiche agricole e le varietà studiate nella sperimentazione sul campo, viene utilizzata l'elaborazione statistica dei dati sperimentali, presentati sotto forma di indicatori numerici della resa e di altre proprietà e qualità delle piante sperimentali. Questi indicatori caratterizzano il fenomeno in esame e riflettono il risultato dell'azione dei fattori studiati che si sono manifestati in un determinato luogo in un determinato periodo di tempo, con tutte le distorsioni, deviazioni dai dati reali dovute a ragioni varie osservato durante l'esperimento.

Statistiche in senso lato, può essere definita come la scienza dell'analisi quantitativa dei fenomeni di massa della natura e della società, che serve a identificarne le caratteristiche qualitative.

La statistica è una branca della conoscenza che combina principi e metodi con dati numerici che caratterizzano i fenomeni di massa. In questo senso, la statistica comprende diverse discipline indipendenti: la teoria generale della statistica come corso introduttivo, la teoria della probabilità e la statistica matematica come scienza delle principali categorie e proprietà matematiche della popolazione generale e delle loro stime selettive.

La parola "statistica" deriva dalla parola latina status - stato, stato di cose. Inizialmente, è usato nel significato di "condizione politica". Da qui la parola italiana stato - stato e statista - conoscitore dello stato. La parola "statistica" è entrata nell'uso scientifico nel 18° secolo ed era originariamente usata come "scienza di stato".

Attualmente, la statistica può essere definita come la raccolta di dati di massa, la loro generalizzazione, presentazione, analisi e interpretazione. Questo è un metodo speciale che viene utilizzato in vari campi di attività, per risolvere vari problemi.

La statistica consente di identificare e misurare i modelli di sviluppo di fenomeni e processi socio-economici, le relazioni tra di essi. La cognizione delle regolarità è possibile solo se non si studiano i singoli fenomeni, ma insiemi di fenomeni, poiché le regolarità si manifestano integralmente, solo nella massa dei fenomeni. In ogni singolo fenomeno, il necessario - ciò che è inerente a tutti i fenomeni di un dato tipo, si manifesta nell'unità con il casuale, l'individuo, inerente solo a questo particolare fenomeno.

Gli schemi in cui la necessità è indissolubilmente legata in ogni singolo fenomeno al caso, e solo in una moltitudine di fenomeni si manifesta la legge, sono chiamati statistici.

Di conseguenza, l'oggetto dello studio statistico è sempre la totalità di determinati fenomeni, compreso l'intero insieme di manifestazioni della regolarità studiata. In un grande aggregato, le singole varietà si annullano a vicenda e le proprietà regolari emergono. Poiché la statistica è progettata per identificare la regolarità, basandosi sui dati su ogni singola manifestazione della regolarità studiata, le generalizza e riceve così un'espressione quantitativa di questa regolarità.

Ogni fase dello studio si conclude con l'interpretazione dei risultati: quale conclusione si può trarre dall'analisi, cosa dicono i numeri, confermano le ipotesi iniziali o rivelano qualcosa di nuovo? L'interpretazione dei dati è limitata dal materiale di partenza. Se le conclusioni si basano su dati campionari, il campione deve essere rappresentativo affinché le conclusioni possano essere applicate alla popolazione nel suo insieme. Le statistiche ti consentono di scoprire tutto ciò che è utile contenuto nei dati di origine e determinare cosa e come può essere utilizzato nel processo decisionale.

Termine statistiche di variazioneè stato introdotto nel 1899 da Dunker per denotare i metodi di statistica matematica utilizzati nello studio di alcuni fenomeni biologici. Un po' prima, nel 1889, F. Galton introdusse un altro termine: biometrica(dalle parole greche "bios" - vita e "metro" - misurare), che denota l'uso di alcuni metodi di statistica matematica nello studio dell'ereditarietà, della variabilità e di altri fenomeni biologici. Basata sulla teoria della probabilità, la statistica variazionale permette di avvicinarsi correttamente all'analisi dell'espressione quantitativa dei fenomeni studiati, di dare una valutazione critica dell'affidabilità degli indicatori quantitativi ottenuti, di stabilire la natura della relazione tra i fenomeni studiati , e, di conseguenza, di comprenderne l'originalità qualitativa.

È importante ricordare che ogni oggetto biologico ha variabilità. Quelli. ciascuno dei tratti (altezza della pianta, numero di chicchi per spiga, contenuto di nutrienti) in individui diversi può avere un diverso grado di gravità, che indica la variabilità o variazione del tratto.

Con il metodo statistico di ricerca, l'attenzione è focalizzata non su un singolo oggetto, ma su un insieme di oggetti omogenei, cioè su alcuni della loro totalità, uniti per uno studio congiunto. Un certo numero di unità omogenee localizzate secondo una o più caratteristiche mutevoli è chiamato popolazione statistica.

Gli aggregati statistici si dividono in:

  1. generale
  2. selettivo

Popolazione unisce tutte le possibili unità omogenee oggetto di studio, ad esempio piante in un campo, popolazioni di parassiti in un campo, fitopatogeni. Popolazione campione rappresenta una parte delle unità prelevate dalla popolazione totale e da controllare. Quando si studia, ad esempio, la resa dei meli di una certa varietà, la popolazione generale è rappresentata da tutti gli alberi di una data varietà, età, che crescono in determinate condizioni omogenee. Il campione è costituito da un certo numero di meli prelevati su appezzamenti di prova nelle piantagioni oggetto di studio.

È del tutto ovvio che nella ricerca statistica si debba trattare esclusivamente di popolazioni campione. La correttezza dei giudizi sulle proprietà della popolazione generale basati sull'analisi della popolazione campione dipende, in primo luogo, dalla sua tipicità. Pertanto, affinché il campione rifletta veramente le proprietà caratteristiche della popolazione generale, la popolazione campione deve includere un numero sufficiente di unità omogenee che hanno la proprietà rappresentatività. La rappresentatività si ottiene selezionando casualmente una variante dalla popolazione generale, che offre pari opportunità a tutti i membri della popolazione generale di entrare nel campione.

Lo studio statistico di alcuni fenomeni si basa sull'analisi della variabilità di indicatori o grandezze che compongono gli aggregati statistici. I valori statistici possono assumere significati diversi, pur rivelando una certa regolarità nella sua variabilità. A questo proposito, le quantità statistiche possono essere definite come quantità che assumono valori diversi con determinate probabilità.

Nel processo di osservazione o di sperimentazione, ci troviamo di fronte a vari tipi di indicatori variabili. Alcuni di loro indossano una pronunciata quantitativo natura e sono facilmente misurabili, mentre altri non possono essere espressi nel solito modo quantitativo e sono tipici qualitativo carattere.

A questo proposito si distinguono due tipi di variabilità o variazione:

  1. quantitativo
  2. qualità

2. Caratteristiche statistiche della variabilità quantitativa

Come esempio di variabilità quantitativa, si dovrebbero includere: variabilità nel numero di spighette in una spiga di grano, variabilità nella dimensione e nel peso dei semi, nel loro contenuto di grassi, proteine, ecc. Un esempio di variazione qualitativa è: un cambiamento nel colore o pubescenza di vari organi vegetali, piselli lisci e rugosi che hanno un colore verde o giallo e vari gradi di danni alle piante da malattie e parassiti.

La variazione quantitativa, a sua volta, può essere suddivisa in due tipi: variazione continuo e intermittente.

Continuo la variazione comprende i casi in cui le popolazioni oggetto di studio sono costituite da unità statistiche determinate da misurazioni o calcoli basati su tali misurazioni. Si può esprimere un esempio di variazione continua: il peso e la dimensione dei semi, la lunghezza degli internodi, la resa delle colture. In tutti questi casi, gli indicatori quantitativi studiati possono teoricamente assumere tutti i valori possibili, sia interi che frazionari tra i loro limiti estremi. Il passaggio dal valore minimo estremo al massimo è teoricamente graduale e può essere rappresentato da una linea continua.

In intermittente variazione, le singole grandezze statistiche sono un insieme di singoli elementi, espressi non più dalla misurazione e non dal calcolo, ma dal conteggio. Un esempio di tale variazione è la variazione del numero di semi nei frutti, il numero di petali in un fiore, il numero di alberi per unità di superficie, il numero di pannocchie di mais per pianta. Variazioni discontinue di questo tipo sono talvolta dette intere, perché singole quantità statistiche acquisiscono valori interi abbastanza definiti, mentre con variazione continua queste quantità possono essere espresse sia come valori interi che frazionari.

Le principali caratteristiche statistiche della variabilità quantitativa sono le seguenti:

1. Media aritmetica;

Indicatori di variabilità del tratto:

2. dispersione;

3. deviazione standard;

4. coefficiente di variazione;

5. Errore standard della media aritmetica;

6. Errore relativo.

Significato aritmetico. Quando si studiano indicatori quantitativi variabili, il principale valore di sintesi è la loro media aritmetica. La media aritmetica serve sia per giudicare le singole popolazioni studiate, sia per confrontare tra loro le popolazioni corrispondenti. I valori medi ottenuti sono la base per trarre conclusioni e per risolvere alcuni problemi pratici.

Per calcolare la media aritmetica si usa la seguente formula: se la somma di tutte le opzioni (x 1 + x 2 + ... + x n) è indicata con Σ x i, il numero di opzioni - con n, allora la media aritmetica è determinato:

x cfr. =Σ x i / n)

La media aritmetica fornisce la prima caratteristica quantitativa generale della popolazione statistica studiata. Quando si risolvono una serie di problemi teorici e pratici, oltre a conoscere il valore medio dell'indicatore analizzato, diventa necessario stabilire ulteriormente la natura della distribuzione della variante attorno a questa media.

Gli oggetti della ricerca agraria e biologica sono caratterizzati dalla variabilità dei segni e delle proprietà nel tempo e nello spazio. Le ragioni sono sia le caratteristiche interne ed ereditarie degli organismi, sia la diversa velocità della loro reazione alle condizioni ambientali.

Rivelare la natura dello scattering è uno dei compiti principali dell'analisi statistica dei dati sperimentali, che consente non solo di stimare il grado di dispersione dell'osservazione, ma anche di utilizzare questa stima per analizzare e interpretare i risultati dello studio.

La natura della variante di raggruppamento vicino al loro valore medio, detta anche dispersione, può servire da indicatore del grado di variabilità del materiale studiato. Indicatori di variabilità. Limiti (campo di variazione) sono i valori minimo e massimo della caratteristica nell'aggregato. Maggiore è la differenza tra loro, più variabile è il segno.

Varianza S 2 e deviazione standard S. Queste caratteristiche statistiche sono le principali misure di variazione (scattering) del tratto in studio. La varianza (quadrato medio) è il quoziente della somma delle deviazioni al quadrato Σ (x – x) 2 diviso per il numero di tutte le misurazioni senza unità:

Σ (x - x) 2 / n -1

Lo standard, o deviazione standard, si ottiene estraendo radice quadrata dalla dispersione:

S = √ S 2

Deviazione standard caratterizza il grado di variabilità del materiale studiato, la misura del grado di influenza sul tratto di vari motivi secondari per la sua variazione, espressa in termini assoluti, cioè nelle stesse unità dei valori delle singole varianti. A questo proposito, la deviazione standard può essere utilizzata solo quando si confronta la variabilità delle popolazioni statistiche, le cui varianti sono espresse nelle stesse unità di misura.

In statistica, è generalmente accettato che l'intervallo di variabilità negli aggregati di volume sufficientemente grande, che sono sotto l'influenza costante di molti fattori diversi e multidirezionali (fenomeni biologici), non vada oltre i 3S della media aritmetica. Si dice che tali popolazioni seguano una normale distribuzione delle varianti.

A causa del fatto che l'intervallo di variabilità per ciascuna popolazione biologica studiata è entro 3S dalla media aritmetica, maggiore è la deviazione standard, maggiore è la variabilità del tratto nelle popolazioni studiate. La deviazione standard viene utilizzata come indicatore indipendente e come base per il calcolo di altri indicatori.

Quando si confronta la variabilità di popolazioni eterogenee, è necessario utilizzare una misura della variazione, che è un numero astratto. A tal fine, le statistiche introdotte il coefficiente di variazione, intesa come deviazione standard, espressa come percentuale della media aritmetica di questa popolazione:

V = S / x × 100%.

Il coefficiente di variazione consente di dare una valutazione oggettiva del grado di variazione quando si confrontano le popolazioni. Quando si studiano i tratti quantitativi, consente di selezionare il più stabile di essi. La variabilità è considerata insignificante se il coefficiente di variazione non supera il 10%, media - se è compresa tra il 10% e il 20% e significativa - se è superiore al 20%.

Sulla base degli indicatori considerati, giungiamo a un giudizio sull'originalità qualitativa dell'intera popolazione generale. Ovviamente, il grado di affidabilità dei nostri giudizi sulla popolazione generale dipenderà, in primo luogo, dalla misura in cui, nell'una o nell'altra parte della popolazione campione, le sue caratteristiche individuali, così come casuali, non interferiscono con il manifestazione di modelli e proprietà generali del fenomeno in esame.

A causa del fatto che nella maggior parte dei casi durante il lavoro sperimentale e la ricerca scientifica non possiamo operare con campioni molto grandi, diventa necessario determinare possibili errori nelle nostre caratteristiche del materiale studiato sulla base di questi campioni. Va notato che in questo caso, gli errori dovrebbero essere intesi non come errori nei calcoli di determinati indicatori statistici, ma limiti delle possibili fluttuazioni dei loro valori rispetto all'intera popolazione.

Il confronto dei singoli valori trovati degli indicatori statistici con i possibili limiti delle loro deviazioni serve, in definitiva, come criterio per valutare l'affidabilità delle caratteristiche campionarie ottenute. La soluzione di questa importante questione, sia teorica che pratica, è fornita dalla teoria degli errori statistici.

Così come le varianti delle serie variazionali sono distribuite attorno alla loro media, allo stesso modo saranno distribuiti i valori parziali delle medie ottenute dai singoli campioni. Cioè, più variano gli oggetti studiati, più varieranno i valori privati. Allo stesso tempo, più valori privati ​​delle medie si ottengono su un numero maggiore di varianti, più saranno vicine al valore reale della media aritmetica dell'intera popolazione statistica. Sulla base di quanto sopra errore medio campionario (errore standard)è una misura della deviazione della media campionaria dalla media della popolazione generale. Gli errori di campionamento sorgono a causa della rappresentatività incompleta della popolazione campione, nonché durante il trasferimento dei dati ottenuti dallo studio del campione all'intera popolazione. Il valore dell'errore dipende dal grado di variabilità del tratto in studio e dalla dimensione del campione.

L'errore standard è direttamente proporzionale alla deviazione standard del campione e inversamente proporzionale alla radice quadrata del numero di misurazioni:

S X = S / √ n

Gli errori di campionamento sono espressi nelle stesse unità di misura del segno della variabile e mostrano i limiti entro i quali può trovarsi il vero valore della media aritmetica della popolazione studiata. L'errore assoluto della media campionaria viene utilizzato per stabilire i limiti di confidenza nella popolazione generale, l'affidabilità degli indicatori e delle differenze campionarie, nonché per stabilire la dimensione del campione nel lavoro di ricerca.

L'errore della media può essere utilizzato per ottenere un indicatore dell'accuratezza dello studio - errore relativo della media campionaria. Questo è l'errore di campionamento espresso in percentuale della media corrispondente:

S X , % = S x / x cf × 100

I risultati sono considerati abbastanza soddisfacenti se l'errore relativo non supera il 3-5% e corrisponde a un livello soddisfacente, a 1-2% - accuratezza molto elevata, 2-3% - accuratezza elevata.

3. Tipi di distribuzione statistica

La frequenza di manifestazione di determinati valori di una caratteristica nell'aggregato è chiamata distribuzione. Distinguere tra distribuzioni di frequenza empiriche e teoriche della totalità dei risultati delle osservazioni. La distribuzione empirica è la distribuzione dei risultati delle misurazioni ottenute dallo studio del campione. La distribuzione teorica assume la distribuzione delle misurazioni basata sulla teoria della probabilità. Questi includono: distribuzione normale (gaussiana), distribuzione di Student (t - distribuzione), distribuzione F, distribuzione di Poisson, binomiale.

La più importante nella ricerca biologica è la distribuzione normale o gaussiana: si tratta di un insieme di misurazioni in cui le varianti sono raggruppate attorno al centro di distribuzione e le loro frequenze diminuiscono uniformemente a destra ea sinistra del centro di distribuzione (x). Le singole varianti deviano simmetricamente dalla media aritmetica e l'intervallo di variazione in entrambe le direzioni non supera 3 σ. La distribuzione normale è caratteristica delle popolazioni i cui membri sono collettivamente influenzati da un numero infinitamente grande di fattori diversi e multidirezionali. Ogni fattore contribuisce in una certa parte alla variabilità complessiva del tratto. Infinite fluttuazioni di fattori determinano la variabilità dei singoli membri degli aggregati.

Questo criterio è stato sviluppato da William Gossett per valutare la qualità della birra alla Guinness. In connessione con l'obbligo per l'azienda di non divulgare segreti commerciali (e la direzione della Guinness considerava l'uso dell'apparato statistico nel proprio lavoro in quanto tale), l'articolo di Gossett è stato pubblicato sulla rivista Biometrics con lo pseudonimo di "Studente" (Studente).

Per applicare questo criterio è necessario che i dati originali abbiano una distribuzione normale. Nel caso di applicazione di un test a due campioni per campioni indipendenti, è inoltre necessario rispettare la condizione di uguaglianza delle varianze. Esistono, tuttavia, alternative al test t di Student per situazioni con varianze disuguali.

Negli studi reali, l'uso scorretto del t-test di Student è complicato anche dal fatto che la stragrande maggioranza dei ricercatori non solo non verifica l'ipotesi di uguaglianza delle varianze generali, ma non verifica nemmeno il primo vincolo: la normalità in entrambi i confronti gruppi. Di conseguenza, gli autori di tali pubblicazioni fuorviano sia se stessi che i loro lettori sui veri risultati del controllo dell'uguaglianza dei mezzi. Aggiungiamo a questo il fatto che il problema dei confronti multipli viene ignorato, quando gli autori effettuano confronti a coppie per tre o più gruppi confrontati. Va notato che non solo i neolaureati e i candidati soffrono di tale sciatteria statistica, ma anche gli specialisti investiti di varie insegne accademiche e manageriali: accademici, rettori universitari, dottori e candidati di scienze e molti altri scienziati.

Il risultato dell'ignorare le limitazioni per il t-test di Student è la confusione degli autori di articoli e dissertazioni, e quindi dei lettori di queste pubblicazioni, riguardo al vero rapporto delle medie generali dei gruppi confrontati. Quindi in un caso si conclude su una differenza significativa dei mezzi, quando in realtà non differiscono, nell'altro, al contrario, si trae una conclusione sull'assenza di una differenza significativa nei mezzi, quando tale la differenza esiste.

Perché la distribuzione normale è importante? La distribuzione normale è importante per molte ragioni. La distribuzione di molte statistiche è normale o può essere ottenuta da normale con alcune trasformazioni. Filosoficamente parlando, possiamo dire che la distribuzione normale è una delle verità verificate empiricamente sulla natura generale della realtà e la sua posizione può essere considerata come una delle leggi fondamentali della natura. La forma esatta di una distribuzione normale (la caratteristica "curva a campana") è determinata da due soli parametri: la media e la deviazione standard.

Una proprietà caratteristica di una distribuzione normale è che il 68% di tutte le sue osservazioni si trova entro ±1 deviazione standard della media e dell'intervallo; ± 2 deviazioni standard contiene il 95% dei valori. In altre parole, con una distribuzione normale, le osservazioni standardizzate inferiori a -2 o superiori a +2 hanno una frequenza relativa inferiore al 5% (osservazione standardizzata significa che la media viene sottratta dal valore originale e il risultato è diviso per lo standard deviazione (radice della varianza)). Se hai accesso al pacchetto STATISTICA, puoi calcolare le probabilità esatte associate a diversi valori della distribuzione normale utilizzando il Calcolatore di probabilità; per esempio, se si imposta il valore z (cioè il valore di una variabile casuale che ha una distribuzione normale standard) a 4, il livello di probabilità corrispondente calcolato da STATISTICA sarà inferiore a .0001, perché con una distribuzione normale, quasi tutte le osservazioni (cioè più di 99, 99%) rientreranno entro ±4 deviazioni standard.

L'espressione grafica di questa distribuzione è chiamata curva gaussiana o curva di distribuzione normale. È stato sperimentalmente stabilito che tale curva ripete spesso la forma degli istogrammi ottenuti con grandi numeri osservazioni.

La forma della curva di distribuzione normale e la sua posizione sono determinate da due valori: la media generale e la deviazione standard.

Nella ricerca pratica, non usano direttamente la formula, ma ricorrono all'aiuto delle tabelle.

Il massimo, o centro, della distribuzione normale si trova nel punto x = μ, il punto di flesso della curva è in x1= ​​μ - σ e x2= μ + σ, in n = ± ∞ la curva raggiunge lo zero. L'intervallo di oscillazioni da μ a destra e a sinistra dipende dal valore di σ ed è compreso tra tre deviazioni standard:

1. Il 68,26% di tutte le osservazioni si trova nell'area dei limiti μ + σ;

2. Entro i limiti μ + 2 σ ci sono il 95,46% di tutti i valori della variabile casuale;

3. Nell'intervallo μ + 3σ è 99,73%, quasi tutti i valori della caratteristica.

Tutte le statistiche sui criteri sono normalmente distribuite? Non tutti, ma la maggior parte di essi hanno una distribuzione normale o hanno una distribuzione correlata alla normale e calcolata dalla normale, come t, F o chi-quadrato. Tipicamente, questi criteri statistici richiedono che le stesse variabili analizzate siano normalmente distribuite nella popolazione. Molte delle variabili osservate sono infatti normalmente distribuite, il che è un altro argomento per cui la distribuzione normale rappresenta una "legge fondamentale". Può sorgere un problema quando si tenta di applicare test basati sul presupposto di normalità a dati che non sono normali. In questi casi, puoi scegliere uno dei due. In primo luogo, è possibile utilizzare test "non parametrici" alternativi (i cosiddetti "test distribuiti liberamente", vedere la sezione Statistiche e distribuzioni non parametriche). Tuttavia, questo è spesso scomodo perché questi criteri sono generalmente meno potenti e meno flessibili. In alternativa, in molti casi è ancora possibile utilizzare test basati sul presupposto di normalità se si è sicuri che la dimensione del campione sia sufficientemente ampia. Quest'ultima possibilità si basa su estremamente principio importante, che ci consente di comprendere la popolarità dei test basati sulla normalità. Vale a dire, all'aumentare della dimensione del campione, la forma della distribuzione campionaria (cioè la distribuzione della statistica campionaria del test, il termine è stato utilizzato per la prima volta da Fisher, Fisher 1928a) si avvicina alla normalità, anche se la distribuzione delle variabili oggetto di studio non è normale. Questo principio è illustrato dalla seguente animazione, che mostra una sequenza di distribuzioni campionarie (ottenute per una sequenza di campioni di dimensioni crescenti: 2, 5, 10, 15 e 30) corrispondenti a variabili con una pronunciata deviazione dalla normalità, ad es. con una distribuzione marcatamente asimmetrica.

Tuttavia, poiché la dimensione del campione utilizzata per derivare la distribuzione della media campionaria aumenta, questa distribuzione si avvicina alla normalità. Si noti che con una dimensione del campione di n=30, la distribuzione del campione è "quasi" normale (vedi linea di raccordo).

L'affidabilità statistica, o livello di probabilità, è l'area sotto la curva, limitata dalla media da t deviazioni standard, espressa come percentuale dell'area totale. In altre parole, questa è la probabilità di occorrenza di un valore di caratteristica che si trova nella regione μ + t σ. Il livello di significatività è la probabilità che il valore dell'attributo variabile sia al di fuori dei limiti μ + t σ, ovvero il livello di significatività indica la probabilità che una variabile casuale si discosti dai limiti di variazione stabiliti. Maggiore è il livello di probabilità, minore è il livello di significatività.

Nella pratica della ricerca agronomica, si ritiene possibile utilizzare probabilità di 0,95 - 95% e 0,99 - 99%, che sono chiamate confidenza, cioè quelle di cui ci si può fidare e utilizzate con sicurezza. Quindi, con una probabilità di 0,95 - 95%, la possibilità di commettere un errore di 0,05 - 5%, ovvero 1 su 20; con una probabilità di 0,99 - 99% - rispettivamente 0,01 - 1% o 1 su 100.

Un approccio simile è applicabile alla distribuzione delle medie campionarie, poiché qualsiasi studio si riduce a un confronto di mezzi che obbediscono alla normale legge di distribuzione. Media μ, varianza σ 2 e deviazione standard σ sono i parametri della popolazione generale a n > ∞. Le osservazioni campionarie consentono di ottenere stime di questi parametri. Per campioni di grandi dimensioni (n>20-30, n>100), i modelli di distribuzione normale sono obiettivi per le loro stime, ovvero il 68,26% si trova nella regione x ± S, il 95,46% nella regione x ± 2S, 99,46% sono nella regione x ± 3S, il 73% di tutte le osservazioni. La media aritmetica e la deviazione standard sono tra le principali caratteristiche con cui viene impostata la distribuzione empirica delle misurazioni.

4. Metodi per verificare ipotesi statistiche

Le conclusioni di qualsiasi esperimento agricolo o biologico devono essere giudicate sulla base del loro significato o materialità. Tale valutazione viene effettuata confrontando le varianti dell'esperienza tra loro, o con il controllo (standard), o con la distribuzione teoricamente attesa.

Ipotesi statistica- un'ipotesi scientifica su alcune leggi statistiche di distribuzione delle variabili aleatorie in esame, che possono essere verificate sulla base di un campione. Confronta le popolazioni verificando l'ipotesi nulla che non vi sia alcuna reale differenza tra le osservazioni effettive e teoriche, utilizzando il test statistico più appropriato. Se, a seguito del test, le differenze tra gli indicatori effettivi e teorici sono prossime allo zero o sono comprese nell'intervallo di valori accettabili, l'ipotesi nulla non viene confutata. Se le differenze risultano essere nella regione critica per il dato criterio statistico, impossibile secondo la nostra ipotesi e quindi incompatibile con esso, l'ipotesi nulla è confutata.

L'accettazione dell'ipotesi nulla significa che i dati non contraddicono l'assunto che non vi sia alcuna differenza tra la performance effettiva e quella teorica. La confutazione dell'ipotesi significa che l'evidenza empirica non è coerente con l'ipotesi nulla e un'altra ipotesi alternativa è vera. La validità dell'ipotesi nulla viene verificata calcolando i criteri di test statistici per un certo livello di significatività.

Il livello di significatività caratterizza la misura in cui rischiamo di sbagliare rifiutando l'ipotesi nulla, cioè qual è la probabilità di deviazione dai limiti di variazione stabiliti di una variabile aleatoria. Pertanto, maggiore è il livello di probabilità, minore è il livello di significatività.

Il concetto di probabilità è indissolubilmente legato al concetto di evento casuale. Nella ricerca agricola e biologica, a causa della variabilità inerente agli organismi viventi sotto l'influenza di condizioni esterne, il verificarsi di un evento può essere casuale o non casuale. Gli eventi non casuali saranno quelli che vanno oltre i limiti delle possibili fluttuazioni casuali delle osservazioni campionarie. Questa circostanza ci consente di determinare la probabilità di accadimento di eventi sia casuali che non casuali.

In questo modo, probabilità- una misura della possibilità oggettiva di un evento, il rapporto tra il numero dei casi favorevoli e il numero totale dei casi. Il livello di significatività indica la probabilità con cui l'ipotesi verificata può dare un risultato errato. Nella pratica della ricerca agraria si ritiene possibile utilizzare probabilità di 0,95 (95%) e 0,99 (99%), che corrispondono ai seguenti livelli di significatività di 0,05 - 5% e 0,01 - 1%. Queste probabilità sono chiamate probabilità di confidenza, cioè quelli di cui ci si può fidare.

I criteri statistici utilizzati per valutare la discrepanza tra le popolazioni statistiche sono di due tipi:

1) parametrico (per valutare popolazioni che hanno una distribuzione normale);

2) non parametrico (applicato a distribuzioni di qualsiasi forma).

Nella pratica della ricerca agricola e biologica, ci sono due tipi di esperimenti.

In alcuni esperimenti, le varianti sono correlate tra loro da una o più condizioni controllate dal ricercatore. Di conseguenza, i dati sperimentali non variano indipendentemente, ma coniugare, poiché l'influenza delle condizioni che legano le varianti si manifesta, di regola, in modo inequivocabile. Questo tipo di esperimento include, ad esempio, una prova sul campo con ripetizioni, ciascuna delle quali si trova in un sito di fertilità relativamente uguale. In un tale esperimento, è possibile confrontare le varianti tra loro solo entro i limiti della ripetizione. Un altro esempio di osservazioni correlate è lo studio della fotosintesi; qui la condizione unificante sono le caratteristiche di ogni impianto sperimentale.

Insieme a questo, vengono spesso confrontate popolazioni, le cui varianti cambiano indipendentemente l'una dall'altra. Non coniugate, indipendenti sono le variazioni delle caratteristiche delle piante coltivate in condizioni differenti; negli esperimenti sulla vegetazione, i vasi delle stesse varianti fungono da ripetizioni e qualsiasi vaso di una variante può essere confrontato con qualsiasi vaso di un'altra.

Ipotesi statistica- qualche ipotesi sulla legge di distribuzione di una variabile aleatoria o sui parametri di tale legge all'interno del campione dato.

Un esempio di ipotesi statistica: "la popolazione generale è distribuita secondo la legge normale", "la differenza tra le varianze dei due campioni è insignificante", ecc.

Nei calcoli analitici è spesso necessario avanzare e verificare ipotesi. L'ipotesi statistica viene verificata utilizzando un criterio statistico secondo il seguente algoritmo:

L'ipotesi è formulata in termini di differenza di valori. Ad esempio, esiste una variabile casuale x e una costante a. Non sono uguali (aritmeticamente), ma occorre stabilire se la differenza tra loro è statisticamente significativa?

Esistono due tipi di criteri:

Si noti che i segni ≥, ≤, = sono qui usati non in senso aritmetico, ma in senso “statistico”. Devono essere letti “significativamente di più”, “significativamente di meno”, “la differenza è insignificante”.

Metodo t-test di Student

Quando si confrontano le medie di due campioni indipendenti, utilizziamo metodo per t - Criterio di Student proposto dallo scienziato inglese F. Gosset. Utilizzando questo metodo, viene stimata la significatività della differenza nelle medie (d \u003d x 1 - x 2). Si basa sul calcolo dei valori effettivi e di tabella e sul loro confronto.

Nella teoria della statistica, l'errore della differenza o la somma delle medie aritmetiche di campioni indipendenti con lo stesso numero di osservazioni (n ​​1 + n 2) è determinato dalla formula:

S d = √ S X1 2 + S X2 2 ,

dove S d è l'errore della differenza o somma;

S X1 2 e S X2 2 - errori delle medie aritmetiche confrontate.

Il rapporto tra la differenza e il suo errore serve come garanzia dell'affidabilità della conclusione sul significato o l'insignificanza delle differenze tra le medie aritmetiche. Questo rapporto è chiamato criterio di significatività della differenza:

t \u003d x 1 - x 2 / "√ S X1 2 + S X2 2 \u003d d / S d.

Il valore teorico del criterio t è ricavato dalla tabella, conoscendo il numero di gradi di libertà Y = n 1 + n 2 - 2 e il livello di significatività accettato.

Se t fact ≥ t theor, l'ipotesi nulla sull'assenza di differenze significative tra i mezzi è confutata, e se le differenze sono all'interno di fluttuazioni casuali per il livello di significatività accettato, non è confutata.

metodo di stima dell'intervallo

Stima dell'intervallo caratterizzato da due numeri: gli estremi dell'intervallo che copre il parametro stimato. Per fare ciò, è necessario determinare gli intervalli di confidenza per i possibili valori della popolazione media generale. Allo stesso tempo, x è una stima puntuale della media generale, quindi la stima puntuale della media generale può essere scritta come segue: x ± t 0,5 *S X , dove t 0,5 *S X è l'errore marginale della media campionaria a dato numero gradi di libertà e livello di significatività accettato.

Intervallo di confidenzaè l'intervallo che copre il parametro stimato con una data probabilità. Il centro dell'intervallo è una stima del punto di campionamento. I limiti, o limiti di confidenza, sono determinati dall'errore medio di stima e dal livello di probabilità - x - t 0,5 *S X e x + t 0,5 *S X . Nella tabella sono riportati il ​​valore del test di Student per i diversi livelli di significatività e il numero di gradi di libertà.

Stima della differenza della serie media aggiunta

La stima della differenza tra le medie per i campioni coniugati è calcolata con il metodo della differenza. L'essenza sta nel fatto che il significato della differenza media è stimato dal confronto a coppie delle varianti dell'esperimento. Per trovare S d con il metodo delle differenze, viene calcolata la differenza tra coppie coniugate di osservazioni d, il valore della differenza media (d = Σ d / n) e l'errore della differenza media sono determinati dalla formula:

S d \u003d √ Σ (d - d) 2 / n (n - 1)

Il criterio di materialità è calcolato con la formula: t = d / S d . Il numero di gradi di libertà si trova dall'uguaglianza Y= n-1, dove n-1 è il numero di coppie coniugate.

domande di prova

  1. Che cos'è la statistica variazionale (matematica, statistica biologica, biometria)?
  2. Cosa si chiama collezione? Tipi di aggregati.
  3. Ciò che si chiama variabilità, variazione? Tipi di variabilità.
  4. Definire una serie variazionale.
  5. Quali sono gli indicatori statistici di variabilità quantitativa.
  6. Parlaci degli indicatori di variabilità di un tratto.
  7. Come viene calcolata la varianza, le sue proprietà?
  8. Quali distribuzioni teoriche conosci?
  9. Qual è la deviazione standard, le sue proprietà?
  10. Cosa sai della distribuzione normale?
  11. Denominare gli indicatori di variabilità qualitativa e le formule per il loro calcolo.
  12. Che cos'è l'intervallo di confidenza e l'affidabilità statistica?
  13. Qual è l'errore assoluto e relativo della media del campione, come calcolarli?
  14. Coefficiente di variazione e suo calcolo per variabilità quantitativa e qualitativa.
  15. Quali sono i metodi statistici per verificare le ipotesi.
  16. Definire un'ipotesi statistica.
  17. Quali sono le ipotesi nulle e alternative?
  18. Che cos'è un intervallo di confidenza?
  19. Cosa sono i campioni coniugati e indipendenti?
  20. Come viene calcolata la stima dell'intervallo dei parametri della popolazione generale?

Informazioni preliminari sui METODI DI ELABORAZIONE DEI RISULTATI SPERIMENTALI

PREPARAZIONE DEI DATI PRIMARI PER L'ANALISI

Osservando e misurando le caratteristiche dell'oggetto, lo sperimentatore raccoglie materiale statistico primario. Il prossimo compito è elaborare e presentare i dati primari in modo tale da consentire la valutazione e il confronto dei risultati per verificare le ipotesi, per identificare le proprietà e gli schemi essenziali del processo in esame. Le modalità di elaborazione si basano sull'ordinamento preliminare, sulla sistematizzazione dei dati primari e sul calcolo delle loro caratteristiche statistiche.

L'algoritmo di preparazione dei dati generalizzato può essere rappresentato dalle seguenti operazioni:
a) tutti i dati sono formulati e registrati nell'apposito spazio forma breve;
b) i dati sono raggruppati, cioè distribuiti in gruppi omogenei secondo le caratteristiche di interesse dello sperimentatore. I dati in ciascun gruppo sono ordinati - classificati, ordinati, strutturati secondo il modello che è stato sviluppato in fase di elaborazione del piano del programma, vengono stabilite le caratteristiche (viene calcolato le caratteristiche, i parametri di ciascun gruppo di dati e il numero assoluto di fattori che caratterizzano il gruppo ) i dati all'interno di ciascun gruppo formato si trovano in serie (serie di variazione) in funzione decrescente o crescente. Vengono determinati i valori più grandi e più piccoli dell'attributo;
e) sono classificate le serie di variazione dei dati ottenuti su scala nominale o ordinale. Gli intervalli di raggruppamento in base ai ranghi vengono scelti in modo ottimale (gli intervalli troppo grandi nascondono le sfumature dei fenomeni e quelli troppo frazionari rendono difficile il lavoro). A seguito di tale operazione emergono nuovi dati quantitativi;
f) viene effettuata l'elaborazione statistica dei dati quantitativi ottenuti, che consiste nel calcolo di alcune caratteristiche statistiche e stime che consentono una più profonda comprensione delle caratteristiche dei fenomeni sperimentali;
g) vengono compilati materiali visivi che espongono le informazioni ricevute: tabelle, grafici, diagrammi, diagrammi, ecc., secondo i quali vengono successivamente stabilite e analizzate le relazioni tra i parametri degli oggetti sperimentali.

CARATTERISTICHE STATISTICHE

Lo sperimentatore deve conoscere alcuni dei concetti più semplici di statistica matematica e la capacità di lavorare con essi.
Viene chiamato l'intero insieme di fenomeni omogenei, eventi o loro indicatori di interesse per il ricercatore popolazione generale dati dell'oggetto. Quella parte di quest'ultima, che è sottoposta a studio sperimentale, è chiamata popolazione o campione selettivo.
Valore(volume) del campione è un numero assoluto (contabile) di oggetti di studio omogenei (fenomeni, eventi o loro caratteristiche).
Il campione è caratterizzato da una serie di caratteristiche statistiche, le più comuni delle quali sono: media aritmetica, varianza, deviazione standard della media aritmetica.

Significare dato indicatore della popolazione campione (media aritmetica, campione medio) è il rapporto tra la somma di tutti i valori misurati dell'indicatore e la dimensione del campione.

Se nel campione sono presenti valori duplicati, viene compilata una tabella di dati raggruppati, della forma seguente:

Allora = , dove n= .

Il valore medio non caratterizza completamente il campione; nasconde il "comportamento" dell'indicatore del fenomeno stesso - "scatter", una diversa distribuzione dei suoi valori attorno alla media (la cosiddetta "funzione di distribuzione").

Varianza di campionamento(s 2) un indicatore statistico è il valore medio delle deviazioni al quadrato dei suoi valori individuali dalla media campionaria; la dispersione è determinata dalla formula:

S2 = (2)

Per dati raggruppati S2 = .

Esempio di deviazione standardè chiamata radice quadrata della varianza campionaria.

La varianza campionaria e la deviazione standard svolgono un ruolo importante nel determinare il grado di affidabilità dei risultati.
Anche la popolazione generale presenta tutte le caratteristiche statistiche di cui sopra, che in generale non coincidono con le caratteristiche del campione. Per sperimentare significato speciale, ha una stima dell'errore che è consentito se le caratteristiche del campione sono utilizzate per giudicare la popolazione generale.
Nella pratica dei calcoli, viene determinata la differenza tra i valori medi della popolazione generale e quella campionaria errore quadratico medio media campionaria, che viene calcolata dalla formula

Modaè il valore più frequente nel campione. La moda viene utilizzata, ad esempio, per determinare la taglia di vestiti, scarpe, che sono più richiesti dagli acquirenti. La modalità per una serie discreta è il valore con la frequenza più alta.

mediana - questo è il valore della caratteristica che sta alla base della serie classificata e divide questa serie in due parti uguali in numero.

Per determinare la mediana in una serie discreta in presenza di frequenze si calcola prima la semisomma delle frequenze, quindi si determina quale valore della caratteristica ricade su di essa. (Se la serie ordinata contiene un numero dispari di caratteristiche, il valore della media nella serie ordinata sarà la mediana, numero di serie le mediane sono calcolate con la formula:

(n + 1)/2,

nel caso di un numero pari di caratteristiche la mediana sarà uguale alla media aritmetica delle due caratteristiche a metà della serie.

Le principali caratteristiche statistiche sono divise in due gruppi principali: misure di tendenza centrale e caratteristiche di variazione.

L'andamento centrale del campione ci permettono di valutare caratteristiche statistiche come media aritmetica, moda, mediana.

La misura più facilmente ottenibile della tendenza centrale è la moda. Moda (Mo)è il valore nell'insieme di osservazioni che si verifica più frequentemente. Nell'insieme dei valori (2, 6, 6, 8, 7, 33, 9, 9, 9, 10), la modalità è 9 perché ricorre più spesso di qualsiasi altro valore. Nel caso in cui tutti i valori in un gruppo si verifichino con la stessa frequenza, questo gruppo è considerato privo di modalità.

Quando due valori adiacenti in una serie classificata hanno la stessa frequenza e sono maggiori della frequenza di qualsiasi altro valore, la modalità è la media dei due valori.

Se due valori non adiacenti in un gruppo hanno frequenze uguali e sono maggiori delle frequenze di qualsiasi valore, ci sono due modalità (ad esempio, nell'insieme di valori 10, 11, 11, 11, 12, 13, 14, 14, 14, 17 sono 11 e quattordici); in tal caso, il gruppo di misurazioni o stime è bimodale.

La modalità più grande in un gruppo è l'unico valore che soddisfa la definizione di una modalità. Tuttavia, potrebbero esserci diverse modalità più piccole nell'intero gruppo. Questi modi più piccoli rappresentano i picchi locali della distribuzione di frequenza.

Mediana (io)è la metà della serie a intervalli di risultati di misurazione. Se i dati contengono un numero pari di valori distinti, allora la mediana è il punto che si trova a metà strada tra i due valori centrali quando sono ordinati.

Significato aritmetico per una serie di misure non ordinata si calcola con la formula:

dove . Ad esempio, per i dati 4.1; 4.4; 4.5; 4.7; 4.8 calcolare:

.

Ciascuna delle misure del centro sopra calcolate è la più adatta per l'uso in determinate condizioni.

La modalità è calcolata in modo molto semplice: può essere determinata a occhio. Inoltre, per gruppi di dati molto grandi, questa è una misura abbastanza stabile del centro di distribuzione.

La mediana occupa una posizione intermedia tra la moda e la media in termini di calcolo. Questa misura si ottiene particolarmente facilmente nel caso di dati classificati.

L'insieme medio di dati coinvolge principalmente operazioni aritmetiche.

Il valore della media è influenzato dai valori di tutti i risultati. La mediana e la moda non richiedono la definizione di tutti i valori. Vediamo cosa succede a media, mediana e moda quando il valore massimo raddoppia nel seguente insieme:

Serie 1: 1, 3, 3, 5, 6, 7, 8 33/7 5 3

Serie 2: 1, 3, 3, 5, 6, 7, 16 41/7 5 3

Il valore della media è particolarmente influenzato dai risultati, che sono chiamati “outliers”, cioè dati lontani dal centro di un gruppo di stime.

Il calcolo della moda, mediana o media è una procedura puramente tecnica. Tuttavia, la scelta di queste tre misure e la loro interpretazione richiedono spesso qualche riflessione. Durante il processo di selezione è necessario impostare:

– in piccoli gruppi, la moda può essere completamente instabile. Ad esempio, modalità gruppo: 1, 1, 1, 3, 5, 7, 7, 8 è 1; ma se uno degli uno diventa zero, e l'altro in due, allora il modo sarà uguale a 7;

– la mediana non è influenzata dai valori di “grande” e “piccolo”. Ad esempio, in un gruppo di 50 valori, la mediana non cambierà se valore più alto triplicare;

– ogni valore influisce sul valore della media. Se un valore cambia di c unità, cambierà nella stessa direzione di c/n unità;

– Alcuni set di dati non hanno una tendenza centrale, che spesso è fuorviante quando si calcola una sola misura della tendenza centrale. Ciò è particolarmente vero per i gruppi con più di una modalità;

– quando un gruppo di dati è considerato un campione di un grande gruppo simmetrico, è probabile che la media campionaria sia più vicina al centro del grande gruppo rispetto alla mediana e alla moda.

Tutte le caratteristiche medie forniscono una caratteristica generale di un certo numero di risultati di misurazione. In pratica, siamo spesso interessati a quanto ogni risultato devia dalla media. Tuttavia, è facile immaginare che due gruppi di risultati di misurazione abbiano la stessa media ma valori di misurazione diversi. Ad esempio, per le serie 3, 6, 3 - valore medio = 4; per le serie 5, 2, 5, anche il valore medio = 4, nonostante la differenza significativa tra queste serie.

Pertanto, le caratteristiche medie devono essere sempre integrate con indicatori di variazione, o volatilità.

Alle caratteristiche variazioni, o volatilità, i risultati della misurazione includono l'intervallo di variazione, varianza, deviazione standard, coefficiente di variazione, errore standard della media aritmetica.

La caratteristica più semplice della variazione è gamma di variazione. È definito come la differenza tra i risultati di misurazione più grandi e quelli più piccoli. Tuttavia, cattura solo le deviazioni estreme, ma non riflette le deviazioni di tutti i risultati.

Per dare una caratteristica generalizzata, puoi calcolare le deviazioni dal risultato medio. Ad esempio, per le righe 3, 6, 3 i valori saranno i seguenti: 3 - 4 = - 1; 6 - 4 = 2; 3 - 4 = - 1. La somma di queste deviazioni (- 1) + 2 + (- 1) è sempre 0. Per evitare ciò, i valori di ogni deviazione sono al quadrato: (- 1) 2 + 2 2 + (- 1) 2 = 6.

Il valore rende le deviazioni dalla media più pronunciate: le deviazioni piccole diventano ancora più piccole (0,5 2 = 0,25) e le deviazioni grandi diventano ancora più grandi (5 2 = 25). L'importo risultante viene chiamato somma delle deviazioni al quadrato. Dividendo questa somma per il numero di misurazioni si ottiene il quadrato medio delle deviazioni, o dispersione. È indicato con s 2 ed è calcolato con la formula:

.

Se il numero di misurazioni non è superiore a 30, ad es. n ≤ 30, si usa la formula:

.

Viene chiamato il valore n - 1 = k numero di gradi di libertà, che indica il numero di membri liberamente variabili della popolazione. È stato stabilito che quando si calcolano gli indicatori di variazione, un membro della popolazione empirica non ha sempre un grado di libertà.

Queste formule si applicano quando i risultati sono rappresentati da un campione non ordinato (regolare).

Tra le caratteristiche di oscillazione, la più comunemente usata deviazione standard, che è definito come il valore positivo della radice quadrata del valore di dispersione, ovvero:

.

Deviazione standard o deviazione standard caratterizza il grado di deviazione dei risultati dal valore medio in unità assolute e ha le stesse unità dei risultati della misurazione.

Tuttavia, questa caratteristica non è adatta per confrontare la fluttuazione di due o più popolazioni con diverse unità di misura.

Il coefficiente di variazioneè definito come il rapporto tra la deviazione standard e la media aritmetica, espresso in percentuale. Si calcola con la formula:

.

Nella pratica sportiva, la variabilità dei risultati della misurazione, in funzione del valore del coefficiente di variazione, è considerata piccola.
(0 - 10%), medio (11 - 20%) e grande (V > 20%).

Il coefficiente di variazione ha Grande importanza nell'elaborazione statistica dei risultati di misura, perché, essendo un valore relativo (misurato in percentuale), permette di confrontare la fluttuazione dei risultati di misura con diverse unità di misura. Il coefficiente di variazione può essere utilizzato solo se le misurazioni vengono effettuate su una scala di rapporti.

2.4.2. Analisi di dati statistici in MS Excel. Strumenti di analisi: statistica descrittiva, correlazione.

La composizione dei fogli di calcolo di Microsoft Excel include il cosiddetto pacchetto di analisi, un insieme di strumenti progettati per risolvere problemi statistici complessi. Questo pacchetto analizza i dati statistici utilizzando funzioni macro e consente di eseguire una singola azione per ottenere un gran numero di risultati. Il pacchetto di analisi disponibile in Excel include le sezioni Statistiche descrittive e Correlazione, tra gli altri strumenti di analisi.

Lo strumento Statistica descrittiva consente di ottenere un elenco significativo di caratteristiche statistiche calcolate per un gran numero di serie numeriche. Utilizzando lo strumento "Correlazione", otteniamo una matrice di correlazione contenente tutti i possibili coefficienti di correlazione accoppiati. Per k righe si otterranno k (k – 1)/2 coefficienti di correlazione.

Il pacchetto di analisi viene richiamato tramite la voce di menu Strumenti – Analisi dati… Se questa voce di menu è assente significa che il pacchetto di analisi non è installato. Per installarlo è necessario richiamare la voce di menu Service - Add-on... e abilitare l'add-on "Analysis Package", OK (vedi Figura 1).

Figura 1. Finestra di dialogo per abilitare/disabilitare i componenti aggiuntivi

Dopo aver abilitato l'add-in “Analysis Package”, la voce di menu Service – Data Analysis… Quando selezionata, compare la seguente finestra di dialogo (Figura 2).

Figura 2. Finestra di dialogo per la selezione di uno strumento per l'analisi dei dati

Dopo aver selezionato lo strumento Statistiche descrittive e aver fatto clic su OK, verrà visualizzata un'altra finestra di dialogo (Figura 3), che richiede dati di input e una posizione per visualizzare i risultati. Qui è sufficiente inserire l'intervallo di celle contenenti i dati di origine nel campo "Intervallo di input". Puoi specificare un intervallo con intestazioni di colonna, nel qual caso dovrai abilitare la casella di controllo "Etichette nella prima riga". Per specificare l'intervallo di output è sufficiente specificare solo la cella in alto a sinistra dell'intervallo. I risultati del calcolo occuperanno automaticamente il numero richiesto di righe e colonne nella tabella.

Figura 3. Finestra di dialogo dello strumento Statistiche descrittive

Considera il lavoro dello strumento di analisi "Statistiche descrittive" nell'esempio seguente. Durante l'esame di un gruppo di scolari (n = 21) sono stati misurati i seguenti indicatori: altezza, peso corporeo, dinamometria della mano destra e sinistra, capacità vitale dei polmoni, test di Stange e test di Genchi. I risultati sono stati inseriti in una tabella (Figura 4).

Per ottenere caratteristiche statistiche, utilizzeremo il pacchetto di analisi, lo strumento Statistiche descrittive. Nel campo "Intervallo di input", inserisci l'intervallo di celle B1:H22. Poiché l'intervallo di input selezionato contiene intestazioni di colonna, abilitare la casella di controllo "Etichette nella prima riga". Per comodità di lavoro, seleziona "Nuovo foglio di lavoro" come posizione di output per il risultato. Come dati di output, contrassegniamo le caselle di controllo "Statistiche finali" e "Livello di affidabilità: 95%". L'ultima casella di controllo consentirà di visualizzare i parametri dell'intervallo di confidenza con un livello di confidenza di 0,95. Il risultato dopo una piccola formattazione sarà simile a quello mostrato nella Figura 5.

Figura 4. Risultati di un'indagine su un gruppo di scolari

Figura 5. Il risultato dello strumento "Statistiche descrittive".

Dopo aver selezionato lo strumento "Correlazione" e aver fatto clic su OK nella finestra di dialogo "Analisi dei dati" (Figure 2, 6), apparirà un'altra finestra di dialogo (Figura 7), che richiede i dati di input e una posizione per visualizzare i risultati. Qui è sufficiente inserire l'intervallo di celle contenenti i dati di origine nel campo "Intervallo di input". Puoi specificare un intervallo con intestazioni di colonna, nel qual caso dovrai abilitare la casella di controllo "Etichette nella prima riga". Per specificare l'intervallo di output è sufficiente specificare solo la cella in alto a sinistra dell'intervallo. I risultati del calcolo occuperanno automaticamente il numero richiesto di righe e colonne nella tabella.

Figura 6. Finestra di dialogo per la selezione di uno strumento per l'analisi dei dati

Figura 7 Finestra di dialogo Strumento di correlazione

Considera il lavoro dello strumento di analisi "Correlazione" utilizzando l'esempio mostrato nella Figura 4.

Per ottenere la matrice di correlazione utilizzeremo il pacchetto di analisi, lo strumento "Correlation". Nel campo "Intervallo di input", inserisci l'intervallo di celle B1:H22. Poiché l'intervallo di input selezionato contiene intestazioni di colonna, abilitare la casella di controllo "Etichette nella prima riga". Per comodità di lavoro, seleziona "Nuovo foglio di lavoro" come posizione di output per il risultato. Il risultato dopo una piccola formattazione sarà simile a quello mostrato nella Figura 8.

Figura 8. Matrice di correlazione

Pertanto, eseguendo semplici operazioni, otteniamo un gran numero di risultati di calcolo. Va notato che sebbene la tecnologia dell'informazione offra al ricercatore opportunità per ottenere un'enorme quantità di informazioni per l'analisi, la selezione dei risultati più informativi, l'interpretazione finale e la formulazione delle conclusioni è opera del ricercatore stesso.

Concetti di base dell'analisi di correlazione di dati sperimentali. Stima del coefficiente di correlazione da dati sperimentali.

Nella ricerca sportiva, le relazioni si trovano spesso tra gli indicatori studiati. Il suo aspetto è diverso. Ad esempio, la determinazione dell'accelerazione da dati di velocità noti, la seconda legge di Newton e altri caratterizzano il cosiddetto funzionale dipendenza, o relazione, in cui ad ogni valore di un indicatore corrisponde un valore strettamente definito di un altro.

Un altro tipo di relazione include, ad esempio, la dipendenza del peso dalla lunghezza del corpo. Un valore di lunghezza del corpo può corrispondere a più valori di peso e viceversa. In questi casi, quando un valore di un indicatore corrisponde a più valori di un altro, viene chiamata la relazione statistico.

Molta attenzione è riservata allo studio della relazione statistica tra i vari indicatori nella ricerca sportiva, poiché questo permette di svelare alcuni schemi e poi descriverli sia verbalmente che matematicamente per poter utilizzare l'allenatore e l'insegnante nel lavoro pratico.

Tra le relazioni statistiche, la più importante correlazione. La correlazione è una dipendenza statistica tra variabili casuali, in cui un cambiamento in una delle variabili casuali porta a un cambiamento nell'aspettativa matematica (valore medio) dell'altra. Ad esempio, lancio del peso di 3 kg e 5 kg. Un miglioramento nel lancio del peso da 3 kg si traduce in un miglioramento (in media) nel lancio del peso da 5 kg.

Viene chiamato il metodo statistico utilizzato per indagare le relazioni analisi di correlazione. Il suo compito principale è determinazione di forma, tenuta e direzione la relazione degli indicatori studiati. L'analisi di correlazione consente di esplorare solo la relazione statistica. È ampiamente utilizzato nella teoria dei test per valutarne l'affidabilità e l'informatività. Diverse scale di misurazione richiedono diversi tipi di analisi di correlazione.

Il valore del coefficiente di relazione viene calcolato tenendo conto della scala utilizzata per le misurazioni.

Per valutare la relazione, quando le misurazioni vengono effettuate su una scala di rapporti o intervalli e la forma della relazione è lineare, viene utilizzato il coefficiente di correlazione Bravais-Pearson (i coefficienti di correlazione per altre scale di misurazione non sono considerati in questo manuale). È indicato dalla lettera latina - r. Il calcolo del valore di r viene spesso eseguito secondo la formula:

,

dove e sono i valori medi aritmetici di xey, e sono deviazioni standard, n– numero di misurazioni (soggetti).

In alcuni casi, la vicinanza della relazione è determinata in base al coefficiente determinazioni D, che si calcola con la formula:

.

Questo coefficiente determina la parte della variazione totale in un indicatore che è spiegata dalla variazione in un altro indicatore. Ad esempio, il coefficiente di correlazione r = -0,677 (tra i risultati nei 30 m di corsa e nel salto triplo in piedi). Il coefficiente di determinazione è pari a:

Di conseguenza, il 45,8% della dispersione del risultato sportivo nel salto triplo si spiega con una variazione dei risultati nella corsa dei 30. In altre parole, entrambe le caratteristiche studiate sono influenzate da fattori comuni che causano la variazione di queste caratteristiche, e la quota di fattori comuni è del 45,8%. Il restante 100% - 45,8% = 54,2% ricade sulla quota di fattori che agiscono selettivamente sulle caratteristiche studiate.

Valutare la significatività statistica del coefficiente di correlazione significa determinare se esiste o meno una correlazione lineare tra le popolazioni o, cosa è la stessa, stabilire se il coefficiente di correlazione tra i campioni è significativamente o insignificantemente diverso da zero. Questo problema può essere risolto utilizzando le tabelle dei punti critici della distribuzione del coefficiente di correlazione nel seguente ordine:

1. Vengono avanzate ipotesi statistiche. L'ipotesi H 0 presuppone l'assenza di una relazione statisticamente significativa tra gli indicatori studiati ( gene r=0). L'ipotesi H 1 suggerisce che esiste una relazione statisticamente significativa tra gli indicatori ( gene r>0).

2. Viene calcolato il valore osservato del coefficiente di correlazione r oss.

3. Il valore critico del coefficiente di correlazione è riportato nella tabella r critico a seconda della dimensione del campione n, il livello di significatività a e il tipo di regione critica (unilaterale o bilaterale).

3. Confrontato r oss e r critico.

Se una r oss < r critico– statisticamente inaffidabile (irrilevante). L'ipotesi H è accettata 0 Se r ossr critico, il coefficiente di correlazione è considerato statisticamente significativo (significativo). L'ipotesi H 1 è accettata.

DIPARTIMENTO DI EDUCAZIONE DELLA CITTÀ DI MOSCA

BILANCIO DELLO STATO ISTITUTO EDUCATIVO PROFESSIONALE

COLLEGIO DELLE COMUNICAZIONI № 54 intitolato a P.M. VOSTRUKHINA

Caratteristiche statistiche.

Tutorial per la lezione parte 1.

Sviluppatore:

Insegnante di matematica

TN Rudzina


- questo è concetti matematici , che descrivono le caratteristiche e le proprietà distintive del set di dati ottenuto da osservazioni o in altro modo. Il significato delle caratteristiche sta anche nel fatto che esse "richiesta" , da quali posizioni è opportuno analizzare il set di dati disponibile .

Le caratteristiche statistiche includono:

media , scopo , moda , mediano .

Considera un esempio:

Durante lo studio del carico di insegnamento degli studenti, è stato individuato un gruppo di 12 alunni di seconda media. È stato chiesto loro di registrare in un determinato giorno il tempo (in minuti) impiegato per completare compiti a casa in algebra. Abbiamo ricevuto i seguenti dati:

23, 18, 25 20, 25, 25, 32, 37, 34, 26 34, 25 .

Con questa serie di dati, può determinare b, quanti minuti in media spesi dagli studenti per i compiti di algebra.

Per fare ciò, è necessario sommare questi numeri e dividere la somma per 12:


Numero 27 risultante viene chiamato significato aritmetico considerata serie di numeri.

Definizione :

significato aritmetico una serie di numeri è chiamata quoziente della divisione della somma di questi numeri per il numero di termini.

Solitamente la media aritmetica si trova quando si vuole determinare il valore medio di una certa serie di dati: la resa media di frumento per 1 ettaro della zona, la resa media giornaliera di latte di una vacca in allevamento, lo stipendio medio di una operaio di brigata per turno, ecc. Si noti che la media aritmetica si trova solo per valori omogenei. Non ha senso, ad esempio, utilizzare la resa media delle colture di cereali e meloni come indicatore generale. Inoltre, anche per valori omogenei, il calcolo della media aritmetica a volte non ha senso, ad esempio trovare la temperatura media dei pazienti in ospedale, il numero medio di scarpe...


Nell'esempio considerato, abbiamo riscontrato che, in media, gli studenti trascorrevano 27 minuti a fare i compiti in algebra. Tuttavia, l'analisi della serie di dati data mostra che il tempo trascorso da alcuni studenti differisce significativamente da 27 minuti, cioè dalla media aritmetica. Il consumo più alto è di 37 minuti e il più piccolo di 18 minuti. La differenza tra il consumo di tempo massimo e quello minimo è di 19 minuti. In questo caso lo dicono scopo la riga è 19.

Definizione :

in grande stile riga numeri è chiamata la differenza tra il più grande e il più piccolo di questi numeri.

L'intervallo viene trovato quando si desidera determinare l'ampiezza della diffusione dei dati in una serie.


Quando analizziamo le informazioni sul tempo trascorso dagli studenti di seconda media sui compiti di algebra, potremmo essere interessati non solo a media e scopo serie di dati ottenuti, ma anche altri indicatori. È interessante, ad esempio, sapere quale sia il consumo di tempo tipico per un gruppo selezionato di studenti, ad es. qual è il numero più frequente nella serie di dati. È facile vedere che il numero 25 è un tale numero Dicono che lo sia il numero 25 moda la serie in esame.

Definizione :

Moda una serie di numeri è il numero che ricorre più spesso in questa serie .

Una serie di numeri può avere più di uno moda o non avere moda affatto.

Ad esempio, nella serie di numeri 47, 46, 50, 52, 47, 52, 49, 45, 43, 53, due moda sono numeri 47 e 52 , poiché ciascuno di questi numeri ricorre due volte, e i numeri rimanenti ricorrono nella serie meno di due volte, e nella serie dei numeri 69, 68, 66, 70, 67, 71, 74, 63, 73, 72 - moda no.


Diamo un'occhiata a un'altra statistica.

Cominciamo con un esempio. La tabella mostra il consumo di elettricità nel mese di gennaio da parte dei residenti di nove appartamenti

Facciamo una serie ordinata dai dati riportati nella tabella:

64, 72, 72, 75, 78 , 82, 85, 91, 93.

Ci sono nove numeri nella serie ordinata risultante. Non è difficile notare che il numero 78 si trova al centro della riga: quattro numeri sono scritti a sinistra di esso e quattro numeri a destra. Dicono che il numero 78 è il numero medio o, in caso contrario, mediano, la serie ordinata di numeri in esame (dal vocabolo latino mediana che significa "medio"). Anche questo numero è considerato mediano serie di dati originali.


Facciamo ora un altro esempio. Supponiamo che durante la raccolta dei dati sul consumo di elettricità, ai nove appartamenti indicati sia stato aggiunto un decimo. Abbiamo questa tabella:

Come nel primo caso, presentiamo i dati ricevuti come una serie ordinata di numeri:

64, 72, 72, 75, 78 , 82 , 85, 88, 91, 93

Questa serie numerica ha un numero pari di membri e ci sono due numeri situati nel mezzo della serie: 78 e 82 .

Numero 80 , non essendo un membro della serie, divide questa serie in due gruppi di uguali dimensioni: a sinistra di essa ci sono cinque membri della serie e a destra ci sono anche cinque membri della serie:


64, 72, 72, 75, 78, 82, 85, 88, 91, 93

Si dice che in questo caso la mediana delle serie ordinate in esame, oltre che delle serie di dati originali registrate nella tabella, è il numero 80 .

Definizione :

Mediano ordinato una serie di numeri con un numero dispari di membri è chiamata il numero scritto nel mezzo, e mediano una serie ordinata di numeri con un numero dispari di membri è chiamata media aritmetica di due numeri scritti nel mezzo.

Mediano arbitrario serie di numeri è chiamata mediana della serie ordinata corrispondente.


Se la serie di numeri ordinati contiene 2 n -1 membri, allora la mediana della serie è n esimo membro, dal momento che n – 1 i membri resistono n esimo membro e n – 1 membri - dopo n esimo membro.

Se la serie ordinata contiene 2 n membri, quindi la mediana è la media aritmetica dei membri in piedi n-m e n + 1 -esimo posto.

In ciascuno degli esempi precedenti, definendo mediano, possiamo indicare il numero dell'appartamento per il quale il consumo di energia elettrica dei residenti supera il valore mediano, ovvero mediano .

Consideriamo un altro esempio.

È noto che 34 dipendenti del dipartimento hanno acquistato azioni in alcuni società per azioni. I dati sul numero di azioni acquistate dai dipendenti sono presentati nelle seguenti serie ordinate:

2, 2, 2, 2, 2, 3, 3, ……, 3, 4, 4, ……., 4, 100

Cerchiamo mediano questa riga. Dal momento che ci sono 34 numeri nella serie, quindi medianoè uguale alla media aritmetica del 17° e 18° termine, cioè è uguale a (3 + 4) : 2 = 3,5

Informatica media di questa serie troviamo che è approssimativamente uguale a 6,2, cioè in media, i dipendenti del dipartimento hanno acquistato circa 6 azioni ciascuno. Lo vediamo in questo caso mediano riflette meglio la situazione reale, dal momento che tutti i dipendenti tranne uno hanno acquistato non più di 4 azioni.

Indicatori come media , moda e mediani a, caratterizzare i dati ottenuti a seguito di osservazioni in modi diversi. Pertanto, in pratica, quando si analizzano i dati, a seconda della situazione specifica, vengono utilizzati tutti e tre gli indicatori o alcuni di essi.

Se, ad esempio, vengono analizzati i dati sul reddito annuo di diverse compagnie di viaggio della città, è conveniente utilizzare tutti e tre gli indicatori. Media mostrerà il reddito medio annuo delle imprese, moda caratterizzerà un tipico indicatore di reddito annuo, mediano identificherà le compagnie di viaggio il cui reddito annuo è inferiore alla media.

Se stai studiando i dati sulle dimensioni delle scarpe da uomo vendute in un determinato giorno in un grande magazzino, è conveniente utilizzare un indicatore come moda, che caratterizza la dimensione più richiesta. Trova in questo caso media o mediano non ha senso .

Quando si analizzano i risultati mostrati dai partecipanti alla nuotata a una distanza di 100 e, la caratteristica più accettabile è mediano. Conoscenza mediani consentirà di destinare alla partecipazione alle competizioni un gruppo di atleti che abbiano mostrato risultati superiori alla media.

Caratteristiche statistiche : media , Maud un, mediano chiamato risultati di misurazione medi .

Tipo di lezione: lezione per imparare nuovo materiale.

Lo scopo della lezione: Creazione delle condizioni per l'assimilazione del tema a livello di comprensione e memorizzazione primaria; formare la competenza matematica della personalità dello studente

Educativo: formare un'idea della statistica come scienza; far conoscere agli studenti i concetti delle caratteristiche statistiche di base; formare la capacità di trovare la media aritmetica, l'intervallo, la moda, la mediana di una serie, analizzare i dati.
Sviluppando: promuovere la conoscenza dei concetti e la loro interpretazione; sviluppo di capacità di analisi, confronto, sistematizzazione e generalizzazione sovrasoggettiva; promuovere la formazione di competenze chiave (cognitive, informative, comunicative) nelle varie fasi della lezione, promuovere la formazione di un quadro scientifico unitario del mondo tra gli studenti, individuando relazioni interdisciplinari tra statistica e scienze diverse.
Educativo: sviluppare interesse per la materia studiata cultura dell'informazione; disponibilità al rispetto di norme e regole generalmente accettate, elevata efficienza e organizzazione.

Tecnologie utilizzate: tecnologia MDO.
Equipaggiamento necessario, materiali: proiettore multimediale, computer, lavagna interattiva.

Piano di lezione

Organizzare il tempo. La classe è divisa in 4 gruppi.

Includi un video dal film Office Romance.

File WMV (.wmv)

Di cosa parleremo oggi?

…….. giusto, sulle statistiche

Che cos'è la statistica? (Diapositiva 2)

…….. questa è la definizione che ci dà il dizionario (Diapositiva 3)

Le statistiche influenzano la vita delle persone, la società? Esprimi le tue ipotesi come desideri.

La statistica come scienza comprende diverse sezioni: politica, economica, applicata, giuridica, medica, ecc.

Saremo interessati alla statistica matematica. Cosa c'è di speciale nelle statistiche matematiche?

…….. ovviamente con l'aiuto della matematica (Diapositiva 4)

La statistica matematica ha una serie di caratteristiche. (Gira la parola “statistiche” alla lavagna).

I concetti sono di fronte a te. (tavolette alla lavagna con le parole: bisettrice, lunula, muli, media aritmetica, mediana, moda, intervallo, diametro, media, massimo, ottimo, invariante, costante, altezza) Indovina quali di loro possono essere classificati come statistici, cosa fare si pensa?

(Parole suggerite poste dopo la parola caratteristiche statistiche)

Ora passerai a testi che ti aiuteranno a confermare o confutare le tue ipotesi: se i concetti scelti sono caratteristiche statistiche e quanto è grande l'impatto delle statistiche sulla società. Ogni studente ha ricevuto una tabella (Appendice 1), che deve compilare durante la lezione.Ricordiamo le regole per lavorare in gruppo: con calma, in autonomia, in modo professionale, con distribuzione delle responsabilità. Il gruppo deve completare la tabella (Appendice 2)

Lavoro di gruppo. Testi per gruppi. Allegato 3. (10 min)

Protezione (diapositiva con definizione + diapositiva con attività)

Assicurati di compilare le liste di controllo. (Chiediamo a ciascun gruppo che ha annotato cosa per sé secondo questa caratteristica nel foglio di memoria) (Appendice 1.2)

Media

Mettere ordine nelle caratteristiche statistiche

(lascia solo 4 caratteristiche)

Gruppo 1 vai alla lavagna e parla delle caratteristiche statistiche: la media aritmetica, la soluzione dei problemi proposti, le conclusioni. (Diapositiva 5.6).

Il gruppo 2 va alla lavagna e parla delle caratteristiche statistiche: moda, risoluzione dei problemi proposti, conclusioni. (diapositiva 7.8)

Il gruppo 3 va alla lavagna e parla delle caratteristiche statistiche: l'ambito, la soluzione dei compiti proposti, le conclusioni. (diapositiva 9,10)

Il gruppo 4 va alla lavagna e parla della caratteristica statistica: la mediana, la soluzione dei problemi proposti, le conclusioni. (diapositiva 11,12)

Tutti i gruppi sono giunti alla conclusione che esiste una relazione tra la vita della società e la statistica, l'influenza è grande, anche quando non lo assumiamo.

Passiamo alle diapositive e vediamo come le caratteristiche statistiche possono manifestarsi nella nostra vita quotidiana (diapositive con battute 13-19, 20)

Ora ti offriamo di lavorare come comparse. (vengono distribuiti 4 compiti di contenuto pratico) (7 minuti)

Quindi, con quale caratteristica statistica hai lavorato nel primo compito, cosa hai ottenuto

…….. moda - colore occhi e capelli (fai un rapido sopralluogo per ogni gruppo)

…….. span - larghezza del palmo (condurre un rapido sopralluogo di ciascun gruppo)

con quale caratteristica statistica hai lavorato nel terzo compito, cosa hai ottenuto

…….. mediana - misura della scarpa (condurre un rapido sopralluogo per ogni gruppo)

con quale caratteristica statistica hai lavorato nel secondo compito, cosa hai ottenuto

…….. media aritmetica - crescita (condurre un rapido sopralluogo per ogni gruppo)

A giudicare dai risultati, il giovane medio della nostra classe si presenta così (diapositiva 21)

E la ragazza è così (Diapositiva 22)

Con una nota così ottimistica, concludiamo la nostra lezione.

(Risposte ai compiti Appendice 5)

Allegato 1.

Appendice 2

Appendice 3

Gruppo 1. Statistiche studia il numero di singoli gruppi della popolazione del paese e delle sue regioni, la produzione e il consumo di vari tipi di prodotti, il trasporto di merci e passeggeri con vari modi di trasporto, Risorse naturali eccetera. I risultati degli studi statistici sono ampiamente utilizzati per conclusioni pratiche e scientifiche.

significato aritmetico Una serie di numeri è chiamata caratteristica statistica, che consente di trovare il quoziente dividendo la somma di questi numeri per il numero di termini. Solitamente la media aritmetica si trova quando si vuole determinare il valore medio di una certa serie di dati: la resa media di frumento per 1 ettaro della zona, la resa media giornaliera di latte di una vacca in allevamento, la produzione media di una lavoratore, ecc. Si noti che la media aritmetica si trova solo per valori omogenei.

Ad esempio, studiando il carico di studio degli studenti, è stato identificato un gruppo di 12 alunni di seconda media. È stato chiesto loro di segnare il tempo (in minuti) trascorso in un determinato giorno a fare i compiti di algebra. Abbiamo i seguenti dati: 23, 18, 25, 20, 25, 25, 32, 37, 34, 26, 34, 25.

Con questa serie di dati, possiamo determinare quanti minuti gli studenti hanno speso in media a fare i compiti di algebra. Per fare ciò, è necessario sommare i numeri indicati e dividere l'importo risultante per la quantità, ad es. in questo caso 12:

mer aritmo. ===27

Pertanto, abbiamo scoperto che gli studenti dedicavano in media 27 minuti ai compiti di algebra.

Trova la media aritmetica nei seguenti problemi:

Compito 1. Dall'elenco degli inquinanti atmosferici da fonti fisse a Khanty-Mansi Autonomous Okrug-Yugra, selezionare prima le emissioni delle sostanze più comuni, quindi determinare la quantità media di queste emissioni per tre anni, presentata nella tabella in migliaia di tonnellate.

solidi

sostanze gassose e liquide

diossido di zolfo

ossido d'azoto

monossido di carbonio

Compito 2. Determinare la temperatura media dell'aria nella città di Uray il 14 febbraio 2017, se è noto che sui siti: Yandex -9 oC, Gismeteo -11 oC, rp5 -16 oC, - 11 oC, meteonovosti -15 oC, meteonova -10 oC, sinottico -11 oC.

Il ruolo della statistica nella nostra vita è così significativo che le persone spesso, senza esitazione e senza rendersene conto, utilizzano costantemente elementi di metodologia statistica non solo nei processi lavorativi, ma anche nella vita di tutti i giorni. Lavorare e rilassarsi, fare la spesa, incontrare altri bambini, prendere alcune decisioni, una persona usa un certo sistema, le informazioni che ha, i gusti e le abitudini prevalenti, i fatti, sistematizza, confronta questi fatti, li analizza, trae una conclusione e prende determinate decisioni .prende azioni concrete. Pertanto, in ogni persona ci sono elementi del pensiero statistico, che è la capacità di analizzare e sintetizzare informazioni sul mondo circostante.

Gruppo 2

Significato della parola " statistiche

I risultati degli studi statistici sono ampiamente utilizzati per conclusioni pratiche e scientifiche.

Durante l'elaborazione dei dati, la statistica utilizza alcune caratteristiche, una delle quali è la modalità. La moda viene utilizzata, ad esempio, per determinare la taglia di vestiti, scarpe, che sono più richiesti dagli acquirenti.

Moda serie - il valore nell'insieme di osservazioni che si verifica più frequentemente. Moda = tipico. Nella serie 3,4,3,5,5,4,5,3,5 mode = 5. Come il numero più frequente.

A volte si verifica più di una modalità nell'aggregato. Ad esempio: 6, 2, 6, 6, 8, 9, 9, 9, 10; mode = 6 e 9. In questo caso possiamo dire che la popolazione è multimodale. Delle medie strutturali, solo la modalità ha questa proprietà unica.

Non c'è moda nella serie dei numeri 69,68,72,74,89,87,84.

La modalità come media viene utilizzata più spesso per i dati non numerici. Tra i colori delle auto elencati - bianco, nero, blu metallizzato, bianco, blu metallizzato, bianco - la moda sarà uguale Colore bianco. Con l'aiuto di una valutazione di esperti, i tipi più popolari di un prodotto vengono determinati con il suo aiuto, che viene preso in considerazione durante la previsione delle vendite o la pianificazione della loro produzione.

Risolvi i seguenti compiti:

Compito 1. Nei fiumi del Khanty-Mansiysk Okrug autonomo molti pesci vivono nel fiume Bolshoy Yugan, abitato da lucci, persici, triotti, carassi, ide e bottatrice. I pesci vivono nel fiume Agan: luccio, pesce persico, triotto, sterlet, carassio, ide, bottatrice, nelma. I pesci vivono nel fiume Vakh: luccio, pesce persico, triotto. I pesci vivono nel fiume Tromgan: luccio, pesce persico, triotto, carassio, ide, bottatrice. La totalità dei pesci del Khanty-Mansiysk Autonomous Okrug-Yugra è multimodale (lucci, persici e scarafaggi si trovano in tutti i fiumi del distretto. Determina il pesce più tipico nei fiumi presentati.

Zalacha 2. La tabella mostra il consumo di elettricità nel mese di gennaio da parte dei residenti di 9 appartamenti

Determina la modalità di questa serie

Gruppo 3. Significato della parola " statistiche ha subito notevoli cambiamenti negli ultimi due secoli. La parola "statistica" ha la stessa radice della parola "stato" e originariamente significava l'arte e la scienza del governo: i primi professori di statistica nelle università tedesche del XVIII secolo sarebbero oggi chiamati scienziati sociali. Perché le decisioni del governo sono in una certa misura basate su dati su popolazione, industria, ecc. gli statistici, ovviamente, si interessarono a tali dati, e gradualmente la parola "statistica" iniziò a significare la raccolta di dati sulla popolazione, sullo stato, e quindi in generale la raccolta e l'elaborazione di dati. Non ha senso estrarre dati se non vi è alcun vantaggio da trarne. Pertanto, uno dei compiti principali della statistica è il corretto trattamento delle informazioni.

Oggi, la statistica e l'analisi dei dati permeano quasi tutti i moderni campi della conoscenza: economia, pubblicità, marketing, economia, medicina, istruzione, ecc. Determina le dinamiche di sviluppo, declino o crescita dei fenomeni sociali. Questa è una scienza che risolve alcuni problemi dovuti alla disponibilità e allo sviluppo di metodi statistici, anche grazie allo sviluppo tecnologie dell'informazione.

Durante l'elaborazione dei dati, le statistiche utilizzano alcune caratteristiche, una delle quali è la mediana.

Mediano chiamato il valore della quantità situata al centro della serie ordinata.

La mediana divide la serie in due parti uguali in modo tale che ci sia lo stesso numero di unità su entrambi i lati di essa. Allo stesso tempo, per una metà, il valore dell'attributo non è superiore alla mediana, per l'altra metà non è inferiore.

La mediana si trova secondo il seguente algoritmo:

Disporre i numeri in ordine crescente

Se la serie contiene un numero dispari di elementi, la mediana è il numero nel mezzo;

Se la serie contiene un numero pari di elementi, la mediana si trova tra i due elementi centrali della serie ed è uguale alla media aritmetica calcolata su questi due elementi.

Esempio. Trova la mediana della serie 16,13,15,10,19,22,25,12,18,14,19,14,16,10.

Soluzione. Costruiamo una serie in ordine crescente: 10,10,12,13,14,14,15,16,16,18,19,19,22,25, contiene un numero pari di elementi n=14, quindi la mediana si trova tra i due elementi centrali del campione - tra 7 elementi e 8 elementi: 10,10,12,13,14,14,15,16,16,18,19,19,22,25 ed è uguale a la media aritmetica di questi elementi: Me=(15+16 )/2=15.5

Diamo esempi del reale utilizzo della mediana in statistica. Quindi, quando si analizzano i risultati mostrati dai partecipanti alla gara, la mediana consente di selezionare un gruppo di atleti che hanno mostrato un risultato superiore alla media e di inserirli nella fase successiva della competizione.

matematico proprietà medianaè che la somma delle deviazioni assolute (modulo) dal valore mediano fornisce il valore minimo possibile. Questo fatto trova la sua applicazione, ad esempio, nella risoluzione di problemi di trasporto, quando è necessario calcolare il cantiere di un oggetto vicino alla strada in modo tale che la lunghezza totale dei voli per raggiungerlo da luoghi diversi (fermate, distributori di benzina, magazzini, ecc., ecc.).

Risolvi i seguenti compiti:

Compito 1. Costi di sicurezza attuali ambiente in Khanty-Mansi Autonomous Okrug ammontava a milioni di rubli:

Trova la mediana di questa serie.

Gruppo 4. Statistiche- una scienza che si occupa di ottenere, elaborare e analizzare dati quantitativi su vari fenomeni di massa che si verificano nella natura e nella società.

Uno dei compiti principali della statistica è il corretto trattamento delle informazioni. Naturalmente, la statistica ne ha molte altre: ottenere e archiviare informazioni, fare previsioni diverse, valutarne l'affidabilità, ecc.

Uno degli indicatori statistici della differenza o diffusione dei dati è il "Range". in grande stile la serie è la differenza tra il più grande e il più piccolo di questi numeri. Analizziamo il problema: studiando il carico di lavoro degli studenti, è stato individuato un gruppo di 12 persone. È stato chiesto loro di registrare il tempo (in minuti) trascorso in un determinato giorno a fare i compiti di algebra. Abbiamo i seguenti dati: 23, 18, 25, 20, 25, 25, 32, 37, 34, 26, 34, 25.

Il consumo di tempo massimo è di 37 minuti e il minimo è di 18 minuti. Trova la gamma della serie:

37-18=19 minuti.

Risolvi i seguenti compiti:

Compito 1. Il fiume Ob è un'arteria Siberia occidentale e porta le sue acque attraverso un paese come la Russia. La lunghezza del corso d'acqua è di 3650 km. Il fiume Ob è il secondo tra i fiumi della Russia, secondo solo al Lena. Insieme al suo affluente l'Irtysh, l'Ob è al primo posto per lunghezza in Russia (5410 km.) e al secondo posto in Asia (presso l'HPP), scende a 8 m presso la foce del Tom e aumenta nuovamente a 15 m nel corso superiore del Golfo di Ob, dove scorre il fiume. Trova la gamma di profondità del fiume Ob.

Compito 2. Nel periodo dal 17 al 19 dicembre, la deviazione della temperatura media giornaliera dalla norma nell'Okrug autonomo di Khanty-Mansiysk ha raggiunto i 16-26 gradi. E il 21 dicembre, l'amministrazione del distretto di Beloyarsky dell'Okrug autonomo di Khanty-Mansiysk ha riportato uno scatto da freddo a -62 ° C, a Khanty-Mansiysk - 40 °, a Surgut - 43 °, a Urai - 38 °, a Yugorsk - 42°, a Kondinsk - 33°. Trova l'intervallo di temperatura dei dati insediamenti.

Le statistiche studiano il numero di singoli gruppi della popolazione del paese e delle sue regioni, la produzione e il consumo di vari tipi di prodotti, il trasporto di merci e passeggeri con vari modi di trasporto, risorse naturali, ecc. I risultati degli studi statistici sono ampiamente utilizzati per conclusioni pratiche e scientifiche.

Il ruolo della statistica nella nostra vita è così significativo che le persone spesso, senza esitazione e senza rendersene conto, utilizzano costantemente elementi di metodologia statistica non solo nei processi lavorativi, ma anche nella vita di tutti i giorni. Lavorare e rilassarsi, fare la spesa, incontrare altri bambini, prendere alcune decisioni, una persona usa un certo sistema, le informazioni che ha, i gusti e le abitudini prevalenti, i fatti, sistematizza, confronta questi fatti, li analizza, trae una conclusione e prende determinate decisioni .prende azioni concrete. Pertanto, in ogni persona ci sono elementi del pensiero statistico, che è la capacità di analizzare e sintetizzare informazioni sul mondo circostante. I risultati degli studi statistici sono ampiamente utilizzati per conclusioni pratiche e scientifiche.

Appendice 4

Compito 1. Intervista 10 persone della classe. Determina il più comune tra loro

colore dei capelli e degli occhi. Con quale statistica hai lavorato?

Compito 2. Intervista 10 persone della classe. Misura la larghezza dei loro palmi. Trova le differenze

i valori più grandi e più piccoli. Quale statistica viene utilizzata

in questo compito?

Compito 3. Intervista 9 persone della classe. Scopri il loro numero di scarpe. Allineare i numeri

ordine ascendente. Determina la mediana della serie.

Compito 4. Intervista 10 persone della classe. Scopri la loro altezza. Trova l'altezza media

intervistati. Con che tipo di statistiche hai lavorato?

Appendice 5

Risposte ai compiti.

Media

Lucci, persici, scarafaggi