๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
๐Ÿš Subject Study/๐ŸŸฅ Statistics

ํ†ต๊ณ„ํ•™ 3์ฃผ์ฐจ ์›”์š”์ผ

by UKHYUN22 2022. 3. 14.
728x90

1์žฅ

Sampling ํ•˜๋Š” ๋ฐฉ๋ฒ•, 

2์žฅ

์‹œ๊ฐํ™” ์ž๋ฃŒ๋Š” ์ฃผ๊ด€์ ์ด๋ผ๋Š” ๋‹จ์ ์ด ์กด์žฌ. 

 

3์žฅ

 ํ‰๊ท  == ์‚ฐ์ˆ  ํ‰๊ท 

: ๋‹ค ๋”ํ•ด์„œ ๊ฐœ์ˆ˜๋กœ ๋‚˜๋ˆ„๋Š” ๊ฒƒ. ๋Œ€๋ฌธ์ž X == ๋žœ๋ค(Observed variable), ์†Œ๋ฌธ์ž x == random

 

๊ฐ€์ค‘ ํ‰๊ท 

: ์ƒ๋Œ€์  ์ค‘์š”๋„๋ฅผ ํ‘œ์‹œํ•  ์ˆ˜ ์žˆ๋‹ค. ์˜ค๋ฉ”๊ฐ€ i๊ฐ€ ์กด์žฌํ•œ๋‹ค. ์‚ฐ์ˆ  ํ‰๊ท ์˜ ๊ฒฝ์šฐ ์˜ค๋ฉ”๊ฐ€๋Š” 1/n๋กœ ๋ชจ๋‘ ๋™์ผํ•˜๊ฒŒ ๋œ๋‹ค. 

 

 

ํ‘œ๋ณธ ํ‰๊ท ์€ ๋Œ€ํ‘œ๊ฐ’์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ. Outlier๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ ๋ฌด๋ฆฌ์—์„œ ๋–จ์–ด์ ธ ์žˆ๋Š” ๊ฐ’์„ ๋งํ•œ๋‹ค. ์‚ฐ์ˆ  ํ‰๊ท ์€ ๋ฌผ๋ฆฌ์ ์œผ๋กœ ์–ด๋–ค ์˜๋ฏธ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๋Š”๊ฐ€? 

 

ํ™€์ˆ˜๊ฐœ์ด๋ฉด ์ค‘๊ฐ„ ๋ฒˆ์งธ์˜ ๊ฐ’์ด๊ณ  ์ง์ˆ˜ ๊ฐœ์ด๋ฉด ์ค‘๊ฐ„ ๋ฒˆ์งธ ๋‘๊ฐœ์˜ ํ‰๊ท  ๊ฐ’์ด๋‹ค. ์ด์ƒ์น˜์— ๋ฏผ๊ฐํ•˜์ง€ ์•Š๋‹ค. 

 

scale์— ๋”ฐ๋ผ์„œ ๋‹ค ๋‹ค๋ฅด๋‹ค. ํžˆ์Šคํ† ๊ทธ๋žจ์„ ๊ฐ€์ง€๊ณ  ์ตœ๋นˆ๊ฐ’์„ ์ฐพ๋Š” ๊ฒƒ์€ ์ œ์ผ ๋†’์€ ๊ฒƒ์œผ๋กœ ํ•˜๋ฉด ๋œ๋‹ค. ํ•˜์ง€๋งŒ ๊ตฌ๊ฐ„์— ํ•ด๋‹นํ•˜๋ฏ€๋กœ ์ตœ๋นˆ๊ฐ’์ด ์•„๋‹ˆ๋ผ ๋Œ€ํ‘œ๊ฐ’์ด๋ผ๊ณ  ๋ถ€๋ฅด๊ฒŒ ๋œ๋‹ค.

 

์ขŒ์šฐ ๋Œ€์นญ์˜ ๊ฒฝ์šฐ ํ‰ํ˜•์ ์€ ์ค‘์‹ฌ์— ์กด์žฌํ•˜๊ฒŒ ๋œ๋‹ค. Bi-model์˜ ๊ฒฝ์šฐ ์ค‘์•™๊ฐ’๊ณผ ํ‰๊ท ์€ ์ค‘์•™์— ์กด์žฌํ•˜์ง€๋งŒ ์ตœ๋นˆ๊ฐ’์€ ๋‹ค๋ฅด๋‹ค. Bi-model ๋„ ์ขŒ์šฐ ๋Œ€์นญ์ด๋‹ค. ์ค‘์•™๊ฐ’์„ ๊ทธ๋ฆผ์œผ๋กœ ๋‚˜ํƒ€๋‚ด๋ฉด ๋ฉด์ ์˜ ์ ˆ๋ฐ˜ ๊ฐ’์ด๋‹ค. 

 

trimmed mean

์ „์ฒด 9๋ช…์ด๋ผ๊ณ  ํ•˜๋ฉด 1/9 x 100% ๊ฐ€ ๋œ๋‹ค. 

 

dispersion

 

 

 

 

์†Œ๋ฌธ์ž x. 

ํŽธ์ฐจ์˜ ํ•ฉ์€ 0์ด๋‹ค. ๋ถ€ํ˜ธ๋ฅผ ์—†์• ๊ธฐ ์œ„ํ•ด์„œ ์ œ๊ณฑ์„ ํ•˜๊ณ  ๋”ํ•ด์„œ ๋ถ„์‚ฐ์„ ๊ณ„์‚ฐํ•˜๊ฒŒ ๋œ๋‹ค.

 

 

n์ด ์•„๋‹ˆ๋ผ n-1๋กœ ๋‚˜๋ˆ„๊ฒŒ ๋œ๋‹ค. ์™œ n-1์ธ๊ฐ€. ํŽธ์ฐจ๋Š” ์ด n๊ฐœ๊ฐ€ ์กด์žฌํ•˜๊ณ  ๋‹ค ๋”ํ•˜๋ฉด 0์ด ๋œ๋‹ค. n๊ฐœ๊ฐ€ ์กด์žฌํ•˜๋ฉด n-1๊ฐœ์˜ ํ•ฉ์— ๋งˆ์ง€๋ง‰ ํ•œ ๊ฐœ๋งŒ ๋ฐ˜๋Œ€ ๋ถ€ํ˜ธ์˜ ํฌ๊ธฐ๊ฐ’๋งŒ ๊ฐ€์ง€๋ฉด ๋˜๋ฏ€๋กœ n-1์˜ ์ž์œ ๋„๋ฅผ ๊ฐ–๋Š”๋‹ค๊ณ  ํ‘œํ˜„ํ•œ๋‹ค. ๋ถ„์‚ฐ์˜ ๋‹จ์œ„๋Š” ํ•ญ์ƒ ์ œ๊ณฑ์ด๋‹ค. m์˜ ์ œ๊ณฑ, ์˜จ๋„์˜ ์ œ๊ณฑ... 

 

True False๋กœ ๋‚˜์˜ฌ ์ˆ˜ ์žˆ์Œ

๋ถ„์‚ฐ์ด 0์ด ๋˜๋Š” ๊ฒฝ์šฐ๋Š” ์ ์ˆ˜๊ฐ€ ๋‹ค ๋™์ผํ•œ ๊ฒฝ์šฐ

parameter์™€ statistic์˜ ์ฐจ์ด

๋ชจ์ง‘๋‹จ์—์„œ finite population๊ณผ infinite population์ด ์กด์žฌํ•œ๋‹ค. 

estimate๋ผ๋Š” ์ถ”์ •๋Ÿ‰์€ ๋ชจ์ˆ˜๋กœ ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ๋‹ค.

 

๋ณ€๋™ ๊ณ„์ˆ˜ = S / X๋ฐ” x 100%๋กœ ์ˆ˜์ •.

๊ตญ์–ด 80์ ์— ํ‘œ์ค€ํŽธ์ž 15์ 

์˜์–ด 70์ ์— ํ‘œ์ค€ํŽธ์ž 7์ 

๊ตญ์–ด์— ๋Œ€ํ•œ ๋ณ€๋™ ๊ณ„์ˆ˜๋Š” 15/80 x 100 ==> 1/18

์˜์–ด์— ๋Œ€ํ•œ ๋ณ€๋™ ๊ณ„์ˆ˜๋Š” 7/70 x 100 ==> 1/10

๋‹จ์ˆœํžˆ ํ‘œ์ค€ ํŽธ์ฐจ๋งŒ ๊ฐ€์ง€๊ณ  ๋น„๊ตํ•  ์ˆ˜๋Š” ์—†๋‹ค.

 

 

 

์ค‘์š”ํ•œ Thoerem

1๋ณด๋‹ค ํฐ k ์— ๋Œ€ํ•ด์„œ!!! 

 

 

๋ฐ์ดํ„ฐ๊ฐ€ ๋งŽ์œผ๋ฉด ๋งŽ์„ ์ˆ˜๋ก ์ •๊ทœ ๋ถ„ํฌ๋กœ ๊ฐ„๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธ.

 

percentile != percentage

90 percentile์ด๋ผ๋Š” ๊ฒƒ์€ ์ •๊ทœ ๋ถ„ํฌํ‘œ์—์„œ ํ•ด๋‹น ํผ์„ผํŠธ๊นŒ์ง€ ์ด์ „์˜ ๋ชจ๋“  ๋ฉด์ ์„ ์˜๋ฏธํ•œ๋‹ค.

 

50 percentile์€ ์ค‘์•™๊ฐ’์ด๋‹ค.

interquartile range (*******)

 

๊ณ„์‚ฐํ•  ์ค„ ์•Œ์•„์•ผ ํ•œ๋‹ค.

 

Box Plot

J.Tukey ๊ฐ€ ์ œ์•ˆํ•จ. ์ฃผ์‹ ์‹œ์žฅ์— ํ™œ์šฉ๋˜๊ณ  ์žˆ๋‹ค. 25%์”ฉ ๊ฐ๊ฐ ํ‘œํ˜„๋˜๊ณ  ์žˆ๋‹ค. Inner fence(1.5๋ฐฐ)๋ผ๋Š” ์šฉ์–ด๋„ ์žˆ๋‹ค. ๋” ๋„˜์–ด์„œ๋Š” ๋ฒ”์œ„์— ์žˆ๋Š” ๊ฒƒ์„ mild outlier(3๋ฐฐ)์— ํ•ด๋‹นํ•œ๋‹ค. ๊ทธ๊ฒƒ์„ ๋ฒ—์–ด๋‚˜๋ฉด extreme outlier๋ผ๊ณ  ๋ถ€๋ฅธ๋‹ค.