๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
๐Ÿš— Major Study (Bachelor)/๐ŸŸฅ Machine Learning

Logistic Regression

by UKHYUN22 2022. 12. 8.
728x90

z๋ผ๋Š” ๊ฐ’์ด Weight์™€ Input์˜ ๋‚ด์ ํ•œ Linear Regression์ด๊ณ  ์ด ๊ฐ’์ด Sigmoid ํ•จ์ˆ˜์˜ Input ๊ฐ’์œผ๋กœ ๋“ค์–ด๊ฐ„๋‹ค. ์‚ฌ์‹ค P๋ผ๋Š” ํ™•๋ฅ ๊ณผ P๊ฐ€ ์•„๋‹Œ 1-P์˜ ํ™•๋ฅ ์˜ ๋น„์œจ๋กœ ํ‘œํ˜„๋  ์ˆ˜ ์žˆ๋Š” ๊ฒƒ์„ Log๋ฅผ ์ทจํ•œ ํ›„ P์— ๋Œ€ํ•ด์„œ ํ‘œํ˜„์„ ํ•˜๋ฉด  Sigmoid ํ•จ์ˆ˜๊ฐ€ ๋‚˜์˜ค๊ฒŒ ๋œ๋‹ค. ์ฆ‰ ํ™•๋ฅ  ๊ฐ’์„ 0๋ถ€ํ„ฐ 1 ์‚ฌ์ด์˜ ๊ฐ’์œผ๋กœ ํ‘œํ˜„์„ ํ•˜๊ณ  Binary Decision์„ ํ•˜๊ธฐ ์œ„ํ•จ์ด๋‹ค.

 

Logistic Regression์ด๋ผ๋Š” ๊ฒƒ์€ ๊ทธ๋Ÿผ ์–ด๋–ป๊ฒŒ ๋ฐ์ดํ„ฐ๋ฅผ ํšŒ๊ธฐํ•˜๋Š” ๋ฐฉ๋ฒ•์ผ๊นŒ? Linear Regression์ด๋ž€ ๋ฐ์ดํ„ฐ์˜ ๋ถ„ํฌ๋ฅผ ๊ฐ€์žฅ ์ž˜ ํ‘œํ˜„ํ•˜๋Š” ์„ ํ•˜๋‚˜๋ฅผ ๊ธ‹๋Š” ๊ณผ์ •์ด๋ผ๊ณ  ๋ณด๋ฉด ๋œ๋‹ค. ๊ทธ๋Ÿผ Logistic์˜ ๋œป์€ ์—ฌ๊ธฐ์„œ ๋” ๋‚˜์•„๊ฐ€ Class๋ฅผ ๋ถ„๋ฅ˜ํ•˜๊ธฐ ์œ„ํ•œ ํ™•๋ฅ  ๋ชจ๋ธ์„ ๋งŒ๋“ค๊ณ ์ž ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ๊ทธ๋ž˜์„œ F๋ผ๋Š” ํ•จ์ˆ˜๋ฅผ Sigmoid ํ‘œ๊ธฐ๋ฅผ ํ†ตํ•ด์„œ ํ‘œํ˜„์„ ํ•  ์ˆ˜๋„ ์žˆ๊ณ , ํด๋ž˜์Šค๊ฐ€ 1์ผ ํ™•๋ฅ  P๋กœ ํ‘œํ˜„ํ•  ์ˆ˜๋„ ์žˆ๋‹ค. ๊ทธ๋ž˜์„œ ํ™•๋ฅ ์ด ์ •ํ•ด์ง€๊ณ  Threshold์ธ 1/2๋ณด๋‹ค ํฐ ๊ฐ’์ด๋ฉด ํด๋ž˜์Šค 1์„ ์„ ํƒํ•˜๊ณ  ์•„๋‹ˆ๋ฉด ํด๋ž˜์Šค 0์„ ์„ ํƒํ•˜๋Š” ๋ถ„๋ฅ˜๊ธฐ๋ฅผ ๋งŒ๋“ค๊ฒŒ ๋œ๋‹ค.

 

๊ทธ๋ฆผ์„ ๋ณด๋ฉด Linear Regression์„ ํ†ตํ•ด์„œ ๋ฐ์ดํ„ฐ์˜ ๋ถ„ํฌ๋ฅผ ์ž˜ ๊ฐ€๋ฅผ ์ˆ˜ ์žˆ๋Š” ์„ ์„ ํ•˜๋‚˜ ์ฐพ๊ฒŒ ๋˜๊ณ  ์ด์— ๋Œ€ํ•œ ํ™•๋ฅ  ๋ชจ๋ธ์„ ๋งŒ๋“ค์–ด์„œ 1/2 ๊ฐ’๋ณด๋‹ค ํฐ ๊ฒฝ์šฐ์™€ ์ž‘์€ ๊ฒฝ์šฐ์— ๋Œ€ํ•ด์„œ ํด๋ž˜์Šค๋ฅผ ๋‚˜๋ˆŒ ์ˆ˜ ์žˆ์Œ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค.

 

 

Logistic Regression์€ Binary Class๋ฅผ ๊ตฌ๋ถ„ํ•˜๊ธฐ ์œ„ํ•œ ์ž‘์—…์œผ๋กœ ์ดํ•ดํ•ด๋„ ๋œ๋‹ค. ๊ทธ๋ž˜์„œ Train์„ ํ•˜๊ฒŒ ๋  ๊ฒฝ์šฐ Likelihood ํ•จ์ˆ˜๋ฅผ ๋ณด๋ฉด ๋ฒ ๋ฅด๋ˆ„์ด ํ™•๋ฅ ์ฒ˜๋Ÿผ ํ‘œํ˜„๋˜๋Š” ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค. 

 

์ด ๊ฒฝ์šฐ Objective function๊ณผ ํ—ท๊ฐˆ๋ฆฌ์ง€ ๋ง์ž. Objective Function์€ MSE๋ฅผ ์ตœ์†Œํ™”ํ•˜๊ธฐ ์œ„ํ•œ ์ž‘์—…์„ ์ง„ํ–‰ํ•˜๋ฏ€๋กœ ๋ฏธ๋ถ„์„ ํ•˜์—ฌ 0์ด ๋˜๋Š” ์ง€์ ์— ์ง‘์ค‘์„ ํ•œ๋‹ค. ํ•˜์ง€๋งŒ ์ด ๊ฒฝ์šฐ ๋ฐœ์ƒํ•  ํ™•๋ฅ ์˜ ์ตœ๋Œ“๊ฐ’์„ ๊ตฌํ•ด์•ผ ํ•˜๋ฏ€๋กœ Log-likelihood ๊ฐœ๋…์„ ์ ์šฉํ•˜์—ฌ ์ตœ๋Œ€ํ™”ํ•  ์ˆ˜ ์žˆ๋Š” ์ง€์ ์„ ์ฐพ๊ฒŒ ๋œ๋‹ค.

 

Training์˜ ๋ชฉ์ ์€ Log-likelihood ํ•จ์ˆ˜๋ฅผ ์ตœ๋Œ€ํ™”ํ•  ์ˆ˜ ์žˆ๋Š” Weight๋ฅผ ์ฐพ๋Š” ๊ณผ์ •์ด๋‹ค. ํ™•๋ฅ ์˜ ๊ณฑ์…ˆ์ด Log์— ์˜ํ•ด์„œ ๋ง์…ˆ์œผ๋กœ ๋ณ€๊ฒฝ๋˜๊ณ  ๋ฏธ๋ถ„์„ ํ†ตํ•ด 0์ด ๋˜๋Š” ์ง€์ ์— ์ง‘์ค‘์„ ํ•œ๋‹ค. ์ด ๊ฒฝ์šฐ Gradient Descent ์ฒ˜๋Ÿผ Weight๋ฅผ ์ตœ์‹ ํ™”ํ•ด์•ผ ํ•˜๋Š”๋ฐ Logํ•จ์ˆ˜๋ฅผ ์ตœ๋Œ€ํ™”ํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ํ˜„์žฌ์˜ Weight๋ฅผ ์ฆ๊ฐ€์‹œ์ผœ์•ผ ํ•œ๋‹ค. ๊ทธ๋ ‡๊ธฐ ๋•Œ๋ฌธ์— Gradient ascent๋ฅผ ํ•˜๊ฒŒ๋œ๋‹ค๋Š” ์ฐจ์ด์ ์„ ๊ธฐ์–ตํ•˜์ž.

 

์Œ์ˆ˜๋ฅผ ์ทจํ•˜๊ฒŒ ๋˜๋Š” ๊ฒฝ์šฐ Gradient Descent์ฒ˜๋Ÿผ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค.

 

Logistic Regression์˜ Non-linear ํŠน์„ฑ์„ ํ™•์žฅ์‹œํ‚ฌ ์ˆ˜ ์žˆ๋Š”๊ฐ€. ์ฒ˜์Œ ๋“ค์–ด์˜ค๋Š” Input Data์ธ X๋ฅผ ๋‹คํ˜•ํ•จ์ˆ˜๋ฅผ ํ†ต๊ณผํ•˜์—ฌ Non linearity ์„ฑ์งˆ์„ ๊ฐ€์ง€๋„๋ก ๋ถ€์—ฌํ•œ๋‹ค. ์ดํ›„ Weight์™€ Mult, Sum์„ ํ•ด์„œ Sigmoid ํ•จ์ˆ˜์˜ Input์œผ๋กœ ๊ฐ’์„ ์ฃผ๊ฒŒ ๋˜๋Š” ๊ฒฝ์šฐ๋ฅผ ์ƒ๊ฐํ•ด๋ณด์ž. 

 

Non lineariy ์„ฑ์งˆ์„ ์ถ”๊ฐ€ํ•˜๊ฒŒ ๋˜๋ฉด ๋ชจ๋ธ์ด ๋„ˆ๋ฌด ๋ณต์žกํ•ด์งˆ ์ˆ˜ ์žˆ๋Š” ๋ฌธ์ œ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค. ์ด ๊ฒฝ์šฐ ๋ช‡ Input ๋ณ€์ˆ˜๋“ค์„ ์ œ๊ฑฐํ•  ์ˆ˜ ์žˆ์–ด์•ผ ํ•œ๋‹ค. ์ด๋Š” ๋ชจ๋ธ์˜ Weight๋ฅผ 0์— ๊ฐ€๊น๊ฒŒ ๋ณ€๊ฒฝํ•จ์œผ๋กœ์จ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ๋‹ค. ์ „์—์„œ ์‚ดํŽด ๋ดค๋“ฏ Ridge์™€ Lasso์˜ ์ •๊ทœํ™” ์ด๋ก ์ด ๋™์ผํ•˜๊ฒŒ ๋“ฑ์žฅํ•œ๋‹ค. 

 

Multi Class์˜ ๊ฒฝ์šฐ ์—ฌ๋Ÿฌ ๊ฐœ์˜ Binary ํด๋ž˜์Šค ๋ฌธ์ œ๋กœ ๋ถ„ํ• ํ•  ์ˆ˜ ์žˆ๋‹ค. ํ•˜์ง€๋งŒ ์•„๋ฌด Class๋„ ์กด์žฌํ•  ์ˆ˜ ์—†๋Š” ์˜์—ญ๊ณผ ์• ๋งคํ•œ ์˜์—ญ์ด ์กด์žฌํ•œ๋‹ค๋Š” ๋ฌธ์ œ์ ์ด ๋“ฑ์žฅํ•œ๋‹ค.