מתי לנרמל או לתקן נתונים?

מתי לנרמל או לתקן נתונים?
מתי לנרמל או לתקן נתונים?
Anonim

נורמליזציה שימושית כאשר לנתונים שלך יש קנה מידה משתנים והאלגוריתם שבו אתה משתמש אינו מניח הנחות לגבי התפלגות הנתונים שלך, כגון השכנים הקרובים ביותר ועצבים מלאכותיים רשתות. הסטנדרטיזציה מניחה שלנתונים שלך יש התפלגות גאוסית (עקומת פעמון).

מתי עלינו לנרמל נתונים?

יש לנרמל או לתקנן את הנתונים כדי להביא את כל המשתנים לפרופורציות אחד עם השני. לדוגמה, אם משתנה אחד גדול פי 100 מהאחר (בממוצע), ייתכן שהמודל שלך יתנהג טוב יותר אם תנרמל/תתקן את שני המשתנים כך שיהיו שווים בערך.

מה ההבדל בין נורמליזציה לסטנדרטיזציה?

נורמליזציה פירושה בדרך כלל שינוי קנה מידה של הערכים לטווח של [0, 1]. סטנדרטיזציה פירושה בדרך כלל שינוי קנה המידה של הנתונים כך שיהיה להם ממוצע של 0 וסטיית תקן של 1 (שונות יחידה).

מתי ולמה אנחנו צריכים נורמליזציה של נתונים?

במונחים פשוטים יותר, נורמליזציה מוודאת שכל הנתונים שלך נראים ונקראים באותו אופן בכל הרשומות. נורמליזציה תתקן שדות לרבות שמות חברות, שמות אנשי קשר, כתובות URL, פרטי כתובת (רחובות, מדינות וערים), מספרי טלפון וכותרות עבודה.

איך בוחרים נורמליזציה וסטנדרטיזציה?

בעולם העסקים, "נורמליזציה" פירושה בדרך כלל שטווח הערכים הוא"מנורמל להיות מ-0.0 ל-1.0". "סטנדרטיזציה" פירושה בדרך כלל שטווח הערכים "מתוקנן" כדי למדוד כמה סטיות תקן הערך הוא מהממוצע שלו.

מוּמלָץ: