ਡਾਟਾ ਮਾਇਨਿੰਗ ਵਿਚ ਵਰਗੀਕਰਨ

ਵਰਗੀਕਰਨ ਇਕ ਡਾਟਾ ਮਾਈਨਿੰਗ ਤਕਨੀਕ ਹੈ ਜੋ ਵਧੇਰੇ ਸਹੀ ਪੂਰਵ-ਅਨੁਮਾਨਾਂ ਅਤੇ ਵਿਸ਼ਲੇਸ਼ਣ ਵਿਚ ਸਹਾਇਤਾ ਕਰਨ ਲਈ ਡਾਟਾ ਇਕੱਤਰ ਕਰਨ ਲਈ ਸ਼੍ਰੇਣੀਆਂ ਨਿਰਧਾਰਤ ਕਰਦੀ ਹੈ. ਇਸ ਨੂੰ ਕਈ ਵਾਰ ਇੱਕ ਨਿਰਣਾਇਕ ਲੜੀ ਵੀ ਕਿਹਾ ਜਾਂਦਾ ਹੈ, ਵਰਗੀਕਰਨ ਬਹੁਤ ਸਾਰੇ ਡੈਟਾਸੈਟਾਂ ਦੇ ਵਿਸ਼ਲੇਸ਼ਣ ਨੂੰ ਅਸਰਦਾਰ ਬਣਾਉਣ ਦੇ ਕਈ ਢੰਗਾਂ ਵਿੱਚੋਂ ਇੱਕ ਹੈ.

ਕਿਉਂ ਵਰਗੀਕਰਨ ਕਰਨਾ ਹੈ?

ਬਹੁਤ ਵੱਡੇ ਡਾਟਾਬੇਸ ਅੱਜ ਦੇ "ਵੱਡੇ ਡੈਟਾ" ਦੇ ਸੰਸਾਰ ਵਿੱਚ ਆਦਰਸ਼ ਬਣ ਰਹੇ ਹਨ. ਡਾਟਾਬੇਸ ਦੇ ਬਹੁਤੇ ਟੈਰਾਬਾਈਟਸ ਦੇ ਨਾਲ ਇੱਕ ਡਾਟਾਬੇਸ ਦੀ ਕਲਪਨਾ ਕਰੋ - ਇੱਕ ਟੈਰਾਬਾਈਟ ਡਾਟਾ ਦੇ ਇੱਕ ਟ੍ਰਿਲੀਅਨ ਬਾਈਟ ਹੈ.

ਫੇਸਬੁੱਕ ਇਕੱਲੇ ਫੇਸਬੁੱਕ ਦੇ ਹਰ ਰੋਜ਼ 600 ਟੈਰਾਬਾਈਟ ਨਵੇਂ ਡਾਟਾ ਖਰੀਦੇ ਹਨ (2014 ਤੱਕ, ਇਸ ਸਪੈਕਸ ਦੀ ਰਿਪੋਰਟ ਕੀਤੀ ਪਿਛਲੀ ਵਾਰ) ਵੱਡੇ ਅੰਕੜਿਆਂ ਦੀ ਮੁੱਖ ਚੁਣੌਤੀ ਇਸਦਾ ਭਾਵਨਾ ਕਿਵੇਂ ਬਣਾਉਣਾ ਹੈ

ਅਤੇ ਸਧਾਰਣ ਵੋਲਯੂਮ ਸਿਰਫ ਇੱਕੋ ਸਮੱਸਿਆ ਨਹੀਂ ਹੈ: ਵੱਡਾ ਡੇਟਾ ਵੱਖ-ਵੱਖ, ਅਨਿਯਮਤ ਅਤੇ ਤੇਜ਼-ਬਦਲਣ ਵਾਲੇ ਹੋਣ ਦੀ ਸੰਭਾਵਨਾ ਰੱਖਦਾ ਹੈ. ਆਡੀਓ ਅਤੇ ਵਿਡੀਓ ਡੇਟਾ, ਸੋਸ਼ਲ ਮੀਡੀਆ ਪੋਸਟਾਂ, 3 ਡੀ ਡਾਟਾ ਜਾਂ ਭੂ-ਸਥਾਨਕ ਡੇਟਾ ਤੇ ਵਿਚਾਰ ਕਰੋ. ਇਸ ਤਰ੍ਹਾਂ ਦਾ ਡਾਟਾ ਆਸਾਨੀ ਨਾਲ ਸ਼੍ਰੇਣੀਬੱਧ ਜਾਂ ਸੰਗਠਿਤ ਨਹੀਂ ਕੀਤਾ ਗਿਆ ਹੈ.

ਇਸ ਚੁਣੌਤੀ ਨੂੰ ਪੂਰਾ ਕਰਨ ਲਈ, ਉਪਯੋਗੀ ਜਾਣਕਾਰੀ ਕੱਢਣ ਲਈ ਕਈ ਤਰ੍ਹਾਂ ਦੇ ਆਟੋਮੈਟਿਕ ਵਿਧੀਆਂ ਵਿਕਸਿਤ ਕੀਤੀਆਂ ਗਈਆਂ ਹਨ, ਉਨ੍ਹਾਂ ਵਿੱਚ ਵਰਗੀਕਰਨ

ਕਿਸ ਪ੍ਰਕਾਰ ਵਰਕੇ ਕੰਮ ਕਰਦਾ ਹੈ

ਤਕਨੀਕੀ-ਬੋਲਣ ਵਿੱਚ ਬਹੁਤ ਦੂਰ ਜਾਣ ਦੇ ਖ਼ਤਰੇ 'ਤੇ, ਆਓ ਵਰਣਨ ਕਰੀਏ ਕਿ ਵਰਗੀਕਰਨ ਕਿਵੇਂ ਕੰਮ ਕਰਦੀ ਹੈ. ਇਹ ਟੀਚਾ ਉਹਨਾਂ ਵਰਗੀਕਰਣ ਨਿਯਮਾਂ ਦਾ ਇੱਕ ਸਮੂਹ ਬਣਾਉਣਾ ਹੈ ਜੋ ਇੱਕ ਸਵਾਲ ਦਾ ਜਵਾਬ ਦੇਣ, ਫੈਸਲਾ ਕਰਨ, ਜਾਂ ਵਿਵਹਾਰ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਲਈ ਤਿਆਰ ਹੋਣ. ਸ਼ੁਰੂ ਕਰਨ ਲਈ, ਸਿਖਲਾਈ ਡੇਟਾ ਦਾ ਇੱਕ ਸੈੱਟ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ ਜਿਸ ਵਿੱਚ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਦੇ ਕੁਝ ਖਾਸ ਸੈਟ ਅਤੇ ਨਾਲ ਹੀ ਸੰਭਾਵਤ ਨਤੀਜੇ ਵੀ ਸ਼ਾਮਲ ਹਨ.

ਕਲਾਸੀਫਿਕੇਸ਼ਨ ਐਲਗੋਰਿਦਮ ਦੀ ਨੌਕਰੀ ਇਹ ਪਤਾ ਕਰਨਾ ਹੈ ਕਿ ਗੁਣਾਂ ਦਾ ਸੈੱਟ ਕਿਵੇਂ ਇਸ ਦੇ ਸਿੱਟੇ ਤੇ ਪਹੁੰਚਦਾ ਹੈ.

ਦ੍ਰਿਸ਼ਟੀਕੋਣ : ਸ਼ਾਇਦ ਇੱਕ ਕ੍ਰੈਡਿਟ ਕਾਰਡ ਕੰਪਨੀ ਇਹ ਪਤਾ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰ ਰਹੀ ਹੈ ਕਿ ਕਿਸ ਕ੍ਰੈਡਿਟ ਕਾਰਡ ਨੂੰ ਇੱਕ ਕ੍ਰੈਡਿਟ ਕਾਰਡ ਦੀ ਪੇਸ਼ਕਸ਼ ਪ੍ਰਾਪਤ ਕਰਨੀ ਚਾਹੀਦੀ ਹੈ.

ਇਹ ਸਿਖਲਾਈ ਡੇਟਾ ਦਾ ਸੈੱਟ ਹੋ ਸਕਦਾ ਹੈ:

ਸਿਖਲਾਈ ਡੇਟਾ
ਨਾਮ ਉਮਰ ਲਿੰਗ ਸਾਲਾਨਾ ਆਮਦਨ ਕ੍ਰੈਡਿਟ ਕਾਰਡ ਪੇਸ਼ਕਸ਼
ਜੋਹਨ ਡੋਈ 25 ਐਮ $ 39,500 ਨਹੀਂ
ਜੇਨ ਡੋਈ 56 F $ 125,000 ਹਾਂ

"ਪੂਰਵ ਸੂਚਕ" ਕਾਲਮ ਉਮਰ , ਲਿੰਗ ਅਤੇ ਸਾਲਾਨਾ ਆਮਦਨ ਕ੍ਰੈਡਿਟ ਕਾਰਡ ਪੇਸ਼ਕਸ਼ "ਪ੍ਰਿਥੀਐਟਰ ਵਿਸ਼ੇਸ਼ਤਾ" ਦੇ ਮੁੱਲ ਨੂੰ ਨਿਰਧਾਰਤ ਕਰਦੇ ਹਨ. ਟਰੇਨਿੰਗ ਸੈਟ ਵਿੱਚ, ਪ੍ਰੌਟਿਕੈਕਟਰ ਐਟਰੀਬਿਊਟ ਜਾਣਿਆ ਜਾਂਦਾ ਹੈ. ਫਿਰ ਕਲਾਸੀਫਿਕੇਸ਼ਨ ਐਲਗੋਰਿਦਮ ਇਹ ਨਿਰਧਾਰਿਤ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦਾ ਹੈ ਕਿ ਪਰਿਣਾਏਕਰਤਾ ਦੇ ਗੁਣ ਦਾ ਮੁੱਲ ਕਿਵੇਂ ਪਹੁੰਚਿਆ ਗਿਆ ਸੀ: ਪੂਰਵਕ ਅਤੇ ਫੈਸਲੇ ਵਿਚਕਾਰ ਕਿਹੜੇ ਰਿਸ਼ਤੇ ਮੌਜੂਦ ਹਨ? ਇਹ ਭਵਿੱਖਬਾਣੀ ਦੇ ਨਿਯਮ ਤਿਆਰ ਕਰੇਗਾ, ਆਮ ਤੌਰ ਤੇ IF / THEN ਬਿਆਨ, ਉਦਾਹਰਣ ਲਈ:

ਜੇ (ਉਮਰ> 18 ਜਾਂ ਉਮਰ <75) ਅਤੇ ਸਲਾਨਾ ਆਮਦਨ> 40,000 THEN ਕ੍ਰੈਡਿਟ ਕਾਰਡ ਪੇਸ਼ਕਸ਼ = ਹਾਂ

ਸਪੱਸ਼ਟ ਹੈ, ਇਹ ਇੱਕ ਸਧਾਰਨ ਉਦਾਹਰਨ ਹੈ, ਅਤੇ ਏਲਗੋਰਿਦਮ ਨੂੰ ਇੱਥੇ ਦਿਖਾਇਆ ਗਿਆ ਦੋ ਰਿਕਾਰਡਾਂ ਦੀ ਬਜਾਏ ਬਹੁਤ ਜ਼ਿਆਦਾ ਡਾਟਾ ਸੈਂਪਲਿੰਗ ਦੀ ਲੋੜ ਹੋਵੇਗੀ. ਇਸ ਤੋਂ ਇਲਾਵਾ, ਭਵਿੱਖਬਾਣੀ ਦੇ ਨਿਯਮ ਬਹੁਤ ਜਿਆਦਾ ਗੁੰਝਲਦਾਰ ਹੋਣ ਦੀ ਸੰਭਾਵਨਾ ਹੈ, ਵਿਸ਼ੇਸ਼ਤਾ ਵੇਰਵਿਆਂ ਨੂੰ ਹਾਸਲ ਕਰਨ ਲਈ ਸਬ-ਨਿਯਮਾਂ ਸਮੇਤ

ਅਗਲਾ, ਐਲਗੋਰਿਦਮ ਨੂੰ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨ ਲਈ ਡੇਟਾ ਦਾ "ਭਵਿੱਖਬਾਣੀ ਸੈਟ" ਦਿੱਤਾ ਜਾਂਦਾ ਹੈ, ਲੇਕਿਨ ਇਸ ਸੈੱਟ ਵਿੱਚ ਭਵਿੱਖਬਾਣੀ ਵਿਸ਼ੇਸ਼ਤਾ (ਜਾਂ ਫੈਸਲੇ) ਦੀ ਘਾਟ ਹੈ:

ਪ੍ਰਾਜੈਕਟਕਾਰ ਡੇਟਾ
ਨਾਮ ਉਮਰ ਲਿੰਗ ਸਾਲਾਨਾ ਆਮਦਨ ਕ੍ਰੈਡਿਟ ਕਾਰਡ ਪੇਸ਼ਕਸ਼
ਜੈਕ ਫਰੌਸਟ 42 ਐਮ $ 88,000
ਮੈਰੀ ਮੁਰਰੇ 16 F $ 0

ਇਹ ਪੂਰਵ ਸੂਚਕ ਡੇਟਾ ਭਵਿੱਖਬਾਣੀ ਦੇ ਨਿਯਮਾਂ ਦੀ ਸ਼ੁੱਧਤਾ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਵਿੱਚ ਸਹਾਇਤਾ ਕਰਦਾ ਹੈ, ਅਤੇ ਨਿਯਮਾਂ ਨੂੰ ਉਦੋਂ ਤੱਕ ਟਵੀਡ ਕੀਤਾ ਜਾਂਦਾ ਹੈ ਜਦੋਂ ਤੱਕ ਵਿਕਾਸਕਾਰ ਪ੍ਰਭਾਵੀ ਅਤੇ ਉਪਯੋਗੀ ਨੂੰ ਸਮਝਦਾ ਹੈ.

ਵਰਗੀਕਰਣ ਦੇ ਦਿਨ ਪ੍ਰਤੀ ਦਿਨ ਦੀਆਂ ਉਦਾਹਰਨਾਂ

ਵਰਗੀਕਰਨ, ਅਤੇ ਹੋਰ ਡਾਟਾ ਖਨਨ ਦੀਆਂ ਤਕਨੀਕਾਂ, ਸਾਡੇ ਰੋਜ਼ਾਨਾ ਦੇ ਤਜ਼ਰਬੇ ਦੇ ਬਹੁਤ ਸਾਰੇ ਪਿਛੋਕੜ ਤੋਂ ਬਾਅਦ ਹਨ ਕਿਉਂਕਿ ਉਪਭੋਗਤਾ

ਮੌਸਮ ਪੂਰਵ ਅਨੁਮਾਨਾਂ ਨੂੰ ਇਹ ਦੱਸਣ ਲਈ ਵਰਗੀਕਰਨ ਦੀ ਵਰਤੋਂ ਹੋ ਸਕਦੀ ਹੈ ਕਿ ਕੀ ਦਿਨ ਬਰਸਾਤੀ, ਧੁੱਪ ਜਾਂ ਬੱਦਲ ਹੋ ਜਾਵੇਗਾ. ਡਾਕਟਰੀ ਪੇਸ਼ੇ ਡਾਕਟਰੀ ਨਤੀਜਿਆਂ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਨ ਲਈ ਸਿਹਤ ਦੀਆਂ ਸਥਿਤੀਆਂ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰ ਸਕਦੇ ਹਨ. ਵਰਗੀਕਰਨ ਵਿਧੀ ਦੀ ਇੱਕ ਕਿਸਮ, ਨੈਾਈ ਬੇਏਸਿਆਨ, ਸਪੈਮ ਈਮੇਲਸ ਨੂੰ ਸ਼੍ਰੇਣੀਬੱਧ ਕਰਨ ਲਈ ਸ਼ਰਤਬੱਧ ਸੰਭਾਵੀ ਵਰਤਦਾ ਹੈ ਧੋਖਾਧੜੀ ਦੇ ਉਤਪਾਦਾਂ ਦੀਆਂ ਪੇਸ਼ਕਸ਼ਾਂ ਤੋਂ, ਵਰਗੀਕਰਣ ਹਰ ਦਿਨ ਦ੍ਰਿਸ਼ਾਂ ਦੇ ਪਿੱਛੇ ਹੁੰਦਾ ਹੈ ਅਤੇ ਅਨੁਮਾਨਾਂ ਦਾ ਉਤਪਾਦਨ ਕਰਦਾ ਹੈ.