ਕੀ-ਕੀ ਕਲੱਸਟਰਿੰਗ ਕੀ ਹੈ?

K- ਅਰਥ ਐਲਗੋਰਿਦਮ ਨਾਲ ਡੇਟਾ ਮਾਇਨਿੰਗ

K- ਦਾ ਭਾਵ ਕਲਸਟਰਿੰਗ ਅਲਗੋਰਿਦਮ ਇਕ ਅਜਿਹਾ ਡੈਟਾ ਖਨਨ ਅਤੇ ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਸੰਦ ਹੈ ਜੋ ਇਹਨਾਂ ਸਬੰਧਾਂ ਦੇ ਪੂਰਵ-ਗਿਆਨ ਤੋਂ ਬਗੈਰ ਅਨੁਸਾਰੀ ਹਦਾਇਤਾਂ ਦੇ ਸਮੂਹਾਂ ਵਿੱਚ ਨਿਰੀਖਣ ਕਰਨ ਲਈ ਵਰਤਿਆ ਜਾਂਦਾ ਹੈ. ਸੈਂਪਲਿੰਗ ਦੁਆਰਾ, ਐਲਗੋਰਿਥਮ ਇਹ ਦਿਖਾਉਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦਾ ਹੈ ਕਿ ਕਿਹੜੀ ਸ਼੍ਰੇਣੀ, ਜਾਂ ਕਲੱਸਟਰ, ਡਾਟਾ ਸਬੰਧਤ ਹੈ, ਜਿਸ ਨਾਲ ਕਲਸਟਰ ਦੀ ਗਿਣਤੀ ਨੂੰ ਮੁੱਲ ਕੇ ਦੁਆਰਾ ਪ੍ਰਭਾਸ਼ਿਤ ਕੀਤਾ ਜਾ ਰਿਹਾ ਹੈ .

K- ਅਰਥ ਅਲਗੋਰਿਦਮ ਸਭ ਤੋਂ ਆਸਾਨ ਕਲੱਸਟਰਿੰਗ ਤਕਨੀਕਾਂ ਵਿੱਚੋਂ ਇੱਕ ਹੈ ਅਤੇ ਇਹ ਆਮ ਤੌਰ ਤੇ ਮੈਡੀਕਲ ਇਮੇਜਿੰਗ, ਬਾਇਓਮੈਟ੍ਰਿਕਸ, ਅਤੇ ਸਬੰਧਿਤ ਖੇਤਰਾਂ ਵਿੱਚ ਵਰਤਿਆ ਜਾਂਦਾ ਹੈ. K- ਮਤਲਬ ਕਲੱਸਟਰਿੰਗ ਦਾ ਫਾਇਦਾ ਇਹ ਹੈ ਕਿ ਇਹ ਤੁਹਾਡੇ ਡੈਟਾ ਬਾਰੇ ਦੱਸਦਾ ਹੈ (ਇਸਦਾ ਨਾ ਸਮਝਿਆ ਰੂਪ ਵਰਤ ਕੇ) ਸਗੋਂ ਸ਼ੁਰੂ ਵਿਚਲੇ ਡਾਟੇ ਬਾਰੇ ਐਲਗੋਰਿਥਮ (ਐਲਗੋਰਿਦਮ ਦੇ ਨਿਰੀਖਣ ਕੀਤੇ ਗਏ ਫਾਰਮ ਦੀ ਵਰਤੋਂ) ਨੂੰ ਦੱਸਣ ਦੀ ਬਜਾਏ.

ਇਹ ਕਈ ਵਾਰ ਲੋਇਡ ਦੇ ਅਲਗੋਰਿਦਮ ਦੇ ਤੌਰ ਤੇ ਜਾਣਿਆ ਜਾਂਦਾ ਹੈ, ਖਾਸ ਤੌਰ ਤੇ ਕੰਪਿਊਟਰ ਸਾਇੰਸ ਸਰਕਲਾਂ ਵਿਚ ਕਿਉਂਕਿ 1957 ਵਿਚ ਸਟੂਅਰਟ ਲੋਇਡ ਦੁਆਰਾ ਸਟੈਂਡਰਡ ਅਲਗੋਰਿਦਮ ਦੀ ਪ੍ਰਸਤਾਵਿਤ ਪੇਸ਼ਕਸ਼ ਕੀਤੀ ਗਈ ਸੀ. ਸ਼ਬਦ "ਕੇ-ਅਰਥ" 1967 ਵਿਚ ਜੇਮਜ਼ ਮੈਕਕੁਇਨ ਦੁਆਰਾ ਬਣਾਇਆ ਗਿਆ ਸੀ.

ਕੇ-ਅਰਥ ਅਲਗੋਰਿਦਮ ਫੰਕਸ਼ਨ ਕਿਵੇਂ

K- ਮਤਲਬ ਐਲਗੋਰਿਦਮ ਇੱਕ ਵਿਕਾਸਵਾਦੀ ਐਲਗੋਰਿਥਮ ਹੈ ਜੋ ਇਸਦਾ ਨਾਮ ਆਪਰੇਸ਼ਨ ਦੇ ਵਿਧੀ ਤੋਂ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ. ਐਲਗੋਰਿਥਮ ਕਲੱਸਟਰਜ਼ k ਗਰੁੱਪਾਂ ਵਿੱਚ ਨਜ਼ਰਸਾਨੀ ਕਰਦੇ ਹਨ, ਜਿੱਥੇ ਕਿ k ਨੂੰ ਇੰਪੁੱਟ ਪੈਰਾਮੀਟਰ ਦੇ ਤੌਰ ਤੇ ਦਿੱਤਾ ਗਿਆ ਹੈ. ਇਹ ਫਿਰ ਕਲੱਸਟਰ ਦੇ ਅਰਥ ਨੂੰ ਦੇਖਣ ਦੇ ਆਲੇ-ਦੁਆਲੇ ਦੇ ਆਧਾਰ ਤੇ ਕਲੱਸਟਰਾਂ ਵਿਚ ਹਰੇਕ ਨਿਰੀਖਣ ਨਿਰਧਾਰਤ ਕਰਦਾ ਹੈ. ਕਲੱਸਟਰ ਦਾ ਮਤਲਬ ਫਿਰ ਪੁਨਰ-ਕੰਪੋਟਡ ਹੁੰਦਾ ਹੈ ਅਤੇ ਪ੍ਰਕਿਰਿਆ ਦੁਬਾਰਾ ਸ਼ੁਰੂ ਹੁੰਦੀ ਹੈ. ਇੱਥੇ ਕਿਵੇਂ ਐਲੋਗਰਿਥਮ ਕੰਮ ਕਰਦਾ ਹੈ:

  1. ਐਲਗੋਰਿਦਮ ਕੁਦਰਤੀ ਤੌਰ ਤੇ ਸ਼ੁਰੂਆਤੀ ਕਲੱਸਟਰ ਸੈਂਟਰ (ਅਰਥ) ਦੇ ਤੌਰ ਤੇ k ਪੁਆਇੰਟ ਚੁਣਦਾ ਹੈ.
  2. ਡਾਟਾਸਟੈਟ ਵਿਚ ਹਰੇਕ ਬਿੰਦੂ ਬੰਦ ਕਲੱਸਟਰ ਨੂੰ ਨਿਰਧਾਰਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਜੋ ਕਿ ਹਰੇਕ ਬਿੰਦੂ ਅਤੇ ਹਰੇਕ ਕਲੱਸਟਰ ਸੈਂਟਰ ਦੇ ਵਿਚਕਾਰ ਯੂਕਲਿਸ਼ਨ ਦੂਰੀ ਦੇ ਅਧਾਰ ਤੇ ਹੈ.
  3. ਹਰ ਕਲੱਸਟਰ ਸੈਂਟਰ ਨੂੰ ਉਸ ਕਲਾਸਟਰ ਵਿਚਲੇ ਪੁਆਇੰਟਾਂ ਦੇ ਔਸਤ ਵਜੋਂ ਮੁੜ ਕੰਪੋਪੂਟ ਕੀਤਾ ਜਾਂਦਾ ਹੈ.
  4. ਜਦੋਂ ਤਕ ਕਲੱਸਟਰ ਇਕੱਠੇ ਨਹੀਂ ਹੁੰਦੇ ਉਦੋਂ ਤਕ 2 ਅਤੇ 3 ਪਗ਼ ਦੁਹਰਾਓ ਪਰਿਵਰਤਨ ਨੂੰ ਲਾਗੂ ਕਰਨ ਦੇ ਅਧਾਰ ਤੇ ਵੱਖ ਵੱਖ ਢੰਗ ਨਾਲ ਪਰਿਭਾਸ਼ਿਤ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ, ਪਰ ਆਮ ਤੌਰ ਤੇ ਇਸਦਾ ਮਤਲਬ ਇਹ ਹੈ ਕਿ ਜਾਂ ਤਾਂ ਕੋਈ ਵਿਵਰਣ ਕਲਸਟਰਾਂ ਨੂੰ ਨਹੀਂ ਬਦਲਦਾ ਜਦੋਂ ਕਦਮ 2 ਅਤੇ 3 ਦੁਹਰਾਇਆ ਜਾਂਦਾ ਹੈ ਜਾਂ ਇਹ ਬਦਲਾਅ ਕਲੱਸਟਰਾਂ ਦੀ ਪਰਿਭਾਸ਼ਾ ਵਿੱਚ ਕੋਈ ਫਰਕ ਨਹੀਂ ਕਰਦਾ.

ਕਲੱਸਟਰਾਂ ਦੀ ਗਿਣਤੀ ਚੁਣਨਾ

K- ਮਤਲਬ ਕਲੱਸਟਰਿੰਗ ਕਰਨ ਲਈ ਮੁੱਖ ਨੁਕਸਾਨਾਂ ਵਿੱਚੋਂ ਇੱਕ ਇਹ ਹੈ ਕਿ ਤੁਹਾਨੂੰ ਐਲਗੋਰਿਥਮ ਲਈ ਇੱਕ ਇਨਪੁਟ ਦੇ ਰੂਪ ਵਿੱਚ ਕਲੱਸਟਰਸ ਦੀ ਗਿਣਤੀ ਨਿਸ਼ਚਿਤ ਕਰਨੀ ਚਾਹੀਦੀ ਹੈ. ਜਿਵੇਂ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ, ਐਲਗੋਰਿਥਮ ਕਲੱਸਟਰਾਂ ਦੀ ਸਹੀ ਗਿਣਤੀ ਨੂੰ ਨਿਰਧਾਰਤ ਕਰਨ ਦੇ ਸਮਰੱਥ ਨਹੀਂ ਹੈ ਅਤੇ ਇਹ ਇਸ 'ਤੇ ਨਿਰਭਰ ਕਰਦਾ ਹੈ ਕਿ ਇਸ ਦੀ ਪਹਿਚਾਣ ਪਹਿਲਾਂ ਤੋਂ ਕਿਵੇਂ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ.

ਉਦਾਹਰਣ ਵਜੋਂ, ਜੇ ਤੁਹਾਡੇ ਕੋਲ ਅਜਿਹੇ ਲੋਕਾਂ ਦਾ ਸਮੂਹ ਹੁੰਦਾ ਹੈ ਜੋ ਬਾਈਨਰੀ ਲਿੰਗ ਪਛਾਣ ਦੇ ਆਧਾਰ ਤੇ ਮਰਦ ਜਾਂ ਔਰਤ ਦੇ ਰੂਪ ਵਿੱਚ ਕਲੱਸਟਰ ਹੁੰਦੇ ਹਨ, ਤਾਂ ਕੇ- ਅਰਥ ਐਲਗੋਰਿਥਮ ਨੂੰ ਇਨਪੁਟ k = 3 ਵਰਤਦੇ ਹੋਏ ਲੋਕਾਂ ਨੂੰ ਤਿੰਨ ਕਲੱਸਟਰਾਂ ਵਿੱਚ ਉਦੋਂ ਹੀ ਮਜ਼ਬੂਰ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ ਜਦੋਂ ਸਿਰਫ ਦੋ, ਜਾਂ k = 2 ਦੀ ਇੰਪੁੱਟ , ਇਕ ਹੋਰ ਕੁਦਰਤੀ ਫਿਟ ਮੁਹੱਈਆ ਕਰਵਾਏਗੀ.

ਇਸੇ ਤਰ੍ਹਾਂ, ਜੇ ਵਿਅਕਤੀਆਂ ਦਾ ਇੱਕ ਸਮੂਹ ਘਰੇਲੂ ਰਾਜ ਦੇ ਆਧਾਰ ਤੇ ਆਸਾਨੀ ਨਾਲ ਕਲੱਸਟਰ ਕੀਤਾ ਗਿਆ ਸੀ ਅਤੇ ਤੁਸੀਂ k = ਮਤਲਬ ਕਿ ਐਲਗੋਰਿਥਮ ਨੂੰ ਇਨਪੁਟ k = 20 ਦੇ ਨਾਲ ਕਹਿੰਦੇ ਹਨ, ਤਾਂ ਨਤੀਜੇ ਬਹੁਤ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੋਣ ਲਈ ਆਮ ਹੋ ਸਕਦੇ ਹਨ.

ਇਸ ਕਾਰਨ ਕਰਕੇ, ਤੁਹਾਡੇ ਦੁਆਰਾ ਤੁਹਾਡੇ ਡੇਟਾ ਨੂੰ ਸਹੀ ਢੰਗ ਨਾਲ ਅਨੁਕੂਲ ਬਣਾਉਣ ਵਾਲੀ ਵੈਲਯੂ ਦੀ ਪਛਾਣ ਕਰਨ ਲਈ k ਦੇ ਵੱਖ-ਵੱਖ ਕਦਰਾਂ ਨਾਲ ਵਰਤੋਂ ਕਰਨਾ ਅਕਸਰ ਇੱਕ ਵਧੀਆ ਵਿਚਾਰ ਹੁੰਦਾ ਹੈ. ਤੁਸੀਂ ਮਸ਼ੀਨ-ਸਿੱਖਿਅਤ ਗਿਆਨ ਲਈ ਤੁਹਾਡੀ ਖੋਜ ਵਿਚ ਦੂਜੇ ਡੇਟਾ ਮਾਈਨਿੰਗ ਐਲਗੋਰਿਥਮ ਦੇ ਉਪਯੋਗ ਦੀ ਖੋਜ ਵੀ ਕਰ ਸਕਦੇ ਹੋ.