എന്താണ് ക്ലസ്റ്ററിങ് എന്നർത്ഥം?

K-means algorithm ഉപയോഗിച്ചുള്ള ഡാറ്റ മൈനിംഗ്

K - ആ ബന്ധങ്ങളുടെ മുൻകൂർ അറിവ് കൂടാതെ, ബന്ധപ്പെട്ട നിരീക്ഷണങ്ങളുടെ ഗ്രൂപ്പുകളിലേക്ക് ക്ലസ്റ്റർ നിരീക്ഷണങ്ങൾക്കായി ഉപയോഗിക്കുന്ന ഒരു ഡാറ്റ മൈനിംഗ്, മെഷീൻ ലേണിംഗ് ഉപകരണമാണ് ക്ലസ്റ്ററിംഗ് അൽഗോരിതം. സാമ്പിൾ അനുസരിച്ച്, അൽഗൊരിതം ഏത് വിഭാഗത്തിൽ അല്ലെങ്കിൽ ക്ലസ്റ്ററിൽ കാണിക്കുന്നു, അതിൻറേയും ഡാറ്റയും, മൂല്യം കൊണ്ട് നിർവ്വചിച്ചിരിക്കുന്ന ക്ലസ്റ്ററുകളുടെ എണ്ണം .

K- അല്ഗോരിതം എന്നത് വളരെ ലളിതമായ ക്ലസ്റ്ററിങ് ടെക്നിഷനാണ്, ഇത് മെഡിക്കൽ ഇമേജിംഗ്, ബയോമെട്രിക്സ്, അനുബന്ധ മേഖലകളിൽ സാധാരണയായി ഉപയോഗിക്കുന്നു. K- എന്നതിന്റെ പ്രയോജനം ക്ലസ്റ്ററിങ് നിങ്ങളുടെ ഡാറ്റയെ കുറിച്ച് (ആധികാരികമായി സൂപ്പർവൈസുചെയ്ത ഫോം ഉപയോഗിച്ച്) വിവരത്തെക്കുറിച്ചുള്ള ആൽഗോരിതം പഠിക്കാൻ പകരുന്നതിനേക്കാളുമൊക്കെ (നിങ്ങളുടെ സൂപ്പർവൈസുചെയ്ത ഫോം ഉപയോഗിച്ച്) അത് സൂചിപ്പിക്കുന്നു എന്നതാണ്.

1957 ൽ സ്റ്റുവർട്ട് ലോയ്ഡ് നിർദ്ദേശിച്ച സ്റ്റാൻഡേർഡ് അൽഗോരിതം ആദ്യം ലോയ്ഡ്സ് അൽഗോരിതം എന്നാണ് അറിയപ്പെട്ടിരുന്നത്. 1967 ൽ ജെയിംസ് മക്ക്യൂൺ എന്ന കെ-മെസ് എന്ന പദം ആദ്യമായി ഉപയോഗിച്ചു.

എങ്ങനെ k- അല്ഗോരിതം ഫങ്ഷനുകള് k

K - അല്ഗോരിതം എന്നത് ഒരു പരിണാമ പ്രക്രിയയാണ്, അതിന്റെ പ്രവര്ത്തന രീതിയില് നിന്ന് അതിന്റെ പേര് നേടിയെടുക്കുന്നു. K ഗ്രൂപ്പുകളിലേക്കു് അൽഗോരിതം ക്രാന്റുകൾ നിരീക്ഷിക്കുന്നു, ഇവിടെ k ഇൻപുട്ട് പരാമീറ്ററായി നൽകപ്പെടുന്നു. ഓരോ നിരീക്ഷണവും ക്ളസ്റ്ററിന്റെ സാന്നിധ്യം നിരീക്ഷണത്തിന്റെ സാമീപ്യത അനുസരിച്ച് ക്ലസ്റ്ററുകളാക്കി മാറ്റുന്നു. ക്ലസ്റ്ററിന്റെ അർത്ഥവും പിന്നീട് പരിഹരിച്ചിരിക്കുന്നു, പ്രക്രിയ വീണ്ടും ആരംഭിക്കും. അൽഗോരിതം പ്രവർത്തിക്കുന്നത് എങ്ങനെയെന്നത് ഇവിടെയുണ്ട്:

  1. അൽഗൊരിതം ആദ്യ ക്ളസ്റ്റർ കേന്ദ്രങ്ങൾ (അതായത്) ആയി കെ പോയിന്റുകളെ അവിശ്വസിച്ചു തെരഞ്ഞെടുക്കുന്നു.
  2. ഓരോ ലൊക്കേഷനും ഓരോ ക്ലസ്റ്റർ സെന്ററിനും ഇടയിലുള്ള യൂക്ലിഡിയൻ ദൂരം അടിസ്ഥാനമാക്കി അടച്ചിരിക്കുന്ന ക്ലസ്റ്ററിലേക്കാണ് ഡാറ്റാസെറ്റിലെ ഓരോ പോയിന്റും നൽകിയിരിക്കുന്നത്.
  3. ആ ക്ലസ്റ്ററിലെ പോയിന്റുകളുടെ ശരാശരി ആയി ഓരോ ക്ലസ്റ്റർ സെന്റും വീണ്ടും ക്രമീകരിച്ചിരിക്കുന്നു.
  4. ക്ലസ്റ്ററുകൾ ഒന്നിച്ചുവരുന്നത് വരെ ഘട്ടങ്ങളും 2 ഉം 3 ആവർത്തനങ്ങളും. സങ്കലനം നിർവ്വചനം അനുസരിച്ച് വ്യത്യസ്തമായി നിർവചിക്കാവുന്നതാണ്, എന്നാൽ സാധാരണഗതിയിൽ 2, 3 ഘട്ടങ്ങൾ ആവർത്തിക്കുന്നതിനുള്ള മാറ്റങ്ങൾ, അല്ലെങ്കിൽ ക്ലസ്റ്ററുകൾ നിർവചിക്കുന്നതിൽ ഭൗതിക വ്യത്യാസമുണ്ടാക്കാൻ പാടില്ല എന്നാണ് സാധാരണ അർത്ഥമാക്കുന്നത്.

ക്ലസ്റ്ററുകളുടെ എണ്ണം തിരഞ്ഞെടുക്കുന്നു

K എന്നതിലേക്കുള്ള പ്രധാന വൈകല്യങ്ങളിലൊന്ന് - ക്ലസ്റ്ററിങ് ആണ് നിങ്ങൾ ആൽഗോരിഥത്തിനു് ഒരു ഇൻപുട്ടായി ക്ലസ്റ്ററുകളുടെ സംഖ്യ നൽകേണ്ടത്. ഡിസൈൻ ചെയ്തതുപോലെ, ആൽഗോരിതം എന്നത് ക്ലസ്റ്ററുകളുടെ അനുഗുണനം നിർണ്ണയിക്കാനുള്ള ശേഷി അല്ല, കൂടാതെ ഇത് മുൻകൂട്ടി തിരിച്ചറിയാൻ ഉപയോക്താവിനെ ആശ്രയിച്ചിരിക്കുന്നു.

ഉദാഹരണത്തിന്, നിങ്ങൾ പുരുഷന്മാരോ സ്ത്രീകളോ ആയ ബൈനറി ലിംഗ സ്വത്വം അടിസ്ഥാനമാക്കിയുള്ള ഒരു കൂട്ടം ഗ്രൂപ്പുകളുണ്ടെങ്കിൽ, ഇൻപുട്ട് k = 3 ഉപയോഗിച്ച് k- means അൽഗോരിതം വിളിച്ചാൽ ജനങ്ങളെ മൂന്നു ക്ളസ്റ്ററുകളായി മാത്രം രണ്ടോ അല്ലെങ്കിൽ k = 2 ന്റെ ഇൻപുട്ട്, കൂടുതൽ പ്രകൃതി ഫിറ്റ് നൽകും.

അതുപോലെ, വ്യക്തികളുടെ ഒരു സംഘം സ്വദേശത്തെ അടിസ്ഥാനമാക്കിയാണ് എളുപ്പത്തിൽ കൂട്ടിച്ചേർത്തതെങ്കിൽ, നിങ്ങൾ k- 20 എന്ന ഇൻപുട്ട് k ആറ്ഗോർത്തിം എന്നു വിളിക്കുന്നു എങ്കിൽ, ഫലങ്ങൾ ഫലപ്രദമാകാൻ വളരെ സാമാന്യവൽക്കരിക്കപ്പെട്ടേക്കാം.

ഇക്കാരണത്താൽ, നിങ്ങളുടെ ഡാറ്റയ്ക്ക് അനുയോജ്യമായ മൂല്യത്തെ തിരിച്ചറിയാൻ കെ യുടെ വ്യത്യസ്ത മൂല്യങ്ങളുമായി പരീക്ഷിക്കാൻ ഇത് നല്ല ആശയമാണ്. യന്ത്ര വിജ്ഞാന പഠനത്തിനുള്ള നിങ്ങളുടെ അന്വേഷണത്തിൽ മറ്റ് ഡാറ്റാ മൈനിംഗ് അൽഗോരിതം ഉപയോഗിക്കുന്നത് നിങ്ങൾ പര്യവേക്ഷണം നടത്താം.