ഡേറ്റാ മൈനിങിൽ വർഗ്ഗീകരണം

കൂടുതൽ കൃത്യമായ പ്രവചനങ്ങൾക്കും വിശകലനങ്ങൾക്കും സഹായിക്കുന്നതിനായി ഡാറ്റ ശേഖരത്തിലേക്ക് വിഭാഗങ്ങൾ നൽകുന്ന ഒരു ഡാറ്റ മൈനിങ് ടെക്നിക് ആണ് വർഗ്ഗീകരണം. വളരെ ചിലപ്പോൾ ഒരു ഡെസിസ് ട്രീ എന്നും വിളിക്കപ്പെടുന്നു, വളരെ വലിയ ഡാറ്റാസെറ്റുകളെ വിശകലനം ചെയ്യുന്നതിനുള്ള പല രീതികളിൽ ഒന്നാണ് വർജിീകരണം.

എന്തുകൊണ്ട് ക്ലാസിഫിക്കേഷൻ?

"വലിയ ഡാറ്റ" ന്റെ ഇന്നത്തെ ലോകത്തിലെ വളരെ വലിയ ഡേറ്റാബേസുകൾ മാറിക്കൊണ്ടിരിക്കുന്നു. ഒന്നിലധികം ടെറാബൈറ്റ് ഡാറ്റയുള്ള ഒരു ഡാറ്റാബേസ് സങ്കലനം ചെയ്യുക - ഒരു ടെറാബൈറ്റ് ഡാറ്റയുടെ ഒരു ട്രില്യൻ ബൈറ്റാണ്.

ഓരോ ദിവസവും 600 ടെറാബൈറ്റുകൾ പുതിയ ഡാറ്റ ഉപയോഗിച്ച് ഫേസ്ബുക്കിൽ ക്രാഞ്ചാകുന്നു (2014 വരെ ഇത് അവസാനമായി റിപ്പോർട്ട് ചെയ്തിരുന്നു). വലിയ വിവരങ്ങളുടെ പ്രാഥമിക വെല്ലുവിളി അത് എങ്ങനെ മനസ്സിലാക്കണം എന്നതാണ്.

മാത്രമല്ല ഷീവർ വോളിയം മാത്രമല്ല പ്രശ്നം: വലിയ ഡാറ്റ വൈവിധ്യവും, ഘടനാപരമായതും, വേഗത്തിൽ മാറിക്കൊണ്ടിരിക്കുന്നതുമാണ്. ഓഡിയോ വീഡിയോ ഡാറ്റ, സോഷ്യൽ മീഡിയ പോസ്റ്റുകൾ, 3D ഡാറ്റ അല്ലെങ്കിൽ ജിയോസ്പേഷ്യൽ ഡാറ്റ എന്നിവ പരിഗണിക്കുക. ഇത്തരത്തിലുള്ള ഡാറ്റ എളുപ്പത്തിൽ വർഗ്ഗീകരിച്ചിട്ടില്ല അല്ലെങ്കിൽ സംഘടിപ്പിച്ചിട്ടില്ല.

ഈ വെല്ലുവിളി നേരിടാനായി, ഉപയോഗപ്രദമായ വിവരങ്ങൾ ലഭ്യമാക്കുന്നതിനുള്ള ഒരു ശ്രേണിയിലുള്ള ഓട്ടോമാറ്റിക്ക് രീതികൾ വികസിപ്പിച്ചെടുത്തിട്ടുണ്ട്.

എങ്ങനെയാണ് വർജിഫിക്സ് പ്രവർത്തിക്കുന്നത്?

ടെക്-സ്പീക്കിന് വളരെയധികം പ്രയാസമുണ്ടാകുമ്പോൾ, വർഗീകരിക്കൽ എങ്ങനെ പ്രവർത്തിക്കുന്നുവെന്ന് ചർച്ച ചെയ്യാം. ഒരു ചോദ്യത്തിന് ഉത്തരം നൽകാം, തീരുമാനമെടുക്കുക അല്ലെങ്കിൽ പെരുമാറ്റം പ്രവചിക്കുക എന്നതാണ് ഒരു കൂട്ടം ക്ലാസിഫിക്കേഷൻ നിയമങ്ങൾ സൃഷ്ടിക്കുക എന്നതാണ്. ആരംഭിക്കുന്നതിനായി, ഒരു കൂട്ടം പരിശീലന ഡാറ്റ വികസിപ്പിച്ചെടുക്കുന്നത്, ഒരു നിശ്ചിത ആട്രിബ്യൂട്ടുകളും അതുപോലെ തന്നെ സാധ്യതയുമാണ്.

ആ പദങ്ങളുടെ ആഘാതം അതിന്റെ നിഗമനത്തിൽ എങ്ങനെയാണ് എത്തുന്നതെന്ന് കണ്ടെത്തുകയെന്നതാണ് വർഗ്ഗീകരണ അൽഗോരിതം എന്ന ജോലി.

ഒരു ക്രെഡിറ്റ് കാർഡ് ഓഫർ സ്വീകരിക്കേണ്ടേക്കാവുന്ന ഒരു ക്രെഡിറ്റ് കാർഡ് കമ്പനിയെ നിശ്ചയിക്കാൻ ശ്രമിക്കാറുണ്ട്.

ഇത് അതിന്റെ പരിശീലന ഡാറ്റയുടെ ഭാഗമായിരിക്കാം:

പരിശീലന ഡാറ്റ
പേര് പ്രായം ലിംഗഭേദം വാർഷിക വരുമാനം ക്രെഡിറ്റ് കാർഡ് ഓഫർ
ജോൺ ഡോ 25 എം $ 39,500 ഇല്ല
ജേൻ ഡോ 56 എഫ് $ 125,000 അതെ

"Predictor" നിരകൾ പ്രായം , ലിംഗഭേദം , വാർഷിക വരുമാനം എന്നിവ "predictor ആട്രിബ്യൂട്ട്" ക്രെഡിറ്റ് കാർഡ് ഓഫറിൻറെ മൂല്യം നിർണ്ണയിക്കുന്നു. ഒരു പരിശീലന പരിപാടിയിൽ, പ്രവചകന്റെ ആട്രിബ്യൂട്ട് അറിയപ്പെടുന്നത്. Predictor ആട്രിബ്യൂട്ടിന്റെ മൂല്യം എങ്ങനെയാണ് എങ്ങനെയാണ് എത്തിച്ചേരുന്നത് എന്ന് തീരുമാനിക്കാൻ വർഗ്ഗീസ് അൽഗോരിതം ശ്രമിക്കുന്നു. മുൻകൂട്ടി നിശ്ചയിക്കുന്നതും തീരുമാനമെടുക്കുന്നതുമായി എന്തെല്ലാം ബന്ധങ്ങളാണ് നിലനിൽക്കുന്നത്? ഇത് ഒരു കൂട്ടം പ്രവചന നിയമങ്ങൾ, സാധാരണയായി ഒരു IF / THEN പ്രസ്താവന വികസിപ്പിച്ചെടുക്കും, ഉദാഹരണത്തിന്:

IF (പ്രായം> 18 അല്ലെങ്കിൽ വയസ്സ് <75) വാർഷിക വരുമാനം> 40,000 ക്രെഡിറ്റ് കാർഡ് ഓഫർ = അതെ

വ്യക്തമായും, ഇത് ഒരു ലളിതമായ ഉദാഹരണമാണ്, കൂടാതെ അൽഗോരിതം ഇവിടെ കാണിച്ചിരിക്കുന്ന രണ്ട് റിക്കോർഡുകളേക്കാൾ വലിയ ഡാറ്റ സാമ്പിൾ ആവശ്യമാണ്. കൂടാതെ, പ്രവചനാ നിയമങ്ങൾ ആട്രിബ്യൂട്ട് വിശദാംശങ്ങൾ പിടിച്ചെടുക്കുന്നതിനായി ഉപ-നിയമങ്ങൾ ഉൾപ്പെടെയുള്ള സങ്കീർണ്ണതകളായിരിക്കാം.

അടുത്തതായി, ആൽഗോരിതം നിരീക്ഷിക്കുന്നതിന് ഡാറ്റയുടെ "പ്രവചന സെറ്റ്" നൽകുന്നു, എന്നാൽ ഈ സെറ്റ് പ്രവചനം പ്രവണിയുടെ ആട്രിബ്യൂട്ട് (അല്ലെങ്കിൽ തീരുമാനം) ഇല്ല:

പ്രിഡിക്റ്റർ ഡാറ്റ
പേര് പ്രായം ലിംഗഭേദം വാർഷിക വരുമാനം ക്രെഡിറ്റ് കാർഡ് ഓഫർ
ജാക്ക് ഫ്രോസ്റ്റ് 42 എം $ 88,000
മേരി മുറെ 16 എഫ് $ 0

പ്രവചന നിയമങ്ങളുടെ കൃത്യതയെ വിലയിരുത്തുന്നതിന് ഈ പ്രവചന ഡാറ്റ സഹായിക്കുന്നു, കൂടാതെ പ്രോഗ്രാമുകൾ പ്രയോജനകരവും പ്രയോജനകരവും ആണെന്ന് ഡെവലപ്പർ പരിഗണിക്കപ്പെടുന്നതുവരെ, നിയമങ്ങൾ പിന്നീട് മെച്ചപ്പെടുത്തും.

വർഗ്ഗീകരണ ദിനങ്ങളുടെ ദിനം ദിനങ്ങൾ

ക്ലാസിഫിക്കേഷനും മറ്റ് ഡേറ്റാ ഖനറിങ്ങ് ടെക്നോളികളും ഉപഭോക്താക്കളിൽ നമ്മുടെ ദൈനംദിന അനുഭവത്തിന്റെ വളരെ പിന്നിലാണ്.

കാലാവസ്ഥ പ്രവചനങ്ങൾ മഴക്കാലമോ മഴയോ മേഘങ്ങളോ ആകുന്നതാണോ എന്ന് റിപ്പോർട്ട് ചെയ്യാൻ തരം തിരിക്കാനിടയുണ്ട്. വൈദ്യശാസ്ത്ര പ്രവണതകൾ പ്രവചിക്കാൻ മെഡിക്കൽ പ്രൊഫഷനെ ആരോഗ്യസ്ഥിതി വിശകലനം ചെയ്തേക്കാം. തരംതിരിവുള്ള ഒരു രീതി, ലളിതമായ ബെയ്സിയൻ, സ്പാം ഇമെയിലുകളെ തരം തിരിക്കാൻ വ്യവസ്ഥാപിതമായ സംഭാവ്യത ഉപയോഗിക്കുന്നു. വഞ്ചന കണ്ടെത്തലിൽ നിന്ന് ഉൽപ്പന്ന ഓഫറുകളിലേക്ക്, ഓരോ ദിവസങ്ങളും ഡാറ്റ വിശകലനം ചെയ്യുന്നതും പ്രവചനങ്ങൾ ഉളവാക്കുന്നതുമായ ദൃശ്യങ്ങൾ ദൃശ്യമാണ്.