സ്റ്റേറ്റ് ഓഫ് ലിനക്സ് വോയ്സ് റെക്ക്രീൻഷൻ

by ഗാരി ന്യൂവെൽ

ആമുഖം

ഞാൻ ലേഖനങ്ങളുടെ ഗവേഷണത്തിനായി ധാരാളം സമയം ചെലവഴിക്കുന്നു. ഒരു ലേഖനത്തിൽ വസ്തുനിഷ്ഠമായ വിഷയത്തെക്കുറിച്ച് ഞാൻ പലപ്പോഴും ചിന്തിക്കുന്നു, അല്ലെങ്കിൽ ട്രെയിൻ സ്റ്റേഷനിൽ നടക്കുമ്പോഴോ അല്ലെങ്കിൽ പൊതുവേ കേട്ടിട്ടോ?

ഒരു വൈകുന്നേരം എന്റെ ജോലിയിൽ നിന്ന് 1.5 മൈൽ സ്റ്റേഷനിൽ നടക്കുമ്പോൾ ഞാൻ "എനിക്ക് പറയാനുള്ളത് എന്താണെന്നത് രേഖപ്പെടുത്താൻ കഴിയുമോ, പിന്നീട് അത് തിരുത്താനും പിന്നീട് ഫോർമാറ്റ് ചെയ്യാനും കഴിയുന്ന ഒരു ടെക്സ്റ്റ് ഫയലിലേക്ക് സ്വയം ട്രാൻസ്ക്രൈബുചെയ്തിട്ടുണ്ടോ എന്ന് ഞാൻ ചിന്തിച്ചു" .

ലിനക്സിൽ കംപ്യൂട്ടറിലൂടെ കംപ്യൂട്ടർ ഉപയോഗിച്ച് റെക്കോർഡ് ചെയ്യൽ, ശബ്ദ തിരിച്ചറിയൽ, റിട്ടക്ഷൻ എന്നിവയ്ക്കുള്ള വിവിധ ഓപ്ഷനുകൾക്കായി ഞാൻ നിരവധി മണിക്കൂറുകൾ ചെലവഴിച്ചിട്ടുണ്ട്, ഫയൽ MP3 അല്ലെങ്കിൽ WAV ഫോർമാറ്റിൽ രേഖപ്പെടുത്തുകയും കമാൻഡ് ലൈനിലൂടെ ഇത് പരിവർത്തനം ചെയ്യുകയും Chrome ഉപയോഗിക്കുകയും ചെയ്യുക കൂടാതെ ആൻഡ്രോയിഡ് ആപ്ലിക്കേഷനുകളും.

ഈ ലേഖനം കഠിനാധ്വാനത്തിനു ശേഷം എന്റെ കണ്ടെത്തലുകളെ ഉയർത്തിക്കാട്ടുന്നു.

ലിനക്സ് ഐച്ഛികങ്ങൾ

ലിനക്സിൽ കമൻഡും വോയിസ് റെക്കഗ്നിഷൻ സോഫ്റ്റ്വെയറും കണ്ടെത്തുന്നത് എളുപ്പമായിരിക്കില്ല, ലഭ്യമായ ഓപ്ഷനുകൾ വെറും പുരോഗമനമല്ല.

സിദ്ധാന്തം, ജൂലിയസ്, സൈമൺ എന്നിവയുൾപ്പെടെയുള്ള ഓപ്ഷനുകളുടെ പട്ടിക ഈ വിക്കിപീഡിയക്കുണ്ട്.

ഞാൻ ഇപ്പോൾ ഡെബിയൻ ടെസ്റ്റിംഗിനെ അടിസ്ഥാനമാക്കിയുള്ള സ്പാർക്കി ലിനക്സ് ഉപയോഗിക്കുന്നു. റിപ്പോസിറ്ററികളിൽ ലഭ്യമായ ഒരേ വോക്കൽ തിരിച്ചറിയൽ പാക്കേജ് സ്ഫിങ്ക്സ് ആണെന്ന് എനിക്ക് പറയാൻ കഴിയും.

ഞാൻ ശ്രമിച്ചുതുടങ്ങിയ നേറ്റീവ് ലിനക്സ് പ്രോഗ്രാമുകൾ PocketSphinx ആയിരുന്നു, ഞാൻ WAV ഫയലുകൾ വാചകത്തിലേക്കും Freespeech-VR- ലും പരിവർത്തനം ചെയ്ത ഒരു പൈത്തൺ ആപ്ലിക്കേഷനാക്കി മാറ്റി, അത് മൈക്രോഫോണിൽ നിന്ന് നേരിട്ട് റെക്കോർഡുചെയ്യാൻ സഹായിക്കുന്നു.

വോയ്സ് നോട്ട് 2, ഡിക്നോനോട്ട് എന്നിവയുൾപ്പെടെ കുറച്ചു കൂടി Chrome ആപ്ലിക്കേഷനുകളും ഞാൻ പരീക്ഷിച്ചു.

ഒടുവിൽ ഞാൻ "ഡിക്റ്റേഷനും ഇമെയിൽ" ഉം "ടോക്ക് ആൻഡ് ടോക്ക് ഡിക്റ്റേവേഷന" Android ആപ്ലിക്കേഷനുകളും ശ്രമിച്ചു.

ഫ്രീക്സ്പീച്ച്- VR

Freespeech-VR സ്റ്റാൻഡേർഡ് റിപ്പോസിറ്ററികളിൽ ലഭ്യമല്ല. ഞാൻ ഇവിടെ നിന്നും ഫയലുകൾ ഡൗൺലോഡുചെയ്തു.

Zip ഫയലിന്റെ ഉള്ളടക്കം ഡൌൺലോഡ് ചെയ്ത് വേർതിരിച്ചശേഷം ഞാൻ ഒരു ടെർമിനൽ തുറന്നു അതിൽ ഫയലുകൾ വേർതിരിച്ചെടുത്ത ഫോൾഡറിലേക്ക് നാവിഗേറ്റ് ചെയ്തു.

Freespeech-vr തുറക്കാൻ താഴെ പറയുന്ന കമാൻഡ് ടൈപ്പ് ചെയ്തു.

സുഡോ പൈത്തൺ freespeech-vr

എനിക്ക് വളരെ ലളിതമായ ഒരു മൈക്രോഫോണും ഒരു വ്യക്തമായ തെക്കേ ഇംഗ്ലീഷ് ഉച്ചാരണവും ഉള്ള ഒരു ഹെഡ്ഫോണുകൾ ഉണ്ട്.

താഴെക്കാണുന്ന വാചകം freespeech-vr ജാലകത്തിൽ പ്രത്യക്ഷപ്പെട്ടു:

ഫലം ഒരു യൂണിറ്റ് നായ്ക്കളിലേക്ക് സ്വാഗതം ഇന്ന് ടെസ്റ്റ് കൈകാര്യം എങ്ങനെ ഉറപ്പാക്കാൻ ഒരു ടെക്സ്റ്റ് എപ്പോൾ ടെക്സ്റ്റ് ഒരു സിസ്റ്റം വഴി ഉപയോഗിക്കുന്നു സ്പീച്ച് ഞാൻ ഒരു ഓരോ മാത്രം ഒരു കാത്തിരിക്കുക പ്രത്യാശയും ഒരു കോഴികൾ പ്ലാൻ Ea ഇത് എന്റെ പേരിന്റെ അവസാനത്തെ ഫോൺ ആയിരിക്കുമ്പോഴാണ് ഫോൺ ഈ ഫോൺ വിളിക്കുന്നത്. ഹാൻഡ്സ്-സ്പെയ്സ് സ്ക്വയർ പോയിൻറിലേക്ക് ഒരു കേസുകൾ ഫോൺ ഉടനെ ഇത് ഒരു ഫോണുകൾ പങ്കിടും പരിശീലനം ലഭിച്ചവയും ഉപകരണങ്ങളും സംസാരിക്കുമ്പോൾ ഉപയോഗിക്കുക നിങ്ങൾ പൂർത്തിയാകുമ്പോൾ പറയുക ഒരു ഉപയോഗ ഫയൽ അവസാനം കഥ എ, ഒപ്പം ഒരു by the By എങ്ങനെയാണ് ഈ ലിനക്സ് എത്രത്തോളം വിജയിച്ചു?

ഞാൻ ഇത് നായ്ക്കളുടെ വെബ് സൈറ്റിന്റെ ഭാഗമല്ലെന്നും അത് ഗോൾഡൻ കോക്കനുകൾക്കൊന്നും ഒന്നും ചെയ്യാൻ കഴിയുന്നില്ലെന്നും ഞാൻ ഇപ്പോൾ പറയാൻ ആഗ്രഹിക്കുന്നു. ശബ്ദ തിരിച്ചറിവിനെക്കുറിച്ചുള്ള സോഫ്റ്റ്വെയർ ഉപയോഗിക്കുന്ന പ്രക്രിയയെ ഞാൻ വിശദീകരിക്കാൻ ശ്രമിച്ചു.

വ്യത്യസ്തമായ പിച്ച്, വേഗത ഉൾപ്പെടെ ചില സോഫ്റ്റ്വെയറുകൾ ഞാൻ ശ്രമിച്ചുവെങ്കിലും കൃത്യത കുറവായിരുന്നു.

PocketSphinx

PocketSphinx ന് ഒരു WAV ഫയൽ എടുത്ത് കമാൻഡ് ലൈൻ ഉപയോഗിച്ച് വാചകത്തിലേക്ക് പരിവർത്തനം ചെയ്യാൻ കഴിയും.

ഡെബിയൻ റിപ്പോസിറ്ററികളിലൂടെ PocketSphinx ലഭ്യമാണ്, കൂടാതെ മിക്ക വിതരണങ്ങളിലും ഇത് ലഭ്യമാകുകയും വേണം.

ഞാൻ പോക്കറ്റ്സ്ഫിൻസുമായി കണ്ടെത്തിയ പ്രധാന പ്രശ്നം, ശബ്ദ തിരിച്ചറിവു, ഭാഷാ ഫയലുകൾ, നിഘണ്ടുകൾ, സംവിധാനത്തെ എങ്ങനെ പരിശീലിപ്പിക്കൽ എന്നിവയെക്കുറിച്ച് നിങ്ങൾക്ക് ഒരു ഡിഗ്രി വേണം.

PocketSphinx ഇൻസ്റ്റാൾ ചെയ്തശേഷം നിങ്ങൾ CMU Sphinx website ലേക്ക് പോയി സാധ്യമായത്ര വിവരങ്ങൾ വായിക്കണം. നിങ്ങൾ ഇനിപ്പറയുന്ന മാതൃക ഫയൽ ഡൗൺലോഡ് ചെയ്യണം.

യുഎസ് ഇംഗ്ലീഷ് ജനറിക് ഭാഷ മോഡൽ

(നിങ്ങൾ ഒരു ഇംഗ്ലീഷ് ഇംഗ്ലീഷ് സ്പീക്കർ അല്ല എങ്കിൽ നിങ്ങൾക്ക് അനുയോജ്യമായ ഭാഷ മാതൃക തിരഞ്ഞെടുക്കുക).

സാധാരണയായി പോക്കറ്റ് സ്ഫിൻക്സ്, സ്ഫിൻക്സ് എന്നിവയുടെ ഡോക്യുമെന്റേഷൻ മനസ്സിലാക്കാൻ പ്രയാസമാണ്. പക്ഷേ, നിഘണ്ടുക്കളിൽ നിന്നുപയോഗിക്കുന്ന നിഘണ്ടുവിൽ നിന്നും സാധ്യമായ വാക്കുകളുടെയും ഭാഷാ മോഡലുകളുടെയും നിർദേശങ്ങൾ സാധ്യമാണ്.

PocketSphinx പരീക്ഷിക്കാൻ ഞാൻ എന്റെ സ്വന്തം വോക്കൽ ഒരു റെക്കോർഡിംഗ് ഉപയോഗിച്ചു, അൽ പുഷിനിയുടെ സ്നിപ്പെറ്റ് "ഡെവിൾസ് അഡ്വക്കെറ്റ്" ൽ നിന്നും ഒരു സ്നിപ്പറ്റ് "മോർഗൻ ഫ്രീമാൻ" യിൽ നിന്നും ഒരു സ്നിപ്പെറ്റ് ഉപയോഗിച്ചു. വ്യത്യസ്തമായ ശബ്ദങ്ങൾ പരീക്ഷിച്ചു നോക്കിയതായിരുന്നു ഞാൻ. മോർഗൻ ഫ്രീമാൻ എന്നപോലെ ഒരു കഥ പറയാൻ ആരുമില്ല. ആരും അൽ പാസിനൊപ്പം വരില്ല.

PocketSphinx പ്രവർത്തിക്കാൻ ഇത് ഒരു WAV ഫയൽ ആവശ്യമാണെന്നും അത് ഒരു പ്രത്യേക ഫോർമാറ്റിലായിരിക്കണം. ഫയൽ MP3 ഫോർമാറ്റിൽ ആണെങ്കിൽ അതിനെ fwmpeg കമാൻഡ് ഉപയോഗിച്ച് WAV ഫോർമാറ്റിലേക്ക് പരിവർത്തനം ചെയ്യുക:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

PocketSphinx പ്രവർത്തിപ്പിക്കാൻ താഴെ പറയുന്ന കമാൻഡ് ഉപയോഗിക്കുക:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-en-us.lm 2> voice2.log

pocketsphinx_continuous ഒരു WAV ഫയൽ എടുക്കുകയും ടെക്സ്റ്റിലേക്ക് അതിനെ മാറ്റുകയും ചെയ്യുന്നു.

"Cmusphinx-5.0-en-us.lm" എന്ന ഭാഷാ മോഡൽ ഉപയോഗിച്ച് "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" എന്നറിയപ്പെടുന്ന ഒരു നിഘണ്ടു ഫയൽ ഉപയോഗിക്കുമെന്ന് pocketsphinx ൽ പറഞ്ഞിരിക്കുന്ന നിർദ്ദേശത്തിൽ പറയുന്നു. ടെക്സ്റ്റ് പരിവർത്തനം ചെയ്യുന്ന ഫയൽ വോയിസ് 2.വാവ് (എന്റെ ശബ്ദത്തോടെ ഞാൻ സൃഷ്ടിച്ച ഒരു റെക്കോർഡിംഗ് ആണ്) എന്ന് വിളിക്കപ്പെടുന്നു. അവസാനമായി, 2> എല്ലാ verboose ഔട്ട്പുട്ടുകളും നിങ്ങൾക്ക് വയിക്കാൻ ആവശ്യപ്പെടുന്ന ഒരു ഫയലിലേക്ക് ആവശ്യമില്ല. പരീക്ഷയുടെ യഥാർത്ഥ ഫലങ്ങൾ ടെർമിനൽ വിൻഡോയ്ക്കുള്ളിൽ കാണിക്കുന്നു.

എന്റെ ശബ്ദം ഉപയോഗിക്കുന്ന ഫലങ്ങൾ ചുവടെ ചേർക്കുന്നു:

ഒരു മിനിറ്റിനുള്ളിൽ തിരിച്ചറിയൽ സോഫ്റ്റ്വെയറിനെ പറ്റി നന്നായി ബോധ്യപ്പെട്ടു എന്നതിനെക്കുറിച്ചാണ് ഈ ആഴ്ചയിലെ വിഷയം അറിയാൻ പാടില്ല

ഫലങ്ങൾ freespeech-vr പോലെ പോലെ ഭീകരമല്ല എങ്കിലും ഇപ്പോഴും ഉപയോഗിക്കാൻ കഴിയില്ല. ഞാൻ അൽ പുഷിനൊപ്പം പോക്കറ്റ്സ്ഫിൻക്സ് ഉപയോഗിച്ച് ശ്രമിച്ചുവെങ്കിലും ഇത് ഫലമൊന്നുമുണ്ടായില്ല.

ഒടുവിൽ ഞാൻ "ബ്രൂസ് സർവശക്തി" എന്ന സിനിമയിൽ നിന്ന് മോർഗൻ ഫ്രീമാന്റെ ശബ്ദത്തെ ഞാൻ ഉപയോഗിച്ചു.

000000000: ഞങ്ങൾ അവളിൽ വാഴും
000000001: ആ ദിവസം എന്നത് കടുത്ത വേനലാണ്, ഇപ്പോൾ ഞാൻ ജീവനോടെയിരിക്കയാണ്.
000000002: എലിവേറ്ററിൽ ഒരു ബേസ്ബോൾ മണിയായി ഒരു താക്കോൽ ആരാണ് അല്ലെങ്കിൽ ജീവിതത്തിൽ എന്തു ചെയ്യണമെന്ന് അറിയുക
000000003: വീണ്ടെടുക്കുന്നവ എന്തെല്ലാമാണ്
000000004: അവർ അത് എഴുതിയില്ല
000000005: അവ എന്നെ പുറത്തേക്ക് വലിച്ചിടുന്നു
000000006: നിങ്ങൾ നിയമങ്ങളായിരിക്കണം
000000007: ഞാൻ നിന്നെ പ്രതീക്ഷിക്കുന്നു
000000008: അവൻ ഇവിടെ പഠിച്ചത് കൊലയാളി ക്രിസ്തുമസ് പാർട്ടി ആയിരുന്നു
000000009: ഓ എഴുതുവാൻ ഒരു വഴി തിരിക്കുക. കണ്ണ് എപ്പോഴും കുറേ ധരിക്കുന്നുവെന്ന് ഞാൻ കരുതി
000000010: പ്രശ്നം ഏകീകൃതമായതുപോലെ, ഞാൻ ലോകത്തിൽ ഞാൻ ആണെന്ന് ഞാൻ വിചാരിച്ചിട്ടല്ലാതില്ലെന്നു പറഞ്ഞപ്പോൾ ആ നിമിഷത്തിൽ എനിക്ക് അവരെ നല്ലരീതിയിൽ നൽകില്ല ഞാൻ വീടിനെ ഞാൻ കണ്ടിട്ടുണ്ട്
000000011: ഇത് ഉള്ള ഒരു അച്ഛൻ
000000012: ഇത് എന്തിനെ കുറിച്ചാണ്
000000013: അത് നൽകി
000000014: നിങ്ങൾ ഒരുപാട് വീഴാത്ത എല്ലാം
000000015: വലതുവശത്ത്
000000016: എനിക്കായി മാത്രം പിടിക്കുക
000000017: ഞാൻ ഒരു അപ്രതീക്ഷിതമായിരുന്നു എങ്കിൽ അവർ ഒരു ഉണ്ടെങ്കിൽ ആ ഒരു പോകുന്നത് ആ ഒരു വിവാഹിതനായി എല്ലാ ആയിരുന്നു ഞങ്ങൾ പോലെ ഇഷ്ടമില്ലാത്ത പോലെ

എന്റെ ടെസ്റ്റ് ശാസ്ത്രീയമായി കരുതാനാവില്ല, ഞാൻ സോഫ്റ്റ്വെയർ ശരിയായി ഉപയോഗിക്കുന്നില്ലെന്ന് PocketSphinx ന്റെ നിർമ്മാതാക്കൾ പ്രസ്താവിക്കുന്നു. മെച്ചപ്പെട്ട നിഘണ്ടുക്കളും ഭാഷാ ഫയലുകളും സൃഷ്ടിക്കാൻ ഉപയോഗിക്കുന്ന ശബ്ദ പരിശീലനം എന്ന സാങ്കേതികവിദ്യയും ഉണ്ട്.

സ്റ്റാൻഡേർഡ് ദൈനംദിന ഉപയോഗത്തിന് ഇത് വളരെ ബുദ്ധിമുട്ടാണ് എന്നതാണ് എന്റെ അഭിപ്രായം.

വോയ്സ് നോട്ട് II

VoiceNote II എന്നത് Google Voice recognition API ഉപയോഗിക്കുന്ന ഒരു Chrome ആപ് ആണ്.

നിങ്ങൾ Chrome അല്ലെങ്കിൽ Chromium ബ്രൗസറാണ് ഉപയോഗിക്കുന്നതെങ്കിൽ, വെബ് സ്റ്റോർ വഴി VoiceNote II ഇൻസ്റ്റാൾ ചെയ്യാൻ നിങ്ങൾക്ക് കഴിയും.

വോയ്സ് നോട്ട് II ലെ ഐക്കണുകൾ വിചിത്രമായ രീതിയിൽ രൂപപ്പെടുത്തിയിട്ടുണ്ട്, കാരണം വിൻഡോയുടെ അടിയിൽ ഭാഷ സജ്ജീകരിക്കേണ്ടതും എഡിറ്റ് ബട്ടൻ ചുവടെയുള്ളതുമാണ്, എന്നിരുന്നാലും റെക്കോർഡ് ബട്ടൺ മുകളിൽ വലത് സ്ഥാനത്താണ്.

നിങ്ങൾ ആദ്യം ചെയ്യേണ്ടത് ഒരു ഭാഷ തിരഞ്ഞെടുക്കുകയാണ്, ഇത് ലോക ഐക്കണിൽ ക്ലിക്കുചെയ്തുകൊണ്ട് ഇത് നേടാം.

റെക്കോർഡിംഗ് ആരംഭിക്കുന്നതിന്, മൈക്രോഫോൺ ഐക്കൺ ക്ലിക്കുചെയ്ത് നിങ്ങളുടെ മൈക്രോഫോണിലേക്ക് സംസാരിക്കുന്നത് ആരംഭിക്കുക. മികച്ച ഫലങ്ങൾ ലഭിക്കുന്നതിന് സോഫ്റ്റ്വെയർ എന്നെന്നേക്കുമുള്ളതായി കാണപ്പെട്ടു, അതിനാൽ സോഫ്റ്റ്വെയറുകൾ നിലനിർത്താനുള്ള അവസരം ലഭിക്കുമായിരുന്നു.

ഫലങ്ങൾ താഴെ കാണുന്നത് പോലെ മികച്ച അല്ല:

ഹലോ, കണക്റ്റുചെയ്യാൻ സ്വാഗതം. വോയ്സ് ടു ടെക്സ്റ്റ് കണ്വേര്ഷന് ഡൂനേം ഫാരെല് റീസെഷന് 2008 നെക്കുറിച്ചുള്ള സംഭാഷണങ്ങള്, ഡീബേം ഫര്റെല് മാസ്റ്റര് 2008 എന്ന മാഗസിനായുള്ള ലേഖനങ്ങള്, 2014 ഡെബിയന് അല്ലെങ്കില് റൈമിക്സ് പാക്കേജ് കാണിക്കുന്നതിനുള്ള വോയിസ് ടെക്സ്റ്റ് ആഡ്നെന് മികച്ച രീതിയില് പിന്തുണയ്ക്കുന്നതായി ഞാന് പറഞ്ഞു. നിങ്ങൾ എഡിൻബർഗ് ഫ്രാൻസിൽ ജർമനിലെ തിരഞ്ഞെടുത്തത് കടൽ മൈതാനത്തിൽ യുക്തമായ ഒരു രാജ്യാന്തര ഘടനയിൽ നിങ്ങളുടെ സമയം നിങ്ങൾ ഒരു ടെക്സ്റ്റ് ഫയലായി ടെക്സ്റ്റ് ഫയൽ ആയി എഴുതിക്കൊണ്ടിരിക്കുന്നു, അതിലൂടെ ഇംഗ്ലീഷിൽ നിന്ന് ഇംഗ്ലീഷിൽ നിന്നും വളരെ സാധാരണമായ ഇംഗ്ലീഷ് ആക്സന്റ്, പക്ഷെ ഞാൻ ടോറന്റ് ലോംഗ് യഥാര്ത്ഥ ഡോക്യുമെന്റുമൊത്ത് നിങ്ങൾ ലിസ്റ്റിൻഫേയ്റ്റുകൾക്കായി നിങ്ങളെ അഴിച്ചുവെക്കുന്ന തെറ്റുകൾക്ക് നിങ്ങൾക്ക് കാണാം

സിദ്ധാന്തം

ഡിക്നോാനോറ്റ് മറ്റൊരു Chrome ആപ് ആണ്, അത് കൗശലപൂർവ ഉദ്ദേശ്യങ്ങൾക്കായി ഉപയോഗിക്കുകയും കൂടുതൽ അവബോധജന്യമാവുകയും ചെയ്തെങ്കിലും ഫലം വോയ്സ് നോട്ട് II നെക്കാൾ മികച്ചതായിരുന്നില്ല.

പുതിയ രേഖകൾ സൃഷ്ടിക്കുന്നതിൽ നിന്നും നിങ്ങളെ തടയുന്ന ഡിക്റ്റോനേറ്റിന്റെ ഡെമോ പതിപ്പ് മാത്രമേ ഞാൻ ഉപയോഗിച്ചിട്ടുള്ളൂ, പക്ഷേ എഡിറ്ററിലുള്ള വാചകത്തെക്കുറിച്ച് സംസാരിക്കാൻ ഇത് നിങ്ങളെ അനുവദിക്കുന്നു. എനിക്ക് ശബ്ദ തിരിച്ചറിവിനെ പരീക്ഷിക്കാൻ കഴിഞ്ഞു, പക്ഷേ ഫലങ്ങൾ വോയ്സ് നോട്ട് രണ്ടാമത്തേതിനേക്കാൾ മികച്ചതായിരുന്നു, അതിനാൽ പ്രോ ഫോണിനായി ഞാൻ സൈൻ അപ്പ് ചെയ്തില്ല.

വിവരണവും മെയിലും

തദ്ദേശീയ Google ശബ്ദ തിരിച്ചറിവിനുള്ള API ഉപയോഗിക്കുന്ന ഒരു Android ആപ്ലിക്കേഷനാണ് "ഡെക്ടെേഷൻ ആന്റ് മെയിൽ".

"ഡിക്റ്റേവേഷൻ ആൻഡ് മെയിൽ" നിന്നുള്ള ഫലങ്ങൾ ഈ ഘട്ടത്തിൽ ശ്രമിച്ച മറ്റേതെങ്കിലും പ്രോഗ്രാമിനെക്കാളും മികച്ചതാണ്.

ഹലോ സ്വാഗതം ലിനക്സിലേക്ക് സ്വാഗതം

"കരചതുരവും മെയിലും" എന്നതുപയോഗിച്ച നുറുങ്ങ് പതുക്കെ സംസാരിക്കുന്നതും അതുപോലും നിങ്ങൾക്കൊരു രചനാപ്രാപ്തിയുമാണ്.

നിങ്ങൾ സംസാരിച്ചു കഴിഞ്ഞ ശേഷം നിങ്ങൾക്ക് സ്വയം ഫലങ്ങൾ ഇമെയിൽ ചെയ്യാൻ കഴിയും.

ടോക്ക് ആൻഡ് ടോക്ക് ഡിക്റ്റേവേഷണം

ഞാൻ ശ്രമിച്ച മറ്റ് Android അപ്ലിക്കേഷൻ "ടോക്ക് ആൻഡ് ടോക്ക് Dictation" ആയിരുന്നു.

ഈ ആപ്ലിക്കേഷനുമായുള്ള ഇന്റർഫേസ് കുലത്തിന്റെ ഏറ്റവും മികച്ചതാണ്, ശബ്ദ തിരിച്ചറിവു വളരെ നന്നായി പ്രവർത്തിച്ചു. കത്തയച്ചത് രേഖപ്പെടുത്തുന്നതിന് ശേഷം ഞാൻ മെയിലുകൾ ഉൾപ്പെടെയുള്ള പല വഴികളിലൂടെയും ഫലങ്ങൾ പങ്കുവയ്ക്കാൻ കഴിഞ്ഞു.

ഇന്ന് speech- ലേക്ക് ടെക്സ്റ്റിലേക്ക് പരിവർത്തനം ചെയ്യുന്നതിനെക്കുറിച്ച് ഞങ്ങൾ സംസാരിക്കുന്നു

മുകളിലുള്ള വാചകം നിങ്ങൾക്ക് കാണാൻ കഴിയുന്നതുപോലെ വ്യക്തമാണ്. സാവധാനത്തോടെ സംസാരിക്കുന്നു താക്കോലാണ്.

സംഗ്രഹം

ശബ്ദ തിരിച്ചറിവിനെക്കുറിച്ചും പ്രത്യേകമായി കേട്ടെഴുതിയതുമായി ബന്ധപ്പെട്ട് പ്രാദേശിക ലിനക്സിന് ചില മാർഗ്ഗങ്ങളുണ്ട്. Google വോയ്സ് API ഉപയോഗിക്കുന്ന ചില അപ്ലിക്കേഷനുകൾ ഉണ്ട്, എന്നാൽ അവ റിപ്പോസിറ്ററികളിലായി പട്ടികയിൽ ചേർത്തിട്ടില്ല.

ChromeOS അപ്ലിക്കേഷനുകൾ അൽപം മെച്ചപ്പെട്ടവയാണ്, പക്ഷേ എന്റെ Android ഫോൺ ഉപയോഗിച്ചുകൊണ്ട് ഏറ്റവും മികച്ച ഫലങ്ങൾ നേടി. ഒരുപക്ഷേ ഫോണിന് മികച്ച മൈക്രോഫോണുകൾ ഉണ്ടായിരിക്കാം, അതിനാൽ ശബ്ദ തിരിച്ചറിവിന്റെ സോഫ്റ്റ്വെയർ പരിവർത്തനത്തിന് മെച്ചപ്പെട്ട സാധ്യത നൽകുന്നു.

വോയ്സ് റെക്കോർഡിന് ശരിക്കും ഉപയോഗപ്രദമാകുമെന്നത് കുറച്ചു സജ്ജീകരണത്തോടൊപ്പം കൂടുതൽ അവബോധജന്യമാക്കേണ്ടതുണ്ട്. ഭാഷാ മോഡലുകളും നിഘണ്ടുക്കളുമൊക്കെ ഉപസംഹരിക്കപ്പെടാൻ നിങ്ങൾക്ക് ബുദ്ധിമുട്ടായിരിക്കേണ്ടതില്ല.

ലോകമെമ്പാടുമുള്ള നൂറുകണക്കിന് ഭാഷകളെക്കുറിച്ച് ആശങ്കപ്പെടാത്ത ഒരു രാജ്യത്ത് ഓരോ പ്രദേശത്തും വ്യത്യസ്ഥമായ വോയ്സ് റെക്കോർഡുകളാണുള്ളതുകൊണ്ട്, ശബ്ദ തിരിച്ചറിവിന്റെ മുഴുവൻ ചിത്രവും വളരെ വെല്ലുവിളിയാണെന്നത് ഞാൻ മനസ്സിലാക്കുന്നു.

അതിനാൽ, എന്റെ വിശകലനം, ശബ്ദ തിരിച്ചറിവിന്റെ സോഫ്റ്റ്വെയർ ഇപ്പോഴും പുരോഗതിയിലാണ്.