ಡಿಜಿಟಲ್ ಲೋಕದಲ್ಲಿ ನಮ್ಮ ಭಾಷೆ
“ನರೇಂದ್ರ ಮೋದಿಯವರು ವಾರಣಾಸಿಗೆ ಭೇಟಿ ನೀಡಿದರು”
“ಇವತ್ತು ಮಳೆ ಬಂದಿದೆ”
ದೈನಂದಿನ ಜನಜೀವನದಲ್ಲಿ ನಾವು ಪ್ರತಿನಿತ್ಯ ಇಂತಹ ಹಲವಾರು ವಾಕ್ಯಗಳನ್ನು ಓದುತ್ತಿರುತ್ತೇವೆ ಅಥವಾ ಕೇಳುತ್ತಿರುತ್ತೇವೆ. ಇದು ಮಾಹಿತಿಯುಗ. ಈ ಮಾಹಿತಿಯ ಪ್ರಮುಖ ಅಂಗ ಪಠ್ಯರೂಪದಲ್ಲಿದೆ ಅಂದರೆ ವಾಕ್ಯಗಳು. ವಾಕ್ಯಗಳು ಪದಗಳಿಂದಾಗಿವೆ. ಈ ವಾಕ್ಯಗಳನ್ನು ನಮ್ಮ ಮೆದುಳು ಸಹಜವಾಗಿಯೇ ಪದಗಳಾಗಿ ವಿಂಗಡಿಸಿ ಅವುಗಳ ಅರ್ಥವನ್ನು ವಿಶ್ಲೀಷಿಸುತ್ತದೆ. ಎಲ್ಲ ವಾಕ್ಯಗಳನ್ನು ಓದಿ ಇಡಿಯ ಲೇಖನದ ಒಟ್ಟು ಸಾರಾಂಶವನ್ನು ಮೆದುಳು ಗ್ರಹಿಸುತ್ತದೆ. ಈ ಪ್ರಕ್ರಿಯೆ ಮಾನವರಲ್ಲಿ ಸಹಜವಾಗಿ ನಡೆಯುವ ಕ್ರಿಯೆ. ಇದನ್ನೇ ಗಣಕ ಬಳಸಿ ಮಾಡುವಂತಿದ್ದರೆ? ಮಾಹಿತಿ ತಂತ್ರಜ್ಞಾನದ ಈ ವಿಭಾಗಕ್ಕೆ ಸಹಜಭಾಷಾ ಸಂಸ್ಕರಣೆ (Natural Language Processing) ಎಂಬ ಹೆಸರಿದೆ.
ಯಂತ್ರಗಳೇ ಭಾಷೆಯನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಂತಿದ್ದರೆ ಒಳ್ಳೆಯದಲ್ಲವೇ? ಉದಾಹರಣೆಗೆ ಬ್ಯಾಂಕಿನ ಎಟಿಎಂ ಯಂತ್ರದ ಮುಂದೆ ನಿಂತು ಅದು ತಾನಾಗಿಯೇ ನಿಮ್ಮನ್ನು ಗುರುತಿಸಿ ನಿಮ್ಮ ಮಾತುಗಳನ್ನು ಅರ್ಥಮಾಡಿಕೊಂಡು ಹಣ ನೀಡುವುದು. ಗಣಕಕ್ಕೆ ಮಾತುಗಳ ಮೂಲಕವೇ ಆದೇಶ ನೀಡಬಹುದು. ಲೈಟ್ ಆನ್ ಮಾಡು ಎಂದರೆ ಬಲ್ಬ್ ಹೊತ್ತಿಕೊಳ್ಳುತ್ತದೆ. ಒಂದು ಭಾಷೆಯಿಂದ ಇನ್ನೊಂದು ಭಾಷೆಗೆ ಅನುವಾದ ಮಾಡಬಹುದು. ಹೀಗೆ ಈ ಸಹಜಭಾಷಾ ಸಂಸ್ಕರಣೆಯ ಕ್ಷೇತ್ರದ ಉಪಕಾರಗಳು ಬಹಳಷ್ಟಿವೆ.
ತೀನಂಶ್ರೀಯವರ ವ್ಯಾಕರಣ ಪುಸ್ತಕ ತೆರೆದು ನೋಡಿ. ಎಲ್ಲ ವ್ಯಾಕರಣಗಳೂ ಪ್ರಾರಂಭವಾಗುವುದು ವಾಕ್ಯಗಳನ್ನು ಪದಗಳಾಗಿ ವಿಂಗಡಿಸುವಲ್ಲಿಂದ. “ಬಸವ ಬಂದನು” ಎಂಬ ವಾಕ್ಯದಲ್ಲಿ ಎರಡು ಪದಗಳಿವೆ. ಮೊದಲನೆಯ “ಬಸವ” ಎಂಬ ಪದ ನಾಮಪದ. ಎರಡನೆಯ “ಬಂದನು” ಎಂಬುದು ಕ್ರಿಯಾಪದ. ಇದನ್ನು ನಾವು ಶಾಲೆಯಲ್ಲಿ ಕಲಿತಿದ್ದೇವೆ. ಇದನ್ನೇ ಗಣಕ ಮೂಲಕ ಮಾಡುವುದು ಸಹಜಭಾಷಾ ಸಂಸ್ಕರಣೆಯ ಪ್ರಥಮ ಹಂತ. ಇದು ಹೇಳಿದಷ್ಟು ಸುಲಭವಲ್ಲ. ಮೊದಲನೆಯದಾಗಿ ಗಣಕದಲ್ಲಿ ಲಕ್ಷಗಟ್ಟಲೆ ಪದಗಳ ಕಣಜವಿರಬೇಕಾಗುತ್ತದೆ. ಈ ಪದಗಳು ಕೇವಲ ಒಂದು ದತ್ತಸಂಚಯದಲ್ಲಿ (database) ಇದ್ದರೆ ಸಾಲದು. ಪ್ರತಿ ಪದಕ್ಕೂ ಅದರ ವ್ಯಾಕರಣಸ್ವರೂಪದ ವಿಂಗಡಣೆ ಆಗಿರಬೇಕು. ಉದಾಹರಣೆಗೆ ಭೀಮ <ನಾಮಪದ>, ಓಡು <ಕ್ರಿಯಾಪದ>, ಮರ <ನಾಮಪದ>,.. ಇಂತಹ ಸಂಗ್ರಹಕ್ಕೆ corpus ಅರ್ಥಾತ್ ಪಠ್ಯಕಣಜ ಎನ್ನುತ್ತಾರೆ. ಪದಗಳ ವ್ಯಾಕರಣಸ್ವರೂಪದ ವಿಂಗಡಣೆ ಅಥವಾ ಸರಳವಾಗಿ ಹೇಳುವುದಾದರೆ ಪದವಿಂಗಡಣೆಗೆ part of speech tagging ಎನ್ನುತ್ತಾರೆ. ಈ ಮೊದಲ ಹಂತದ ಕ್ರಿಯೆಗೆ ಹಲವಾರು ತಂತ್ರಾಂಶಗಳು ಲಭ್ಯವಿವೆ.
ಇಂಗ್ಲಿಶ್ ಭಾಷೆಯಲ್ಲಿ ಇದು ಅಷ್ಟು ಕಷ್ಟವಿಲ್ಲ. ಕನ್ನಡದ ಸಂದರ್ಭದಲ್ಲಿ ಇದು ತುಂಬ ಕ್ಲಿಷ್ಟ. ಇದಕ್ಕೆ ಕಾರಣ ಸಂಧಿವಿಂಗಡಣೆ. “ಬಹುಪಯೋಗಿಯಾಗಿದೆ” ಎಂಬ ಪದವನ್ನು ಬಹು + ಉಪಯೋಗಿ + ಆಗಿದೆ ಎಂಬುದಾಗಿ ವಿಂಗಡಿಸಬೇಕು. ಈ ಮೂಲಪದಗಳು ಸೇರಿ ಸಂಯುಕ್ತಪದವಾಗುವ ಸೂತ್ರವು ಗಣಕದಲ್ಲಿ ಇರಬೇಕು. ಇದರ ಜೊತೆ ವಿಭಕ್ತಿ ಪ್ರತ್ಯಯಗಳ ಸೂತ್ರ ಸಿದ್ಧವಿರಬೇಕು. ಯಾವ ಪದ ಎಲ್ಲಿ ಕೊನೆಗೊಳ್ಳುತ್ತದೆ ಯಾವ ಪದ ಎಲ್ಲಿ ಪ್ರಾರಂಭವಾಗುತ್ತದೆ, ಯಾವ ಸಂದರ್ಭದಲ್ಲಿ ಯಾವ ಸಂಧಿಯ ಸೂತ್ರ ಬಳಸಬೇಕು ಎಂಬಿತ್ಯಾದಿ ಅನುಮಾನಗಳನ್ನು ಪರಿಹರಿಸಬೇಕು. ಅನುಮಾನಾಸ್ಪದವಾದ ಹಲವಾರು ಸಂದರ್ಭಗಳನ್ನು ಮೊದಲೇ ಪಠ್ಯಕಣಜದಲ್ಲಿ ದಾಖಲಿಸಿಟ್ಟಿದ್ದರೆ ಒಳ್ಳೆಯದು. ಈ ರೀತಿ ಪದವಿಂಗಡಣೆಯನ್ನು ಒಂದು ಹಂತದಲ್ಲಿ ತಂತ್ರಾಂಶದ ಮೂಲಕ ಮಾಡಿಸಿ ಅನುಮಾನಾಸ್ಪದವಾದವುಗಳನ್ನು ನಂತರ ಮನುಷ್ಯರೇ ಮಾಡಬೇಕು. ಹೀಗೆ ಮಾಡುವಾಗ ತಂತ್ರಾಂಶವನ್ನು “ಕಲಿಯುವ” ಸ್ಥಿತಿಯಲ್ಲಿಟ್ಟುಕೊಂಡು ಮುಂದೆ ಇದೇ ರೀತಿಯ ಸಂದರ್ಭ ಬಂದಾಗ ಈ ಕಲಿಕೆಯ ಅನುಭವವನ್ನು ಬಳಸಬೇಕು.
ಈ ರೀತಿ ವ್ಯಾಕರಣಸ್ವರೂಪ ನಿಗದಿಯನ್ನು ನಮ್ಮ ಭಾಷೆಗೆ ತಂತ್ರಾಂಶಗಳ ಮೂಲಕ ಮಾಡುವುದು ಕಷ್ಟ ಎಂದು ಅನ್ನಿಸಿದರೂ ಅದು ನಿಜವಾಗಿ ನೋಡಿದರೆ ಪರಿಸ್ಥಿತಿ ಹಾಗಿಲ್ಲ. ಯಾಕೆಂದರೆ ಭಾರತೀಯ ಬಾಷೆಗಳಲ್ಲಿ ಅನುಮಾನಾಸ್ಪದ ಸಂದರ್ಭಗಳು ಕಡಿಮೆ. ಒಂದು ಪದವನ್ನು ನಾವು ಯಾವ ರೀತಿ ಬರೆಯುತ್ತೇವೆಯೋ ಅದೇ ರೀತಿ ಓದುತ್ತೇವೆ. ಇಂಗ್ಲಿಶ್ ಭಾಷೆಯಂತೆ ಬರೆದುದನ್ನು ಯಾವ ರೀತಿ ಉಚ್ಛರಿಸಬೇಕು ಎಂದು ನಮಗೆ ಯಾರೂ ಹೇಳಿಕೊಡುವ ಅಗತ್ಯವಿಲ್ಲ. ಈ ಗುಣವೈಶಿಷ್ಟ್ಯವು ಪಠ್ಯದಿಂದ ಧ್ವನಿಯನ್ನು ಮೂಡಿಸುವಲ್ಲಿ ತುಂಬ ಉಪಯುಕ್ತ. ಎಲ್ಲ ಪದಗಳು, ಅವುಗಳ ಸಂಯುಕ್ತಗಳು, ಅವುಗಳನ್ನು ಬೇರೆಬೇರೆ ಧ್ವನಿಯಲ್ಲಿ ಬೇರೆಬೇರೆ ಭಾವನೆಗಳಲ್ಲಿ ಉಚ್ಛರಿಸುವ ವಿಧಾನಗಳನ್ನು ದತ್ತಸಂಚಯದಲ್ಲಿ ಇಟ್ಟುಕೊಂಡು ಪಠ್ಯದಿಂದ ಧ್ವನಿಗೆ ಬದಲಾವಣೆ ಮಾಡುವ ತಂತ್ರಾಂಶದ ತಯಾರಿ ಮಾಡಬಹುದು.
ಒಂದು ಭಾಷೆಯನ್ನು ವೈಜ್ಞಾನಿಕವಾಗಿ ವಿಂಗಡಿಸುವ ಸೂತ್ರವನ್ನು ಪ್ರಪಂಚದ ಯಾವುದೇ ಭಾಷೆಗೆ ಪ್ರಪ್ರಥಮ ಬಾರಿಗೆ ನಿರ್ಮಿಸಿದವನು ಪಾಣಿನಿ. ಆತ ಸಂಸ್ಕೃತ ಭಾಷೆಗೆ ವ್ಯಾಕರಣಸ್ವರೂಪ ನಿಗದಿಯ ಸೂತ್ರಗಳನ್ನು ನೀಡಿದ. ಆತನಿಗೆ ಸಹಜಭಾಷಾ ಸಂಸ್ಕರಣೆ ಕ್ಷೇತ್ರದ ಜನಕ ಎಂಬ ಹೆಸರೂ ಇದೆ. ದುರದೃಷ್ಟಕ್ಕೆ ಆತನ ಕಾಲದಲ್ಲಿ ಗಣಕ ಮತ್ತು ತಂತ್ರಾಂಶಗಳು ಇರಲಿಲ್ಲ.
ಈಗ ಈ ಸಹಜಭಾಷಾ ಸಂಸ್ಕರಣೆಯ ಇತರೆ ವಿಭಾಗಗಳನ್ನು ಮತ್ತು ಸೌಕರ್ಯಗಳನ್ನು ಸ್ವಲ್ಪ ಪರಿಶೀಲಿಸೋಣ.
ಒಂದು ಪ್ಯಾರ ಅಥವಾ ಸಂಪೂರ್ಣ ಲೇಖನವನ್ನು ಓದಿ ನಾವು ಮನಸ್ಸಿನಲ್ಲಿಯೇ ಅದರ ಸಾರಾಂಶವನ್ನು ಗ್ರಹಿಸಿಕೊಳ್ಳುತ್ತೇವೆ. ಇದನ್ನೇ ತಂತ್ರಾಂಶಗಳ ಮೂಲಕವೂ ಮಾಡಬಹುದು. ದೀರ್ಘವಾದ ಲೇಖನ ಅಥವಾ ವರದಿಯನ್ನು ತಂತ್ರಾಂಶವು ಓದಿ ಕ್ಷಣಮಾತ್ರದಲ್ಲಿ ಅದರ ಸಾರಾಂಶವನ್ನು ನೀಡಬಹುದು. ಪಠ್ಯದಿಂದ ಧ್ವನಿಗೆ ಮತ್ತು ಧ್ವನಿಯಿಂದ ಪಠ್ಯಕ್ಕೆ ಬದಲಾವಣೆ ಮಾಡಬಹುದು. ಲೇಖಕರು ತಮ್ಮ ಲೇಖನವನ್ನು ಬೆರಳಚ್ಚು ಮಾಡುವ ಬದಲಿಗೆ ಬಾಯಿಯಲ್ಲಿ ಹೇಳುತ್ತಾ ಹೋಗಬಹುದು. ಅದು ಗಣಕದಲ್ಲಿ ಅಥವಾ ಮೊಬೈಲಿನಲ್ಲಿ ಪಠ್ಯವಾಗಿ ಪರಿವರ್ತನೆಯಾಗುತ್ತದೆ.
ಈ ಕ್ಷೇತ್ರದ ಇನ್ನೊಂದು ಪ್ರಮುಖ ಕೊಡುಗೆಯೆಂದರೆ ತಂತ್ರಾಂಶಗಳ ಮೂಲಕ ಒಂದು ಭಾಷೆಯಿಂದ ಇನ್ನೊಂದು ಭಾಷೆಗೆ ಅನುವಾದ. ಈ ಬಗ್ಗೆ ಮೈಕ್ರೋಸಾಫ್ಟ್, ಗೂಗ್ಲ್, ಅಮೆಝಾನ್ ಮತ್ತು ಇನ್ನೂ ಹಲವು ಕಂಪೆನಿಗಳು ಸಂಶೋಧನಾ ನಿರತವಾಗಿವೆ. ಬಿಂಗ್ ಮತ್ತು ಗೂಗ್ಲ್ ಶೋಧಕಗಳು ಪ್ರಪಂಚದ ಹಲವು ಭಾಷೆಗಳ ನಡುವೆ ಭಾಷಾಂತರದ ಸೌಲಭ್ಯವನ್ನು ಈಗಾಗಲೇ ನೀಡಿವೆ. ಕನ್ನಡವೂ ಇದರಲ್ಲಿ ಸೇರಿದೆ. ಆದರೆ ಈ ಯಂತ್ರಾನುವಾದ ಆರಂಭದಲ್ಲಿ ಅಷ್ಟು ಚೆನ್ನಾಗಿರಲಿಲ್ಲ. ಜನರು ಅವನ್ನು ಬಳಸಿ, ತಪ್ಪುಗಳನ್ನು ತಿದ್ದಿ, ಈಗ ಅವು ತುಂಬ ಸುಧಾರಿಸಿವೆ.
–ಡಾ| ಯು.ಬಿ. ಪವನಜ
gadgetloka @ gmail . com
Be First to Comment