ನಮ್ಮ ಭಾಷೆಗೆ e-ಭಾಷ್ಯ

– ಡಾ. ಯು. ಬಿ. ಪವನಜ

ಒಂದು ಭಾಷೆಯನ್ನು ವೈಜ್ಞಾನಿಕವಾಗಿ ಪದವಿಂಗಡಣೆ ಮಾಡಿ ಅದಕ್ಕೆ ವ್ಯಾಕರಣಸ್ವರೂಪದ ನಿಗದಿಮಾಡುವ ಕ್ರಿಯೆ ಪ್ರಪಂಚದಲ್ಲೇ ಮೊದಲ ಬಾರಿ ಪ್ರಾರಂಭವಾದುದು ಭಾರತದಲ್ಲಿ. ಇದನ್ನು ಗಣಕ ಮತ್ತ ತಂತ್ರಾಂಶ ಬಳಸಿ ಮಾಡುವ ಕೆಲಸದಲ್ಲಿ ನಾವು ಎಲ್ಲಿದ್ದೇವೆ? ನಮ್ಮ ಭಾಷೆ ಎಲ್ಲಿದೆ? ಸ್ವಲ್ಪ ಪರಿಶೀಲಿಸೋಣ.

“ರಾಮನು ರಾವಣನನ್ನು ಕೊಂದನು”
“ರಮೇಶನು ಒಂದು ಹೊಸ ಕಾರನ್ನು ಕೊಂಡುಕೊಂಡನು”
“ಬೆಳಗಾವಿಯಲ್ಲಿ ವಿಶ್ವಕನ್ನಡ ಸಮ್ಮೇಳನ ಜರುಗಲಿದೆ”
ಹೀಗೆ ಹಲವಾರು ವಾಕ್ಯಗಳನ್ನು ನಾವು ಪ್ರತಿನಿತ್ಯ ಓದುತ್ತಿರುತ್ತೇವೆ ಅಥವಾ ಕೇಳುತ್ತಿರುತ್ತೇವೆ. ಇದು ಮಾಹಿತಿಯುಗ. ಪ್ರತಿದಿನ ಪ್ರತಿ ನಿಮಿಷ ಮಾಹಿತಿ ಸ್ಫೋಟ ನಡೆಯುತ್ತಲೇ ಇದೆ. ಸುದ್ದಿಪತ್ರಿಕೆ, ಟಿ.ಇವಿ. ಅಂತರಜಾಲ -ಹೀಗೆ ಹಲವಾರು ಮಾಧ್ಯಮಗಳಿಂದ ನಮ್ಮ ಕಿವಿ ಮೇಲೆ ಮಾಹಿತಿಯ “ಧಾಳಿ” ನಡೆಯುತ್ತಿದೆ. ಈ ಮಾಹಿತಿಯ ಪ್ರಮುಖ ಅಂಗ ಪಠ್ಯರೂಪದಲ್ಲಿದೆ ಅಂದರೆ ವಾಕ್ಯಗಳು. ವಾಕ್ಯಗಳು ಪದಗಳಿಂದಾಗಿವೆ. ಈ ವಾಕ್ಯಗಳನ್ನು ನಮ್ಮ ಮೆದುಳು ಸಹಜವಾಗಿಯೇ ಪದಗಳಾಗಿ ವಿಂಗಡಿಸಿ ಅವುಗಳ ಅರ್ಥವನ್ನು ವಿಶ್ಲೀಷಿಸುತ್ತದೆ. ಎಲ್ಲ ವಾಕ್ಯಗಳನ್ನು ಓದಿ ಇಡಿಯ ಲೇಖನದ ಒಟ್ಟು ಸಾರಾಂಶವನ್ನು ಮೆದುಳು ಗ್ರಹಿಸುತ್ತದೆ. ಈ ಪ್ರಕ್ರಿಯೆ ಮಾನವರಲ್ಲಿ ಸಹಜವಾಗಿ ನಡೆಯುವ ಕ್ರಿಯೆ. ಇದನ್ನೇ ಗಣಕ ಬಳಸಿ ಮಾಡುವಂತಿದ್ದರೆ? ಮಾಹಿತಿ ತಂತ್ರಜ್ಞಾನದ ಈ ವಿಭಾಗಕ್ಕೆ ಸಹಜಭಾಷಾ ಸಂಸ್ಕರಣೆ (Natural Language Processing) ಎಂಬ ಹೆಸರಿದೆ.

ಇದು ಯಾಕೆ ಬೇಕು? ಯಂತ್ರಗಳೇ ಭಾಷೆಯನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಂತಿದ್ದರೆ ಒಳ್ಳೆಯದಲ್ಲವೇ? ಉದಾಹರಣೆಗೆ ಬ್ಯಾಂಕಿನ ಎಟಿಎಂ ಯಂತ್ರದ ಮುಂದೆ ನಿಂತು ಅದು ತಾನಾಗಿಯೇ ನಿಮ್ಮನ್ನು ಗುರುತಿಸಿ ನಿಮ್ಮ ಮಾತುಗಳನ್ನು ಅರ್ಥಮಾಡಿಕೊಂಡು ಹಣ ನೀಡುವಂತಿದ್ದರೆ ಎಷ್ಟು ಸುಲಭ ಅಲ್ಲವೇ? ಯಂತ್ರದ ಪರದೆಯಲ್ಲಿ ಮೂಡಿಬರುವ ಸಾಲುಸಾಲು ಸಂದೇಶ ಮತ್ತು ನೀಡಬೇಕಾದ ಆದೇಶಗಳ ಗೊಡವೆ ಇಲ್ಲದೆ ಸರಳವಾಗಿ ನಮ್ಮ ಕೆಲಸ ಮುಗಿಸಬಹುದು. ಕುರುಡರು ಗಣಕಕ್ಕೆ ಮಾತುಗಳ ಮೂಲಕವೇ ಆದೇಶ ನೀಡಬಹುದು. ಒಂದು ಭಾಷೆಯಿಂದ ಇನ್ನೊಂದು ಭಾಷೆಗೆ ಅನುವಾದ ಮಾಡಬಹುದು. ಹೀಗೆ ಈ ಸಹಜಭಾಷಾ ಸಂಸ್ಕರಣೆಯ ಕ್ಷೇತ್ರದ ಉಪಕಾರಗಳು ಬಹಳಷ್ಟಿವೆ.

ತೀನಂಶ್ರೀಯವರ ವ್ಯಾಕರಣ ಪುಸ್ತಕ ತೆರೆದು ನೋಡಿ. ಎಲ್ಲ ವ್ಯಾಕರಣಗಳೂ ಪ್ರಾರಂಭವಾಗುವುದು ವಾಕ್ಯಗಳನ್ನು ಪದಗಳಾಗಿ ವಿಂಗಡಿಸುವಲ್ಲಿಂದ. “ರಮೇಶ ಬಂದನು” ಎಂಬ ವಾಕ್ಯದಲ್ಲಿ ಎರಡು ಪದಗಳಿವೆ. ಮೊದಲನೆಯ “ರಮೇಶ” ಎಂಬ ಪದ ನಾಮಪದ. ಎರಡನೆಯ “ಬಂದನು” ಎಂಬುದು ಕ್ರಿಯಾಪದ. ಇದನ್ನು ನಾವು ಶಾಲೆಯಲ್ಲಿ ಕಲಿತಿದ್ದೇವೆ. ಇದನ್ನೇ ಗಣಕ ಮೂಲಕ ಮಾಡುವುದು ಸಹಜಭಾಷಾ ಸಂಸ್ಕರಣೆಯ ಪ್ರಥಮ ಹಂತ. ಇದು ಹೇಳಿದಷ್ಟು ಸುಲಭವಲ್ಲ. ಮೊದಲನೆಯದಾಗಿ ಗಣಕದಲ್ಲಿ ಲಕ್ಷಗಟ್ಟಲೆ ಪದಗಳ ಕಣಜವಿರಬೇಕಾಗುತ್ತದೆ. ಈ ಪದಗಳು ಕೇವಲ ಒಂದು ದತ್ತಸಂಚಯದಲ್ಲಿ (database) ಇದ್ದರೆ ಸಾಲದು. ಪ್ರತಿ ಪದಕ್ಕೂ ಅದರ ವ್ಯಾಕರಣಸ್ವರೂಪದ ವಿಂಗಡಣೆ ಆಗಿರಬೇಕು. ಉದಾಹರಣೆಗೆ ರಾಮ <ನಾಮಪದ>, ಓಡು <ಕ್ರಿಯಾಪದ>, ಪುಸ್ತಕ <ನಾಮಪದ>,.. ಇಂತಹ ಸಂಗ್ರಹಕ್ಕೆ corpus ಅರ್ಥಾತ್ ಪಠ್ಯಕಣಜ ಎನ್ನುತ್ತಾರೆ. ಪದಗಳ ವ್ಯಾಕರಣಸ್ವರೂಪದ ವಿಂಗಡಣೆ ಅಥವಾ ಸರಳವಾಗಿ ಹೇಳುವುದಾದರೆ ಪದವಿಂಗಡಣೆಗೆ part of speech tagging ಎನ್ನುತ್ತಾರೆ. ಈ ಮೊದಲ ಹಂತದ ಕ್ರಿಯೆಗೆ ಹಲವಾರು ತಂತ್ರಾಂಶಗಳು ಲಭ್ಯವಿವೆ.

ಇಂಗ್ಲಿಶ್ ಭಾಷೆಯಲ್ಲಿ ಇದು ಅಷ್ಟು ಕಷ್ಟವಿಲ್ಲ. ಕನ್ನಡದ ಸಂದರ್ಭದಲ್ಲಿ ಇದು ತುಂಬ ಕ್ಲಿಷ್ಟ. ಇದಕ್ಕೆ ಕಾರಣ ಸಂಧಿವಿಂಗಡಣೆ. “ಬಹೂಪಯೋಗಿಯಾಗಿದೆ” ಎಂಬ ಪದವನ್ನು ಬಹು + ಉಪಯೋಗಿ + ಆಗಿದೆ ಎಂಬುದಾಗಿ ವಿಂಗಡಿಸಬೇಕು. ಈ ಮೂಲಪದಗಳು ಸೇರಿ ಸಂಯುಕ್ತಪದವಾಗುವ ಸೂತ್ರವು ಗಣಕದಲ್ಲಿ ಇರಬೇಕು. ಇದರ ಜೊತೆ ವಿಭಕ್ತಿ ಪ್ರತ್ಯಯಗಳ ಸೂತ್ರ ಸಿದ್ಧವಿರಬೇಕು. ಯಾವ ಪದ ಎಲ್ಲಿ ಕೊನೆಗೊಳ್ಳುತ್ತದೆ ಯಾವ ಪದ ಎಲ್ಲಿ ಪ್ರಾರಂಭವಾಗುತ್ತದೆ, ಯಾವ ಸಂದರ್ಭದಲ್ಲಿ ಯಾವ ಸಂಧಿಯ ಸೂತ್ರ ಬಳಸಬೇಕು ಎಂಬಿತ್ಯಾದಿ ಅನುಮಾನಗಳನ್ನು ಪರಿಹರಿಸಬೇಕು. ಅನುಮಾನಾಸ್ಪದವಾದ ಹಲವಾರು ಸಂದರ್ಭಗಳನ್ನು ಮೊದಲೇ ಪಠ್ಯಕಣಜದಲ್ಲಿ ದಾಖಲಿಸಿಟ್ಟಿದ್ದರೆ ಒಳ್ಳೆಯದು. ಈ ರೀತಿ ಪದವಿಂಗಡಣೆಯನ್ನು ಒಂದು ಹಂತದಲ್ಲಿ ತಂತ್ರಾಂಶದ ಮೂಲಕ ಮಾಡಿಸಿ ಅನುಮಾನಾಸ್ಪದವಾದವುಗಳನ್ನು ನಂತರ ಮನುಷ್ಯರೇ ಮಾಡಬೇಕು. ಹೀಗೆ ಮಾಡುವಾಗ ತಂತ್ರಾಂಶವನ್ನು “ಕಲಿಯುವ” ಸ್ಥಿತಿಯಲ್ಲಿಟ್ಟುಕೊಂಡು ಮುಂದೆ ಇದೇ ರೀತಿಯ ಸಂದರ್ಭ ಬಂದಾಗ ಈ ಕಲಿಕೆಯ ಅನುಭವವನ್ನು ಬಳಸಬೇಕು.

ಈ ರೀತಿ ವ್ಯಾಕರಣಸ್ವರೂಪ ನಿಗದಿಯನ್ನು ನಮ್ಮ ಭಾಷೆಗೆ ತಂತ್ರಾಂಶಗಳ ಮೂಲಕ ಮಾಡುವುದು ಕಷ್ಟ ಎಂದು ಅನ್ನಿಸಿದರೂ ಅದು ನಿಜವಾಗಿ ನೋಡಿದರೆ ಪರಿಸ್ಥಿತಿ ಹಾಗಿಲ್ಲ. ಯಾಕೆಂದರೆ ಭಾರತೀಯ ಬಾಷೆಗಳಲ್ಲಿ ಅನುಮಾನಾಸ್ಪದ ಸಂದರ್ಭಗಳು ಕಡಿಮೆ. ಒಂದು ಪದವನ್ನು ನಾವು ಯಾವ ರೀತಿ ಬರೆಯುತ್ತೇವೆಯೋ ಅದೇ ರೀತಿ ಓದುತ್ತೇವೆ. ಇಂಗ್ಲಿಶ್ ಭಾಷೆಯಂತೆ ಬರೆದುದನ್ನು ಯಾವ ರೀತಿ ಉಚ್ಛರಿಸಬೇಕು ಎಂದು ನಮಗೆ ಯಾರೂ ಹೇಳಿಕೊಡುವ ಅಗತ್ಯವಿಲ್ಲ. ಈ ಗುಣವೈಶಿಷ್ಟ್ಯವು ಪಠ್ಯದಿಂದ ಧ್ವನಿಯನ್ನು ಮೂಡಿಸುವಲ್ಲಿ ತುಂಬ ಉಪಯುಕ್ತ. ಎಲ್ಲ ಪದಗಳು, ಅವುಗಳ ಸಂಯುಕ್ತಗಳು, ಅವುಗಳನ್ನು ಬೇರೆಬೇರೆ ಧ್ವನಿಯಲ್ಲಿ ಬೇರೆಬೇರೆ ಭಾವನೆಗಳಲ್ಲಿ ಉಚ್ಛರಿಸುವ ವಿಧಾನಗಳನ್ನು ದತ್ತಸಂಚಯದಲ್ಲಿ ಇಟ್ಟುಕೊಂಡು ಪಠ್ಯದಿಂದ ಧ್ವನಿಗೆ ಬದಲಾವಣೆ ಮಾಡುವ ತಂತ್ರಾಂಶದ ತಯಾರಿ ಮಾಡಬಹುದು.

ಒಂದು ಭಾಷೆಯನ್ನು ವೈಜ್ಞಾನಿಕವಾಗಿ ವಿಂಗಡಿಸುವ ಸೂತ್ರವನ್ನು ಪ್ರಪಂಚದ ಯಾವುದೇ ಭಾಷೆಗೆ ಪ್ರಪ್ರಥಮ ಬಾರಿಗೆ ನಿರ್ಮಿಸಿದವನು ಪಾಣಿನಿ. ಆತ ಸಂಸ್ಕೃತ ಭಾಷೆಗೆ ವ್ಯಾಕರಣಸ್ವರೂಪ ನಿಗದಿಯ ಸೂತ್ರಗಳನ್ನು ನೀಡಿದ. ಆತನಿಗೆ ಸಹಜಭಾಷಾ ಸಂಸ್ಕರಣೆ ಕ್ಷೇತ್ರದ ಜನಕ ಎಂಬ ಹೆಸರೂ ಇದೆ. ದುರದೃಷ್ಟಕ್ಕೆ ಆತನ ಕಾಲದಲ್ಲಿ ಗಣಕ ಮತ್ತು ತಂತ್ರಾಂಶಗಳು ಇರಲಿಲ್ಲ.

ಈಗ ಈ ಸಹಜಭಾಷಾ ಸಂಸ್ಕರಣೆಯ ಇತರೆ ವಿಭಾಗಗಳನ್ನು ಮತ್ತು ಸೌಕರ್ಯಗಳನ್ನು ಸ್ವಲ್ಪ ಪರಿಶೀಲಿಸೋಣ.

ಒಂದು ಪ್ಯಾರ ಅಥವಾ ಸಂಪೂರ್ಣ ಲೇಖನವನ್ನು ಓದಿ ನಾವು ಮನಸ್ಸಿನಲ್ಲಿಯೇ ಅದರ ಸಾರಾಂಶವನ್ನು ಗ್ರಹಿಸಿಕೊಳ್ಳುತ್ತೇವೆ. ಇದನ್ನೇ ತಂತ್ರಾಂಶಗಳ ಮೂಲಕವೂ ಮಾಡಬಹುದು. ದೀರ್ಘವಾದ ಲೇಖನ ಅಥವಾ ವರದಿಯನ್ನು ತಂತ್ರಾಂಶವು ಓದಿ ಕ್ಷಣಮಾತ್ರದಲ್ಲಿ ಅದರ ಸಾರಾಂಶವನ್ನು ನೀಡಬಹುದು. ಪಠ್ಯದಿಂದ ಧ್ವನಿಗೆ ಮತ್ತು ಧ್ವನಿಯಿಂದ ಪಠ್ಯಕ್ಕೆ ಬದಲಾವಣೆ ಮಾಡಬಹುದು. ನಾವು ಮಾತನಾಡಿದುದನ್ನು ಗಣಕವು ಆಲಿಸಿ ಅದನ್ನು ಅರ್ಥ ಮಾಡಿಕೊಂಡು ಅದನ್ನು ಪಠ್ಯಕ್ಕೆ ಬದಲಾವಣೆ ಮಾಡುವ ಸವಲತ್ತು ಕನ್ನಡಕ್ಕೂ ಬಂದಾಗ ನಮ್ಮ ಲೇಖಕರುಗಳಿಗೆ ಖಂಡಿತ ಮಹದಾನಂದವಾಗುವುದರಲ್ಲಿ ಅನುಮಾನವಿಲ್ಲ. ಗಣಕ ಪರದೆಯಲ್ಲಿ ಮೂಡಿಬಂದುದನ್ನು ಓದಿಹೇಳುವ ತಂತ್ರಾಂಶ ಕನ್ನಡಕ್ಕೆ ಲಭ್ಯವಾದಾಗ ಕುರುಡರು ಕನ್ನಡದ ಲೇಖನಗಳನ್ನು, ಅಂತರಜಾಲತಾಣಗಳನ್ನು, ಖ್ಯಾತ ಪುಸ್ತಕಗಳನ್ನು ಎಲ್ಲ ಧ್ವನಿ ಮೂಲಕ ಓದಬಹುದು, ಅಲ್ಲ ಆಲಿಸಬಹುದು.

ಈ ಕ್ಷೇತ್ರದ ಇನ್ನೊಂದು ಪ್ರಮುಖ ಕೊಡುಗೆಯೆಂದರೆ ತಂತ್ರಾಂಶಗಳ ಮೂಲಕ ಒಂದು ಭಾಷೆಯಿಂದ ಇನ್ನೊಂದು ಭಾಷೆಗೆ ಅನುವಾದ. ಈ ಬಗ್ಗೆ ಮಾಹಿತಿ ತಂತ್ರಜ್ಞಾನ ಕ್ಷೇತ್ರದ ದಿಗ್ಗಜಗಳಾದ ಮೈಕ್ರೋಸಾಫ್ಟ್, ಗೂಗ್ಲ್ ಮತ್ತು ಇನ್ನೂ ಹಲವು ಕಂಪೆನಿಗಳು ಸಂಶೋಧನಾ ನಿರತವಾಗಿವೆ. ಬಿಂಗ್ ಮತ್ತು ಗೂಗ್ಲ್ ಶೋಧಕಗಳು ಪ್ರಪಂಚದ ಹಲವು ಭಾಷೆಗಳ ನಡುವೆ ಭಾಷಾಂತರದ ಸೌಲಭ್ಯವನ್ನು ಈಗಾಲೆ ನೀಡಿವೆ. ಸದ್ಯಕ್ಕೆ ಭಾರತೀಯ ಭಾಷೆಗಳಲ್ಲಿ ಹಿಂದಿ ಮಾತ್ರ ಲಭ್ಯವಿದೆ. ಕನ್ನಡವೂ ಮುಂದಕ್ಕೆ ಈ ಪಟ್ಟಿಯಲ್ಲಿ ದಾಖಲಾಗಬಹುದು. ಆದರೆ ಈ ಯಂತ್ರಾನುವಾದ ಅಷ್ಟು ಪರಿಪೂರ್ಣವಲ್ಲ. ಅದರಲ್ಲಿ ಹಲವಾರು ತಪ್ಪುಗಳು ಆಗುವ ಸಾಧ್ಯತೆಯಿದೆ, ಆಗುತ್ತಿದೆ. ತಪ್ಪಾದಾಗ ನಾವು ಆ ತಪ್ಪನ್ನು ಸರಿಪಡಿಸಿದರೆ ತಂತ್ರಾಂಶವು ಅದನ್ನು ತನ್ನ ಸಂಗ್ರಹಕ್ಕೆ ಸೇರಿಸಿಕೊಂಡು ಮಂದೆ ಅದೇ ತಪ್ಪು ಮರುಕಳಿಸದಂತೆ ನೋಡಿಕೊಳ್ಳುತ್ತದೆ.

ನಮ್ಮ ದೇಶದ ಹಲವಾರು ಸಂಶೋಧನಾ ಕೇಂದ್ರಗಳು ಈ ಸಹಜಭಾಷಾ ಕ್ಷೇತ್ರದಲ್ಲಿ ಈಗಾಗಲೆ ಕೆಲಸ ಮಾಡಿವೆ. ಆದರೆ ಒಂದು ದುಃಖದ ಸಂಗತಿಯೆಂದರೆ ಒಬ್ಬರು ಮಾಡಿದ ಕೆಲಸದ ಆಕರಗಳು ಇನ್ನೊಬ್ಬರಿಗೆ ಲಭ್ಯವಿಲ್ಲ. ಈಗಾಗಲೆ ತಿಳಿಸಿದಂತೆ ಈ ಎಲ್ಲ ಕೆಲಸಗಳಿಗೆ ಮೂಲ ಆಕರ ಪಠ್ಯಕಣಜ (corpus). ಇದರಲ್ಲಿ ಹಲವು ವಿಧಗಳಿವೆ. ಕೇವಲ ಪದಗಳು, ವಿಂಗಡಿಸಿದ ಪದಗಳು, ವಾಕ್ಯಗಳು, ಸಂಪೂರ್ಣ ಲೇಖನಗಳು, ಧ್ವನಿಕಣಜ -ಇತ್ಯಾದಿ. ಮೈಸೂರಿನ ಭಾರತೀಯ ಭಾಷೆಗಳ ಸಂಶೋಧನಾ ಕೇಂದ್ರ, ಬೆಂಗಳೂರಿನ ಭಾರತೀಯ ವಿಜ್ಞಾನ ಸಂಸ್ಥೆ, ಹೈದರಾಬಾದಿನ ಐಐಐಟಿ, ಚೆನ್ನೈನ ಐಐಟಿ, ಇತ್ಯಾದಿ ಸಂಶೋಧನಾ ಕೇಂದ್ರಗಳು ತಮ್ಮದೇ ಆದ ಕಣಜ ನಿರ್ಮಿಸಿವೆ. ಆದರೆ ಒಬ್ಬರು ತಯಾರಿಸಿದ್ದು ಇನ್ನೊಬ್ಬರಿಗೆ ಸುಲಭದಲ್ಲಿ ಲಭ್ಯವಿಲ್ಲ. ಯಾವುದೂ ಅಂತರಜಾಲದಲ್ಲಿ ಇಲ್ಲವೇ ಇಲ್ಲ. ಶಿವಮೊಗ್ಗದಲ್ಲಿ ಒಬ್ಬ ಸಂಶೋಧಕರು ಈ ಕಣಜವನ್ನು ಬಳಸಿಕೊಂಡು ಸಹಜಭಾಷಾಸಂಸ್ಕರಣೆಯ ಕ್ಷೇತ್ರದಲ್ಲಿ ಸಂಶೋಧನೆ ಮಾಡಲು ಇಚ್ಛಿಸಿದಲ್ಲಿ ಅದು ಅಷ್ಟು ಸುಲಭವಲ್ಲ. ಪ್ರತಿಯೊಬ್ಬರಿಗೂ ತಮ್ಮದೇ ಸ್ವಪ್ರತಿಷ್ಠೆಗಳ ಸಮಸ್ಯೆ.

ಇತ್ತೀಚೆಗೆ ಹಂಪಿಯ ಕನ್ನಡ ವಿಶ್ವವಿದ್ಯಾಲಯವು ಕನ್ನಡ ಭಾಷೆಯ ಪಠ್ಯಕಣಜ (corpus) ತಯಾರಿಸಲು ಪ್ರಾರಂಭಿಸಿದೆ. ಇದು ತಯಾರಾದಾಗ ಕನ್ನಡದಲ್ಲಿ ಸಹಜಭಾಷಾಸಂಸ್ಕರಣೆ ಮಾಡುವವರಿಗೆ ಪ್ರಯೋಜನಕಾರಿಯಾಗಲಿದೆ. ಈ ಪಠ್ಯಕಣಜವು ಅಂತರಜಾಲದ ಮೂಲಕ ಎಲ್ಲರಿಗೂ ಲಭ್ಯವಾಗಲಿ ಎಂದು ಹಾರೈಸೋಣ.

— *** —

ಡಾ| ಶ್ರೀನಿವಾಸ ಹಾವನೂರ ಮತ್ತು ಮುದ್ದಣ

ದಿವಂಗತ ಡಾ| ಶ್ರೀನಿವಾಸ ಹಾವನೂರರು ಸುಮಾರು ನಾಲ್ಕು ದಶಕಗಳ ಹಿಂದೆ ಕನ್ನಡದ ಯಾವುದೇ ತಂತ್ರಾಂಶ ಮಾತ್ರವಲ್ಲ ಫಾಂಟ್ ಮತ್ತು ಕೀಲಿಮಣೆಯ ಸೌಲಭ್ಯಗಳೂ ಇಲ್ಲದಿದ್ದ ಕಾಲದಲ್ಲಿ ದೂರದ ಮುಂಬಯಿಯಲ್ಲಿ ಕುಳಿತು ಮುದ್ದಣನ ಕೃತಿಗಳ ಬಗ್ಗೆ ಗಣಕ ಬಳಸಿ ಮಾಡಿದ ಸಂಶೋಧನೆ ಇಲ್ಲಿ ಪ್ರಸ್ತಾಪಿಸಲೇಬೇಕು. ಅವರು ಮುದ್ದಣನ ಲಭ್ಯವಿದ್ದ ಮತ್ತು ಆತನದೇ ಎಂದು ಸಂಶಯರಹಿತವಾಗಿ ತಿಳಿದಿದ್ದ ಐದು ಗ್ರಂಥಗಳನ್ನು ಗಣಕಕ್ಕೆ ಊಡಿಸಿ ಅವುಗಳನ್ನು ವಿಂಗಡಿಸಿ ಆತ ಬಳಸಿದ ಪದಗಳ ಕೋಶ ಮತ್ತು ಪದಪ್ರಯೋಗಕೋಶ ತಯಾರಿಸಿದರು. ನಂತರ ಆತನ ಪುಸ್ತಕವೇ ಇರಬಹುದೇ ಎಂಬ ಅನುಮಾನವಿದ್ದ ಇನ್ನೊಂದು ಗ್ರಂಥವನ್ನೂ ಗಣಕಕ್ಕೆ ಊಡಿಸಿ ವಿಶ್ಲೇಷಿಸಿ ಅದೂ ಕೂಡ ಆತನದೇ ಎಂಬ ತೀರ್ಮಾನಕ್ಕೆ ಬಂದರು. ಈ ಕೆಲಸವನ್ನು ಅವರು ಕನ್ನಡದ ಪದಗಳನ್ನು ಇಂಗ್ಲಿಶ್ ಲಿಪಿಯಲ್ಲಿ ಗಣಕಕ್ಕೆ ಊಡಿಸಿ ಮಾಡಿದ್ದರು. ಈಗಲಾದರೋ ಕನ್ನಡದ ತಂತ್ರಾಂಶಗಳು, ಕೀಲಿಮಣೆ, ಯುನಿಕೋಡ್ ಮೂಲಕ ಸಂಪೂರ್ಣ ದತ್ತಸಂಗ್ರಹ (database) ಮತ್ತು ಪ್ರೋಗ್ರಾಮ್ಮಿಂಗ್ ಸವಲತ್ತು ಎಲ್ಲ ಇವೆ. ಆದರೂ ಯಾರೂ ಕನ್ನಡದ ಸಂಶೋದನಾ ಕೆಲಸವನ್ನು ಗಣಕ ಬಳಸಿ ಮಾಡುತ್ತಿಲ್ಲ. ಕನ್ನಡ ಸಂಶೋಧಕರು xyz ಅವರ ನಾಟಕಗಳಲ್ಲಿ ಮಹಿಳೆ ಎಂಬಿತ್ಯಾದಿ ಸಂಶೋಧನೆಯಲ್ಲೇ ಮಗ್ನರಾಗಿದ್ದಾರೆ.

 

[ಕೃಪೆ: ಪ್ರಜಾವಾಣಿ, ಮಾರ್ಚ್ ೬, ೨೦೧೧]

4 Responses to ನಮ್ಮ ಭಾಷೆಗೆ e-ಭಾಷ್ಯ

  1. ಬೇಳೂರು ಸುದರ್ಶನ

    ಪ್ರಿಯ ಬ್ಲಾಗಿಗರೆ,
    ಕಣಜ ಜಾಲತಾಣ (www.kanaja.in) ಕರ್ನಾಟಕ ಜ್ಞಾನ ಆಯೋಗದ ಮಹತ್ವದ ಕನ್ನಡ ಅಂತರಜಾಲ ಜ್ಞಾನಕೋಶ ಯೋಜನೆ. ಈ ಯೋಜನೆಯು ಕನ್ನಡಿಗರಿಗಾಗಿಯೇ ರೂಪುಗೊಳ್ಳುತ್ತಿರುವ ಜಾಲತಾಣ. ಈ ಜಾಲತಾಣದ ಬಗ್ಗೆ ನಿಮ್ಮ ಬ್ಲಾಗಿನಲ್ಲೂ ಸೂಕ್ತ ಪ್ರಚಾರ ಸಿಗಬೇಕೆಂಬುದು ನಮ್ಮ ವಿನಂತಿ. ದಯಮಾಡಿ (http://kanaja.in/?page_id=10877) ಈ ಕೊಂಡಿಯಲ್ಲಿ ಇರುವ `ಕಣಜ’ ಬ್ಯಾನರುಗಳನ್ನು ನಿಮ್ಮ ಬ್ಲಾಗಿನಲ್ಲಿ ಪ್ರಕಟಿಸಬೇಕೆಂದು ಕೋರಿಕೆ. ಇಲ್ಲಿ ಕೊಟ್ಟಿರುವ ಚಿತ್ರದ ಕೆಳಗೆ ಇರುವ ಸಂಕೇತ ವಾಕ್ಯವನ್ನು ನಿಮ್ಮ ಬ್ಲಾಗಿನ ಹೊಸ ಬ್ಲಾಗ್ ಪ್ರಕಟಣೆ ಜಾಗದಲ್ಲಿ ಪೇಸ್ಟ್ ಮಾಡಿದರೆ ಕಣಜದ ಬ್ಯಾನರ್ ನಿಮ್ಮಲ್ಲಿ ಪ್ರಕಟವಾಗುತ್ತದೆ. ಎಂಬೆಡ್ ಮಾಡುವ ಬಗೆ ಹೇಗೆಂದು ತಿಳಿಯಬೇಕಿದ್ದರೆ ದಯಮಾಡಿ (projectmanager@kanaja.in) ಈ ಮೈಲಿಗೆ ಕಾಗದ ಬರೆಯಿರಿ.
    ಕಣಜ ಜಾಲತಾಣದಲ್ಲಿ ನಿಮ್ಮ ಬ್ಲಾಗುಗಳನ್ನೂ ಪಟ್ಟೀಕರಿಸಲಾಗಿದೆ, ಗಮನಿಸಿ. ಬ್ಲಾಗ್ ಲೋಕದ ಮಾಹಿತಿ ಲೇಖನಗಳು ಕನ್ನಡಕ್ಕೆ ಕೊಡುಗೆ ನೀಡುತ್ತಿರುವುದನ್ನು ಸ್ವಾಗತಿಸುತ್ತ `ಕಣಜ’ವನ್ನೂ ನಿಮ್ಮ ಸಹ-ಬ್ಲಾಗ್ ಎಂದೇ ಪರಿಗಣಿಸಿ ಬೆಂಬಲ ನೀಡಿ, ಪ್ರಚಾರ ನೀಡಿ ಎಂದು ವಿನಂತಿಸಿಕೊಳ್ಳುವೆವು.

    ತಮ್ಮ ವಿಶ್ವಾಸಿ
    ಬೇಳೂರು ಸುದರ್ಶನ
    ಸಲಹಾ ಸಮನ್ವಯಕಾರ, ಕಣಜ ಯೋಜನೆ
    (ಕರ್ನಾಟಕ ಜ್ಞಾನ ಆಯೋಗದ ಯೋಜನೆ)
    ಈ ಮೈಲ್: projectmanager@kanaja.net
    http://www.kanaja.in
    ವಿಳಾಸ: ಇಂಟರ್ ನ್ಯಾಶನಲ್ ಇನ್ ಸ್ಟಿಟ್ಯೂಟ್ ಆಫ್ ಇನ್ಫಾರ್ಮೇಶನ್ ಟೆಕ್ನಾಲಜಿ ಬೆಂಗಳೂರು
    ನಂ 26/ಸಿ, ಎಲೆಕ್ಟ್ರಾನಿಕ್ಸ್ ಸಿಟಿ, ಹೊಸೂರು ರಸ್ತೆ
    ಬೆಂಗಳೂರು – 560100
    ದೂರವಾಣಿ: ೯೭೪೧೯೭೬೭೮೯

  2. chsbhat

    ಶ್ರೀ ಪವನಜರ ಲೇಖನ ತುಂಬಾ ಮಾಹಿತಿಗಳಿಂದ ತುಂಬಿದೆ. ಉಪಕಾರಿ. ಧನ್ಯವಾದಗಳು.

  3. Panchayya

    Respected sir,
    It is very helpful for everyone.In now days it should be available with using the easy
    methods.None of one can understand as well as confused if kannada datas are not cleared.
    It should be grammeretical,meaningful.Your achievements and performances are realy appreciating. Thank you very much for it.

  4. Vishwanatha Badikana

    ತುಂಬ ಉತ್ತಮ ಮಾಹಿತಿಯ ಲೇಖನವೊಂದನ್ನು ಓದಿದೆ. 2011ರಲ್ಲಿ ಬರೆದು ಇಲ್ಲಿಗೆ 5 ವರ್ಷ ಕಳೆದಿದೆ. ಆದರೆ ನೀವು ಹೇಳಿರುವ ಕನ್ನಡ NLP ಬರಲೇ ಇಲ್ಲವೇನೋ ಅಂತ ನನಗನಿಸುತ್ತಿದೆ.

Leave a Reply