Эх хэлний цахим оршихуй
“Хэрэглэдэг бүх программаа монгол хэл дээрээ хэрэглэвэл хэчнээн сайхан” гэдэг бодол үе үе орж ирнэ. Гэхдээ ихэнх хүн “Англиараа байвал илүү ойлгомжтой” гэж ярьдаг. Иймэрхүү яриануудын цаана том агуулга нуугдаж буй.
Балар эртний хүн нэгэнтээ хэл яриатай болж, хэл яриа нь бичиг үсэг болж, бичиг үсэг нь номын хавтсанд бууж, хамгийн сүүлд цахим технологи бүхнийг өөрчилсөн. Энэ маягаар харилцах, мэдлэг дамжуулах технологи өөрчлөгдөх бүрд олон мянган угсаатан, үндэстэн, ястан төрж, мөхөж, түүнийгээ дагаад хэл нь бас төрж, мөхөж байв.
Манай үед ч бас мөхлийн ирмэгт очсон хэл олон байгаа. Хэлнүүд голдуу хэрэглээ нь хязгаарлагдмал байдгаас мөхдөг. Орчин үед хэлний хэрэглээг хязгаарлаж байгаа хамгийн том хүчин зүйл нь хүн амын тоо гэхээс илүү мэдээллийн технологи болж байна.
Эх хэлээ бид цахим орчинд хэр өргөн хүрээнд ашиглаж буйгаас олон зүйл хамаарна. Эдүгээ эх хэлний бодлого сургуулийн лекцийн танхим, номын сан, архив, музей, сонины нүүрнээс давж хэрэгжих ёстой болоод байна.
Эх хэлний хэрэглээг технологитой хослуулж чадахгүй бол эх хэл, соёл мөхөхгүй юмаа гэхэд олон үнэт зүйлсээ мартаж гээхэд ойрхон байгаа нь Монгол шиг цөөн хүн амтай улс орнуудын хувьд үхэх сэхэх тухай яриа юм.
Өндөр хөгжилтэй орнууд эх хэлнийхээ цахим хөгжлийг эртнээс анхаарч, шаардлагатай хөрөнгө оруулалтуудыг хийж ирсэн бол Монгол Улсын хувьд энэ асуудал одоо ч гэсэн төрийн бодлогод зохих байраа эзлээгүй байгаа. Эх хэлний хэрэглээг технологитой хослуулж чадахгүй бол эх хэл, соёл мөхөхгүй юмаа гэхэд олон үнэт зүйлсээ мартаж гээхэд ойрхон байгаа нь Монгол шиг цөөн хүн амтай улс орнуудын хувьд үхэх сэхэх тухай яриа юм.
Хэрэв Б.Ренчин, Ц.Дамдинсүрэн, Ш.Лувсанвандан зэрэг бичгийн их хүмүүс фэйсбүүк, инстаграммын эринд амьдарч байсан бол эх хэлээ цахим орчинд нутагшуулахад дээд зэргээр анхаарах байсан гэдэгт эргэлзэхгүй байна. Өнөөдөр цахим хэл шинжлэлийн чиглэлээр код бичдэг хүмүүс уран зохиолын эртний дурсгалуудыг орчин үеийн хэлэнд орчуулдаг хүмүүстэй адилхан чухал ажил хийж байна.
Математик суурьтай хэл шинжлэлийн зүтгэлтэн
Түүнийг анх компьютертой танилцсан 1990-д оны үед Монгол үсгийн фонт байхгүй учраас орос үсгийн фонт ашигладаг байв. Гэтэл орос хэлэнд ө, ү үсэг байхгүй болохоор украйн фонтоор орлуулдаг байжээ.
Дараа нь Германд сурч эхлэхэд орос, хятад оюутнуудаас ялгаатай нь эх хэлээрээ ажлын системүүдээ ашиглах бүр ч боломжгүй байв. Үүнээс хойш шөнө дөл болтол сууж Linux үйлдлийн системийг монгол хэл рүү хөрвүүлэх, Openoffice программуудыг орчуулах зэргээр монгол хэлийг нутагшуулах (software localization ) ажлыг хийдэг байв. Программ нутагшуулна гэдэг нь зүгээр нэг текст орчуулах биш, нарийн ажил байдаг бөгөөд С.Бадрал энэ тал дээр шилдэг мэргэжилтэнд тооцогдоно.
2000 онд “Badaa converter” хэмээх Юникод хөрвүүлэгч хийж байв. Магистрт сурч байхдаа Soyombo Linux гэх үйлдлийн систем зохиож байсан удаатай. Тэрээр OpenMN хэмээх компьютерын үг хэллэг орчуулж, нутагшуулдаг бүлгэм байгуулсан нь 100 мянга гаруй үгийн сантай болж, хожим Монголын анхны онлайн англи-монгол толь бичиг “Болор толь”-ийн эхлэл болжээ.
Программ нутагшуулдаг болсон үеэс тэр эх хэлний бодлогыг мэдээллийн технологийн хөгжилтэй хоршуулах нь хэчнээн чухал болохыг ойлгожээ. 2008 онд Болорсофт компаниа байгуулж, жилийн дараа “Болор толь”-оо (bolor-toli.com) албан ёсоор хэрэглээнд нэвтрүүлж, толь бичгээ үнэ төлбөргүй ашиглах байдлаар хүмүүст хүргэхээр шийджээ. Эдүгээ энэ толь 450 гаруй мянган үгийн сантай, англи, япон, солонгос, герман хэлтэй, орчуулагчид төдийгүй маш олон хүний өдөр тутамдаа хэрэглэдэг чухал платформ болсон.
Болорсофт нь албан ёсны танилцуулгаар бол цахим хэл шинжлэл (NLP), хиймэл оюун (AI), программ хангамж (SW) хөгжүүлдэг, бас арчилдаг компани. Мэргэжлийн хэллэгээр бол монгол хэлний цахим боловсруулалт хийдэг, анхны монгол хэлний морфологийн автомат, анхны бүрэн автомат мэдээллийн мониторингийн систем, автомат трэнд олох систем, анхны яриаг бичвэрт, бичвэрийг ярианд хөрвүүлэх систем хөгжүүлсэн, анхны гадаад монгол цахим толь, монгол бичгийн үсгийн фонт, анхны машин сургалтад суурилсан мэдээллийн хэрэгслийн оюунт тогтолцоог хөгжүүлсэн, монгол хэлний хамгийн том өгүүлбэрийн хөмрөгийг системдээ бүрдүүлсэн компани юм.
“Болорсофт”-ын гол үнэ цэн, алсын хараа бол монгол хэл, бичиг соёлыг цахим орчинд баттай нутагшуулж, дархлаатай болгож, ирээдүйн роботууд ч монголоор чөлөөтэй уншиж, сонсож, ярьж, бичих түвшинд хүртэл хөгжүүлэхэд оршино.
Энэ бүхнийг энгийн үгээр илэрхийлбэл, “Болорсофт”-ын гол үнэ цэн, алсын хараа бол монгол хэл, бичиг соёлыг цахим орчинд баттай нутагшуулж, дархлаатай болгож, ирээдүйн роботууд ч монголоор чөлөөтэй уншиж, сонсож, ярьж, бичих түвшинд хүртэл хөгжүүлэхэд оршино.
Үг үсгийн алдаа шалгадаг системүүдээ өндөр хөгжилтэй орнууд олон жилийн өмнөөс хөгжүүлж ирсэн нь өдгөө тэдгээр систем нь өөрөө суралцдаг, сайжирдаг, багш нарыг орлон гадаадынханд төрөлх хэлнийхээ дүрмийг заадаг болтлоо хөгжөөд байна.
Тиймээс монгол хэлийг төрөл бүрийн системийн хүрээнд чөлөөтэй хэрэглэдэг болох шаардлагатай. Гэхдээ бас зохистой хэрэглэх ёстой. Энэ үүднээс Болорсофт компанийнхан 10 орчим жилийн үг зүйн судалгаандаа үндэслээд дүрмийн алдаа шалгагч “Болорспелл” (spellcheck.mn хуучнаар Болор Дуран) системийг 2013 онд бүтээж хэрэглээнд нэвтрүүлсэн юм. Энэ нь монгол хэлний үсгийн дүрмийн алдаа хянадаг программ бөгөөд Монголд мөрдөгдөж буй дүрмийг бүрэн эхээр агуулснаас гадна 80 сая гаруй үгийн сантай аж. Хэл шинжлэлийн эрдэмтдийн шалгуураар баталгаажсан энэхүү систем монгол хүн эх хэлээрээ зөв бичих соёлд сурах чухал үүрэг гүйцэтгэж байна.
“Тунгаамал”-ын төлөөх тулаан
Монгол хэл, бичгийг баттай нутагшуулах эцсийн зогсоол нь монгол бичгийг цахим орчинд чөлөөтэй хэрэглэдэг болох. Эс бөгөөс монголчуудын хэл соёл, оюуны өвийн амин сүнс болсон босоо бичгийн ирээдүй бүрхэг болно.
Аливаа бичгийг цахим орчинд саадгүй хэрэглэх гол үндэс нь Юникод стандартад орох явдал. Учир нь Юникод систем нь Microsoft, Google, Apple, IBM, Facebook-ээс эхлээд мэдээллийн технологи хөгжүүлэг бүх компани хүлээн зөвшөөрч ашигладаг Де-факто стандарт.
Монгол Улс 2000 онд монгол бичгийн кодчиллын стандарт баталж, юникодод оруулсан боловч хэд хэдэн алдааны улмаас 18 жил тогтворжихгүй, төрийн зүгээс ч ойлгож анхаарахгүй явсаар иржээ. Тиймээс Юникодын техникийн хороо монгол бичигт зориулсан хурал, зөвлөгөөнүүдийг тусгайлан зохион байгуулах болов. Энэ хооронд Хятадын мэргэжилтнүүд самбаа гарган, монгол бичгийг авианы бичгийн загвараар бус, ханз үсэг шиг дүрсээр кодчилох аргачлалыг батлуулахыг 2017 онд Хөх хотод болсон хурлын үеэр оролдож байсныг “Болорсофт”-ын мэргэжилтнүүд очиж зогсоож байжээ.
Монгол хэл, бичгийг баттай нутагшуулах эцсийн зогсоол нь монгол бичгийг цахим орчинд чөлөөтэй хэрэглэдэг болох.
Тэд өөрсдийн нөөц, бололцоонд тулгуурлан монгол бичгийг авианы хэлбэрээр Юникодын стандартад оруулахын тулд монгол бичигтэй холбоотой Юникодын хурлуудад 2013 оноос хойш тасралтгүй оролцож иржээ. Ийнхүү 2018 оны хавар АНУ-ын Сан Хосе хотод болсон хуралдаанд оролцон өөрсдийн “Тунгаамал загвар” хэмээх шийдлийг танилцуулж, монгол бичиг нь авианы бичиг бөгөөд хятад дүрс үсгээс өөр болохыг батлан харуулж, монгол бичгийн авианы загвараа хадгалж чаджээ.
2019 оны эхээр АНУ-д Google компанийн төв байранд болсон Юникодын техникийн зөвлөлийн 158 дугаар хуралдаанаар “Тунгаамал загвар”-аа хэрэгжүүлэх туршилт хийх зөвшөөрөл авч, шаардлагатай нэмэлт кодуудыг ашиглах эрхтэй болсон байна.
Ингэснээр хэдэн зуун жил дамнан тээж ирсэн монгол бичиг цахим орчинд байр сууриа эзлэхэд нэг том алхам хийгдсэн байна.
Монгол бичгийг нэрээ бичээд ханандаа өлгөдөг бэлэг дурсгал мэтээр хэрэглэж хязгаарлавал хэчнээн эмгэнэлтэй.
Монгол бичгийг цахим орчинд нутагшуулах нь хэчнээн чухлыг төрийн эрх мэдэлтнүүдэд ойлгуулахын тулд Болорсофтынхон бас багагүй чармайсан. Ерөнхийлөгчид биечлэн танилцуулж, Засгийн газарт юу болоод байгааг мэдээлснээр Өвөр Монголд болсон хурлын дараа Хэлний бодлогын үндэсний зөвлөлийн дэргэд Ажлын хэсэг байгуулагдаж байв. Мөн монгол бичгийн хэрэглээг нэмэгдүүлэх Ерөнхийлөгчийн зарлиг гарч, монгол бичгийг стандартчилах дэд хороо байгуулагдсанаар энэ асуудал төрийн аппаратын анхааралд орж байв.
Монгол бичгийг нэрээ бичээд ханандаа өлгөдөг бэлэг дурсгал мэтээр хэрэглэж хязгаарлавал хэчнээн эмгэнэлтэй. Харин цахим орчинд өдөр тутмын хэрэглээнд нэвтэрч чадвал бид хэл соёлынхоо маш чухал хэсгийг хадгалан хөгжүүлж чадна гэдгийг С.Бадрал байнга давтдаг.
Цаашдаа юникодод нийцсэн монгол бичгийн фонтуудыг хөгжүүлэх, бусад ахисан түвшний программууд дээр ашиглах шаардлагатай. Одоогоор Болорсофт компани монгол бичигт зориулаад Mongolianscript, төрийн соёрхолт Т.Дашцэдэн агсны гар бичмэлээс бүтээсэн Classical Mongolian Dashitseden фонт, Модон бар, хорголжин барын фонтуудыг хэрэглээнд оруулснаас гадна Монгол бичиг, кирилл бичиг хоёрын хооронд автоматаар 99% нарийвчлалтай хөрвүүлдэг Кимо (http://kimo.mngl.net) хэмээх системийг бүтээжээ.
Монголоор ойлголцдог роботуудын төлөө
Ирээдүйд роботын уншдаггүй, бичдэггүй, цаашлаад ярьж чаддаггүй хэл хэрэглээнээс улам шахагдана гээд хэлчихвэл дэгсдүүлсэн болохгүй. Энэ бол удахгүй амьдралд хэрэгжиж эхлэх хатуу үнэн. Яагаад гэвэл хиймэл оюун, машин сургалт зэрэг нь ирээдүйд ажил, амьдралын нэгэн том дэд бүтэц болно. Нэг үгээр, тухайн хэлийг хүнээс гадна роботууд эзэмших шаардлагатай болно. Үүнийг 20 гаруй жил цахим хэл шинжлэлээр дагнаж, код бичиж буй С.Бадрал хамгийн сайн мэднэ.
Анх КТМС-д сурч байхдаа бакалаврын судалгаагаа яриаг бичвэрт хувиргах системийн сэдвээр хийхийг сонирхож байсан бол өнөөдөр С.Бадрал болон түүний баг ирээдүйд монголоор хүнтэй эсвэл хоорондоо ойлголцох роботуудын “үр хөврөл” байж мэдэх системүүдийг бодитоор бойжуулж байна.
Ирээдүйд роботын уншдаггүй, бичдэггүй, цаашлаад ярьж чаддаггүй хэл хэрэглээнээс улам шахагдана гээд хэлчихвэл дэгсдүүлсэн болохгүй.
Болорсофтынхны хөгжүүлж буй мэдээллийн мониторинг хийдэг бүрэн автомат систем болох “Кудос” ч бас ирээдүйд “Би тэгж бодож байна” гэж хэлж мэдэхээр гайхалтай системийн нэгэн эхлэл юм. Хэрэв та интернэт хэмээх аварга орчинд өөрийн тань талаар эсвэл таны бизнесийн талаар хэрхэн яригдаж буйг Кудос тандан судалж, чухам хэн нь, хэзээ, хаана таны талаар юу ярьж байгааг олоход баттай тусална. Энэ систем нь цахим орчинд тарж буй монгол хэл дээрх текстэн мэдээллийн эерэг, сөрөг эсэхийг тодорхойлж “Энэ муу юу сайн уу?” гэдгийг ойлгох систем гэсэн үг. Мөн Кудосыг маркетинг, хэвлэл мэдээлэл, социологи, хэл шинжлэл гээд олон салбарын сошиал орчны судалгаанд хэрэглэж болно. Цаашдаа энэ систем бичвэрээр зогсохгүй хүний яриаг ойлгодог болох аж.
Цахим хэл шинжлэл ба хиймэл оюуны машин сургалтын технологийг хослуулсан “Эдүгэ” гэх системийн хувьд бол монгол хэл дээрх мэдээллийг автоматаар ангилж, хамгийн хурдтай тархаж буй халуун сэдвийг олох, эерэг сөргөөр ялгах зэргийг өөрөө автоматаар хийдэг. Үүнийгээ Болорсофт “Машин сургалтад суурилсан мэдээллийн хэрэгслийн оюунт тогтолцоо” гэж тодорхойлжээ.
Гэхдээ энэ чиглэлд С.Бадралын багийн бойжуулсан хамгийн амжилттай систем нь яах аргагүй хүний хэл яриаг хиймэл оюунаар боловсруулах технологийн суурь шийдэл болсон Чимэгэ системс юм. Энэ нь бидний дараагийн нийтлэлийн сэдэв болог.