Այս հատուածը Երկիր Նայիրիից․

«Բերդը շինել են նայիրցիները, բայց, դժբախտաբար, այդ նոյն բերդն է հիմա եկուոր սրիկաներին ― սոխերին ― պաշտպանում թէ մեզնից, բերդի եւ քաղաքի իսկական տէրերից ― եւ թէ ամեն մի թշնամուց: Օրը կը գայ ― եւ նրանք կը գնան:»

Հետաքրքիր է, որ Վիքիդարանում «սոխերը» կան, իսկ Ըհաուզքիփերի մոտ՝ չէ․

https://hy.wikisource.org/wiki/Երկիր_Նաիրի/Մասն_առաջին

http://armenianhouse.org/charents/yerkir-nairi/04-part-i.html

հաւանաբար տարբեր խմբագրութիւններով է գիրքը դուրս եկել, ու մի անգամ խուսափել է գրաքննութիւնից, միւս անգամ՝ չէ, կամ ոչ այնքան։

կարող է թուալ, որ «մալիշկա» գիւղի անունը սլաւոնական ծագումնաբանութիւն ունի։

պարզւում է, «մալ» բարբառներում նշանակում է՝ «անասուն», «կենդանի»։ ասենք գիւմրում կասեն՝ «ինչխ որ մալ էղնիս»։

«իշկա»՝ «աշել», «իշել» — անասուններին նայել, «մեյնթեյն» անելն է։

մալիշկան — անասնապահների գիւղն է։

ու իրօք, այնտեղ ասենք մոլոկաններ չեն ապրել, որտե՞ղից սլաւոնական անուանում լինէր։

«քարահունջ»֊ի հայերէն մենիւն արեւմտահայերէն էլ է։

արեւմտահայերէն քամած մածունին լապնէ (լաբնէ) են ասում։ քանի որ արաբերէն «լաբնա» նշանակում է՝ սպիտակ։ այս արմատը նաեւ կապ ունի լիբանան անուան հետ՝ դա այն քիչ արաբական երկրներից է (եթէ ոչ միակ) ուր ձիւն է գալիս։

Բարաթեանի անգլերէն֊հայերէն բառարանը

Այ֊այստեղ կայ Բարաթեանի բառարանի pdf նիշք։

Իր հետ, սակայն շատ բան չես անի՝ armscii-8 կոդաւորում, տպելու համար նախատեսուած ֆորմատ։

Իսկ մեզ (յուսով եմ ոչ միայն ինձ) կրկին պէտք է էլեկտրոնային ազատ ֆորմատի բառարան, չէ՞։ Ահա, ստացայ։

stardict_baratian0

Ներբեռնել ստարդիկտ ֆորմատով այստեղ։

ելատեքստը, որի միջոցով ստացայ տաբ֊երով բաժանուած նիշք՝ այստեղ։

եւ ինքը՝ տաբ֊երով բաժանուած նիշքը որպէս աղբիւր՝ այստեղ։

վայելէք։ (:

հ․ գ․

մի քիչ պատմեմ գործընթացի մասին։

նախ, ես փորձում էի կիրառել poppler փաթեթի pdftotext֊ը, փիդիէֆ նիշքից տեքստ ստանալու համար։

սակայն կար հիմնական երկու խնդիր․

առաջին խնդիրը՝ կոդաւորումների հետ խառնաշփոթն էր։ լռելեան pdftotext֊ը ենթադրում է որ -enc UTF-8 արգումենտը։ ի դէպ, առաջ դա -enc Latin1 էր։ Ինչեւէ, այդ դէպքում, տրանսկրիպցիան ճիշտ էր երեւում, իսկ բառարանի հայերէն armscii-8 տեքստը դառնում էր մուլտիբայթ անհասկանալի մի բան, ինչ֊որ փչացած կոդաւորում։

եթէ կիրառում էի -enc Latin1, ապա pdftotext֊ը միայն Latin1 սեգմենտի տառերն էր վերցնում գրքից, իսկ Լատին մէկի ոչ բոլոր նիշերն են ընկած armscii-8֊ի տիրոյթում, եւ տառերի մի մասը կորում էին։

լուծեցի այսպէս՝ երկու նիշք էի ստանում, utf-8 եւ ucs-2 արգումենտներով։ առաջինից վերցնում էի տրանսկրիպցիաները, երկրորդի մէջ ամէն armscii-8 նիշը դառնում էր երկու բայթ, որի առաջին բայթը 00 էր, իսկ երկրորդը՝ նոյն այդ armscii-8 նիշը, եւ այսպէս 00֊ն արհամարհելով լինում էր աշխատել։

երկրորդ խնդիրը՝ այդ տեքստը չափազանց ոչ ռեգուլյար տեսք ունէր, ու կոդի մէջ լիքը բացառութիւններ էի աւելացնում։

երբեմն տողերն էին խառնուած, իսկ մի անգամ, ասենք bethink բառի տրանսկրիպցիան, թռել֊գնացել էր էջի վերջը։

Եւ դա արդէն լուծւում էր միմիայն ահաւոր շատ բացառութիւններ եւ ֆիքսումներ անելով տեքստի մէջ։

Բնական է, ես սկսեցի ատել այդ կոդը։

Փորձեցի լիքը այլ գործիքներ փիդիէֆ֊ից տեքստ ստանալու համար, ներառեալ podofo, ghostscript, եւ abiword (որը պարզւում է կարելի է հրամանային տողից աշխատեցնել, ասել որ կոնուերտի, բայց դրա ելքը նոյնն էր, ինչ pdftotext֊ինը, հաւանաբար այն պոպլերից էր օգտւում)։

մնացածի ելքն էլ ինձ չէր բաւականացնում՝ էլի խառն էր եւ անորակ։

Պարզւում է, սիրելիներս, մենք չունենք լաւ աշխատող ազատ գործիք, որ կարողանում է փիդիէֆ֊ներից տեքստ հանել։ atril֊ում էլ երբ մի բառ նշում ես, ուրիշ տեղ է նշւում։ Այդ իմ նիշքի դէպքում, բնականաբար։ (:

Ստիպուած եղայ փորձել սեփականատիրական acroread։ Տեսնեմ՝ այն ունի հրամանային տողի արգումենտներ (acroread -help), բայց, աւաղ, կարողանում է այդպէս միայն postscript նիշք տալ, եւ ոչ թէ տեքստ։ Իր տուած postscript֊ի մէջ ինձ անհրաժեշտ բան չգտայ, շատ բարդ եւ խառը ելք էր։ Այդ ծրագիրը նաեւ կարող է տեքստ տալ, բայց ոչ հրամանային տողից, այլ file – save as text ընտրելով, ու այդ տեքստը բաւական լաւ կազմ ունի։

Այդ տեքստն էլ օգտագործեցի, կոդն էլ սիրունացաւ։ Դա այն չէ, ինչ ես ուզում էի, քանի որ հիմա ես գիտհաբի շտեմարանում ունեմ որպէս աղբիւր այդ ակրորեադի տուած տեքստը, իսկ ուզում էի քաշել կայքից բարաթեանի բառարանի փիդիէֆ֊ը՝ որ փիդիէֆ֊ից մինչեւ ելքային ստարդիկտ նիշքեր ամէնը կատարուի աւտոմատացուած։

Ակրոբատի ելքն էլ էր պարունակում փչացած կոդաւորում, ինչպէս եւ պոպլերինը, երբ UTF-8 կոդաւորումն է ընտրած։

Հայերէն տեքստը պարունակում էր տարօրինակ շատ c2 եւ c3 նիշեր։

Ուշադիր նայեցի, c2֊ին յաջորդող թիւը՝ դա եղած տառի armsci կոդն է։ իսկ c3֊ից յետոյ գտնուողը պարզ չի ինչպէս է փչացել։ յետոյ նկատեցի, որ overflow է եղել իր կոնուերտացիայի ժամանակ, որը ես կարող եմ կոմպենսացնել, c3֊ին յաջորդող նիշին գումարելով 64։

Ահա, այդ պատճառով իմ կոնուերտեր մոդուլը կատարելագործուեց, ու հիմա ունի corrupted ArmSCII-8 to UTF-8 կոնուերտող ֆունկցիա։

Մնացած մանրուքները լաւ չեմ յիշում։ Կուզէի գտնել լաւ կոնուերտեր ու գործընթացը դարձնել լրիւ աւտոմատ։

այսօր Մարատի հետ էի հանդիպել, խօսեցինք մասնաւորապէս քինդլի համար հայերէն բառարանների մասին, ու մտածեցի, իսկ ինչպէ՞ս կոնուերտել բառարանային տաբ նիշքը քինդլի համար մոբի նիշքի։ կարդացի ու ահա թէ ինչ ստացուեց։

վերցնում ենք ասենք armdicto.tab նիշքը այստեղից՝ http://norayr.am/armdicto/armdicto.zip

մեզ պէտք է

լցնում ենք բոլորը նոյն պանակի մէջ․

փայթըն սկրիպտը թեստաւորել եմ փայթըն երեքով՝

python tab2opf.py armdicto.tab

—————————–

noch@hactar:~/freearmdicto/test$ python tab2opf.py armdicto.tab 
Reading keys
Writing keys
Writing opf
noch@hactar:~/freearmdicto/test$ ls
armdicto0.html  armdicto2.html  armdicto.opf  tab2opf.py
armdicto1.html  armdicto3.html  armdicto.tab

—————————————————

խմբագրում ենք ստացուած armdicto.opf֊ը։

այսպիսի տող կայ, երեւի պէտք է պահել, քանի որ լեզուն անգլերէնն է՝


<dc:Language>EN</dc:Language>

իսկ սա փոխել այսպէս՝

<DictionaryInLanguage>en</DictionaryInLanguage>
<DictionaryOutLanguage>hy</DictionaryOutLanguage>

հիմա պատրաստում ենք մոբի նիշքը

——————————————-

noch@hactar:~/freearmdicto/test$ wine mobigen.exe armdicto.opf 
Application tried to create a window, but no driver could be loaded.
Make sure that your X server is running and that $DISPLAY is set correctly.
err:systray:initialize_systray Could not create tray window

*****************************************
* Mobipocket mobigen.exe V6.2 build 43  *
* A command line e-book compiler        *
* Copyright Mobipocket.com 2003-2008    *
*****************************************

opt version: try to minimize (default)
Info(prcgen): Added metadata dc:Title        "armdicto"
Info(prcgen): Parsing files  0000004
Info(prcgen): Resolving hyperlinks
Warning(prcgen): Cover not specified
Info(prcgen): Computing UNICODE ranges used in the book
Info(prcgen): Found UNICODE range: Basic Latin [20..7E]
Info(prcgen): Found UNICODE range: Armenian [530..58F]
Info(prcgen): Found UNICODE range: Latin-1 Supplement [A0..FF]
Info(prcgen): Building MOBI file, record count:   0000477
Info(prcgen): Final stats - text compressed to (in % of original size):  042.32%
Info(prcgen): The document identifier is: "armdicto"
Info(prcgen): The file format version is V7
Info(prcgen): Saving MOBI file
Info(prcgen): MOBI File generated with WARNINGS!

—————————————–

զգուշացումներն այն պատճառով են, որ պէտք էր cover նիշք աւելացնել։

ահա ստացանք մոբի նիշքը՝

———————————

noch@hactar:~/freearmdicto/test$ ls -al
total 9584
drwxr-xr-x 2 noch noch    4096 Ապր 24 02:37 .
drwxr-xr-x 5 noch noch    4096 Ապր 24 02:34 ..
-rw-r--r-- 1 noch noch 2028791 Ապր 24 02:34 armdicto0.html
-rw-r--r-- 1 noch noch 2081851 Ապր 24 02:34 armdicto1.html
-rw-r--r-- 1 noch noch 1206973 Ապր 24 02:34 armdicto2.html
-rw-r--r-- 1 noch noch     546 Ապր 24 02:34 armdicto3.html
-rw-r--r-- 1 noch noch 1265328 Ապր 24 02:37 armdicto.mobi
-rw-r--r-- 1 noch noch    1511 Ապր 24 02:36 armdicto.opf
-rw-r--r-- 1 noch noch 1675096 Ապր 24 02:34 armdicto.tab
-rw-r--r-- 1 noch noch 1519616 Ապր 24 02:35 mobigen.exe
-r-------- 1 noch noch    9966 Ապր 24 02:34 tab2opf.py

————————————

լցրի քինդլի մէջ, documents պանակի մէջ ստեղծեծի եւս մի պանակ, ու այնտեղ, յետոյ անջատեցի քինդլը համակարգչից, սեղմեցի

սենդուիչի կոճակը գլխաւոր ցանկի աջից

Einstellungen (հաւանաբար Settings, ինձ մօտ գերմաներէն է միջերեսը)

Geräteoptionen (սարքի յատկութիւնները)

Sprache und Wörterbücher (լեզուն ու բառարանը)

Wörterbücher (բառարանը)

այստեղ կայ ցանկ, ու կարելի է ընտրել նոր ստացուած armdicto֊ի նիշքը։

ու ապա թեստ՝

}}

իսկ ահա, որ ինքներդ չգեներացնէք, պատրաստի ․մոբի նիշք՝ dictionaries.arnet.am/armdicto.mobi

հ․ գ․ տեսականօրէն, կայ մոբիգեն ծրագրի լինուքս վարկած (https://disposed.de/pub/mobigen_linux.tar.gz) բայց այն իմ մօտ չաշխատեց, պահանջում է հին լիբսի, հիմնականում այդ պատճառով։ սակայն ուայնով ուին֊ի վարկածը բաւական էր։

… թարմացուած

Կապուել են թուանշային գրադարանից, ասում են, իրենք են ի սկզբանէ թուայնացրել այդ բառարանը։ Կոչւում է Նոր Հայկազեան Բառարան։ Տասնիններորդ դարի բառարան է։ Ես էլ չիմանալով այն անուանում էի էնակադեմիկի բառարան։ Հետաքրքիր է իմանալ ինչպէս այն յայտնուեց էնակադեմիկ կայքում։ Լաւ է որ պարզուեց։

————————————

նախորդ գրառման հետքերով, բացառուած չէ, որ գուգլն էլ է օգտուել իմ կոտրած եւ հասանելի դարձրած «տրոյ»֊ի կազմած «արմդիկտօ» բառարանից՝

Փնտրում ենք «Սիդուդիկտ»֊ում բառը՝

20160420190535
20160420190523

Իսկ ահա գուգլ թարգմանչի արդիւնքները(սեյլֆիշի «թաօ տրանսլատոր» ծրագրով)՝

20160420190551

եւ գուգլի կայքի միջերեսով՝

translate.google.com_2016-04-20_19-15-26

Այդպիսի զուգադիպութիւններ չափազանց շատ էին, երբ գուգլի արդիւնքների բառերի քանակն ու իրենք բառերը լրիւ նոյնն էին, ինչպէս «արմդիկտօ»֊ում։ (:

ու տենց։

այսօր թուանշային գրադարանը ամերիկեան համալսարանի մանուկեան դահլիճում ներկայացրել է իր նոր կայքն ու դիւրակիր ծրագրերը։

կայքը, պարզւում է, ունի նաեւ բառարան։ ընտրեցի պատահական մի բառ, ու փնտրեցի՝

dl

Ժողովուրդ՝

dl_

Յետոյ նայեցի ինչպէս է այս բառը երեւում այն բառարանում, որ ես կարողացել էի քաշել enacademic֊ի կայքից եւ կազմել ազատ ֆորմատի բառարան այս յատուկ այդ համար գրուած ծրագրի օգնութեամբ։ Ահա, այսպէս է երեւում Սեյլֆիշ ՕՀ֊ի «Սիդուդիկտ» ծրագրով՝

20160420183740

Մի հատ էլ բառ, թուանշային գրադարանի բառարան՝

digilib

իմ պատրաստած բառարանը՝

20160420182257

Թւում է թէ թուանշային գրադարանը օգտուել է իմ աշխատանքի արդիւնքներից։ եւ դրանք գոնէ ինչ֊որ մէկին պէտք եկան, եւ հասանելի կը լինեն մարդկանց իրենց կայքի միջոցով։ (:

կամ էլ մենք օգտուել ենք նոյն աղբիւրից։ այդ դէպքում, տեսնես իրենք ինչպէ՞ս են վերցրել տուեալները, ու ո՞րն է իրենց աղբիւրը՝ էնակադեմիկի բառարա՞նը, թէ՞ այլ աղբիւր է։

հ․ գ․ եթէ իրենց կայքից անկախ բառարանից օգտուելու ցանկութիւն կայ, ապա ահա «ստարդիկտ»֊ի ֆորմատով պատրաստի նիշքերը։

մինչ։