Mājas lapa » » Kas ir rakstzīmju kodējumi, piemēram, ANSI un Unicode, un kā tie atšķiras?

    Kas ir rakstzīmju kodējumi, piemēram, ANSI un Unicode, un kā tie atšķiras?

    ASCII, UTF-8, ISO-8859 ... Jūs, iespējams, esat redzējuši šos dīvainos monķerus, kas peldēja apkārt, bet ko viņi patiesībā nozīmē? Lasiet, kā mēs izskaidrojam, kāda ir rakstzīmju kodēšana un kā šie akronīmi ir saistīti ar vienkāršo tekstu, ko mēs redzam ekrānā.

    Pamatelementi

    Kad mēs runājam par rakstītu valodu, mēs runājam par burtiem, kas ir vārdu veidojošie bloki, kas pēc tam veido teikumus, punktus utt. Burti ir simboli, kas attēlo skaņas. Runājot par valodu, jūs runājat par skaņu grupām, kas sanāk kopā, lai veidotu sava veida jēgu. Katrai valodu sistēmai ir sarežģīts noteikumu un definīciju kopums, kas regulē šīs nozīmes. Ja jums ir vārds, tas ir bezjēdzīgi, ja vien jūs nezināt, no kuras valodas tas ir, un jūs to lietojat kopā ar citiem, kas runā šajā valodā.

    (Granta, Tulu un malajalu skriptu salīdzinājums, attēls no Vikipēdijas)

    Datoru pasaulē mēs lietojam terminu “raksturs”. Raksturs ir sava veida abstrakts jēdziens, ko nosaka konkrēti parametri, bet tā ir būtiskākā jēdziena vienība. Latīņu “A” nav tas pats, kas grieķu “alfa” vai arābu “alif”, jo viņiem ir dažādi konteksti - viņi ir no dažādām valodām un ir nedaudz atšķirīgi, tāpēc mēs varam teikt, ka tie ir atšķirīgi. Rakstzīmju vizuālo attēlojumu sauc par “glifu”, un dažādi glifu komplekti tiek saukti par fontiem. Rakstzīmju grupas pieder pie “kopas” vai “repertuāra”.

    Kad ierakstāt rindkopu un maināt fontu, jūs nemaināt burtu fonētiskās vērtības, jūs maināt to izskatu. Tas ir tikai kosmētisks (bet ne mazsvarīgs!). Dažām valodām, piemēram, senajai ēģiptiešu un ķīniešu valodai, ir ideogrammas; tās pārstāv skaņas, nevis visas idejas, un to izrunu skaits laika un attāluma ziņā var mainīties. Ja aizvietojat vienu rakstzīmi citai personai, jūs aizvietojat ideju. Tas ir vairāk nekā tikai burtu maiņa, tas mainās ideogrammā.

    Rakstzīmju kodēšana

    (Attēls no Wikipedia)

    Kad ievadāt kaut ko tastatūrā vai ielādējat failu, kā dators zina, ko rādīt? Tas ir tas, ko rakstzīmju kodējums ir paredzēts. Teksts datorā faktiski nav burti, tas ir virkne pārī savienotu burtu un ciparu vērtību. Rakstzīmju kodējums darbojas kā atslēga, kurai vērtības atbilst kādām rakstzīmēm, līdzīgi kā ortogrāfija nosaka, kuras skaņas atbilst burtiem. Morzes kods ir sava veida rakstzīmju kodējums. Tas izskaidro, kā garās un īsās vienības, piemēram, pīkstieni, raksturo rakstzīmes. Morzes kodā rakstzīmes ir tikai angļu burti, skaitļi un pilna apstāšanās. Ir daudz datoru rakstzīmju kodējumu, kas tulko burtu, ciparu, akcentu zīmju, pieturzīmju, starptautisko simbolu utt..

    Bieži vien šajā jautājumā tiek lietots termins “kodu lapas”. Tās būtībā ir rakstzīmju kodējumi, ko izmanto konkrēti uzņēmumi, bieži vien ar nelielām izmaiņām. Piemēram, Windows 1252 koda lapa (agrāk pazīstama kā ANSI 1252) ir ISO-8859-1 modificēta forma. Tās galvenokārt izmanto kā iekšējo sistēmu, lai atsauktos uz standarta un modificētiem rakstzīmju kodējumiem, kas ir raksturīgi vienām un tām pašām sistēmām. Sākumā rakstzīmju kodēšana nebija tik svarīga, jo datori nav sazinājušies savā starpā. Tā kā internets izceļas un tīklošana ir izplatīta parādība, tā ir kļuvusi par arvien svarīgāku mūsu ikdienas dzīvi bez mums pat saprotot to.

    Daudzi dažādi veidi

    (Attēls no sarah sosiak)

    Ir daudz dažādu rakstzīmju kodējumu, un tam ir daudz iemeslu. Kāds rakstzīmju kodējums, kuru izvēlaties izmantot, ir atkarīgs no jūsu vajadzībām. Ja jūs sazināties krievu valodā, ir lietderīgi izmantot rakstzīmju kodējumu, kas atbalsta kirilicu. Ja jūs sazināties korejiešu valodā, tad jūs vēlaties kaut ko, kas labi atspoguļo Hangulu un Hanju. Ja jūs esat matemātiķis, tad jūs vēlaties kaut ko, kas labi atspoguļo visus zinātniskos un matemātiskos simbolus, kā arī grieķu un latīņu valodas simbolus. Ja jūs esat pranksteris, varbūt jūs varētu gūt labumu no augšupvērsta teksta. Un, ja vēlaties, lai visi šie dokumentu veidi tiktu apskatīti kādai konkrētai personai, vēlaties, lai kodējums, kas ir diezgan bieži un viegli pieejams.

    Apskatīsim dažus no biežāk lietotajiem.

    (Izvilkums no ASCII tabulas, attēls no asciitable.com)

    • ASCII - Amerikāņu informācijas apmaiņas standarta kods ir viens no vecākajiem rakstzīmju kodējumiem. Sākotnēji tas tika izstrādāts, pamatojoties uz telegrāfa kodiem un laika gaitā attīstījās, iekļaujot vairāk simbolu un dažus tagad novecojušus bezdrukas kontroles rakstzīmes. Iespējams, tas ir tikpat vienkāršs kā mūsdienu sistēmās, jo tas ir tikai latīņu alfabēts bez akcentētām rakstzīmēm. Tā 7 bitu kodējums ļauj izmantot tikai 128 rakstzīmes, tāpēc visā pasaulē tiek izmantoti vairāki neoficiāli varianti.
    • ISO-8859 - Starptautiskās standartizācijas organizācijas visplašāk izmantotā rakstzīmju kodējumu grupa ir numurs 8859. Katru konkrēto kodējumu apzīmē ar numuru, ko bieži vien raksturo aprakstošs moniker, piem. ISO-8859-3 (Latin-3), ISO-8859-6 (latīņu / arābu). Tas ir ASCII superset, kas nozīmē, ka pirmās 128 kodēšanas vērtības ir tādas pašas kā ASCII. Tomēr tas ir 8 bitu, un tas ļauj 256 rakstzīmes, tāpēc tas no tā izveidojas un ietver daudz plašāku rakstzīmju klāstu, katram konkrētam kodējumam koncentrējoties uz dažādiem kritēriju kopumiem. Latīņu-1 bija iekļauts virkne akcentētu burtu un simbolu, bet vēlāk tika aizstāts ar pārskatītu komplektu, ko sauc par latīņu-9, kas ietver atjauninātus zīmogus, piemēram, eiro simbolu.

    (Izvilkums no Tibetas skripta, Unicode v4, no unicode.org)

    • Unikode - Šis kodēšanas standarta mērķis ir universālums. Pašlaik tajā ir 93 skripti, kas sakārtoti vairākos blokos, daudz vairāk darbos. Unicode darbojas citādi, nekā citas rakstzīmju kopas, jo tā vietā, lai tieši marķētu glifu, katra vērtība tiek novirzīta tālāk uz “koda punktu”. , piem., Web pārlūku. Šie koda punkti parasti tiek attēloti šādi: U + 0040 (kas nozīmē "@"). Konkrēti kodi saskaņā ar Unicode standartu ir UTF-8 un UTF-16. UTF-8 mēģina nodrošināt maksimālu saderību ar ASCII. Tas ir 8 bitu, bet ļauj visām rakstzīmēm, izmantojot aizvietošanas mehānismu un vairākas vērtības pāriem uz raksturu. UTF-16 grāvji ir ideāli saderīgi ar ASCII, lai iegūtu pilnīgāku 16 bitu saderību ar standartu.
    • ISO-10646 - Tas nav faktiskais kodējums, tikai unikoda, kas ir standartizēts ar ISO, rakstzīmju kopa. Tas ir galvenokārt svarīgi, jo tas ir rakstzīmju repertuārs, ko izmanto HTML. Dažas no progresīvākajām funkcijām, ko nodrošina Unicode, kas ļauj veikt salīdzināšanu un labo-kreiso pusi līdzās kreisajam-labajam skriptam, trūkst. Tomēr tas darbojas ļoti labi lietošanai internetā, jo tas ļauj izmantot dažādus skriptus un ļauj pārlūkprogrammai interpretēt glifus. Tas atvieglo lokalizāciju.

    Kas jālieto kodēšanai??

    Nu, ASCII darbojas lielākajā daļā angļu valodas runātāju, bet ne daudz citu. Biežāk jūs redzēsiet ISO-8859-1, kas darbojas lielākajā daļā Rietumeiropas valodu. Citas ISO-8859 versijas strādā ar kirilicu, arābu, grieķu vai citiem īpašiem skriptiem. Tomēr, ja vēlaties parādīt vairākus skriptus vienā dokumentā vai tajā pašā tīmekļa lapā, UTF-8 nodrošina daudz labāku saderību. Tas arī darbojas ļoti labi cilvēkiem, kuri izmanto pareizas pieturzīmes, matemātikas simbolus vai aproču rakstzīmes, piemēram, kvadrātu un izvēles rūtiņu.

    (Vairākas valodas vienā dokumentā, gujaratsamachar.com ekrānuzņēmums)

    Tomēr katrā komplektā ir trūkumi. ASCII pieturzīmēs ir ierobežots, tāpēc tas nedarbojas ļoti labi tipogrāfiski pareiziem labojumiem. Vienmēr ierakstiet kopēt / ielīmēt no Word tikai, lai iegūtu kādu dīvainu kombināciju no glifiem? Tas ir ISO-8859 trūkums, vai, precīzāk, tā iespējamā sadarbspēja ar OS specifiskām koda lapām (mēs skatāmies YOU, Microsoft!). UTF-8 galvenais trūkums ir pareiza atbalsta trūkums lietojumprogrammu rediģēšanā un publicēšanā. Vēl viena problēma ir tā, ka pārlūkprogrammas bieži neizskaidro un vienkārši parāda UTF-8 kodēta rakstura baitu secību. Rezultātā tiek parādīti nevēlami simboli. Un, protams, paziņojot, ka viena kodēšana un citas rakstzīmes tiek izmantotas, nepaziņojot / nepareizi norādot tās uz tīmekļa lapas, pārlūkprogrammām ir grūti tos pareizi attēlot, un meklētājprogrammām, lai tās pareizi indeksētu.

    Saviem dokumentiem, manuskriptiem utt. Jūs varat izmantot visu, kas nepieciešams, lai veiktu darbu. Runājot par tīmekli, šķiet, ka lielākā daļa cilvēku piekrīt izmantot UTF-8 versiju, kas neizmanto baitu pasūtījuma zīmi, bet tas nav pilnīgi vienprātīgs. Kā redzat, katram rakstzīmju kodējumam ir savs lietojums, konteksts un stiprās un vājās puses. Kā gala lietotājs jums, iespējams, nebūs jārīkojas, bet tagad jūs varat veikt papildu soli uz priekšu.