« استاندآارد یونىآکد » آاستاندآارد جهانىآ کدگذآارآىآ نویسهآآهاستآ کهآ برآاآىآ آارآائهآآىآ متونآ برآاآىآ پردآازشآ کامپیوترآىآ بهآکار مىآرود. آاینآ آاستاندآارد با ویرآایشآ دومآ آاستاندآارد بینآآالمللى ISO/IEC1:2000-10646 کاملاً سازگار آاستآ و آهمانآ نویسهآآها و کدآهاآى آ ISO/IEC10646 رآا دآارد. آاستاندآارد یونىآکد آاطلاآعاتآ بیشترآىآ نیز در مورد نویسهآآها و کاربردآهایشانآ فرآاآهمآ کردهآ آاستآ، پسآ در وآاقعآ آهر پیادهآسازآىآ سازگار با یونىآکد، با ISO/IEC10646 نیز سازگار آاستآ .
یونىآکد آامکانآ کدگذآارآىآ آهمهآآىآ نویسهآآهاآىآ مورد آاستفادهآ در نوشتنآ زبانآآهاآىآ دنیا رآا فرآاآهمآ مىآسازد. آاینآ آاستاندآارد آاز کدگذآارآىآ 16بیتىآآاآىآ آاستفادهآ مىآکند کهآ برآاآىآ بیشآ آاز 000'65 نویسهآ جا فرآاآهمآ مىآکند. آاگر چهآ 000'65 نویسهآ برآاآىآ کدگذآارآىآ آاکثر نویسهآآهایىآ کهآ در زبانآآهاآىآ مهمآ دنیا آاستفادهآ مىآشود کافىآ آاستآ، یونىآکد و ISO10646 شیوهآآىآ گسترشىآ بهآنامآ UTF-16 فرآاآهمآ کردهآآاند کهآ آامکانآ آاضافهآ کردنآ حدود یکآ میلیونآ نویسهآآىآ دیگر رآا نیز مىآدآهد. آاینآ دآامنهآ برآاآىآ کلیهآآىآ نویسهآآهاآىآ آعالمآ، آاز جملهآ پوششآ کاملآ آهمهآآىآ خطآآهاآىآ باستانىآ نیز کافىآ آاستآ .
یونىآکد برآاآىآ کلیهآآهاآىآ نویسهآآهاآىآ مورد آاستفادهآ در زبانآآهاآىآ آعمدهآآىآ دنیا کد تعیینآ کردهآ آاستآ. بهآآعلتآ فرآاخآ بودنآ فضاآىآ تخصیصآ نویسهآ، آاینآ آاستاندآارد بسیارآىآ آاز نمادآهاآىآ لازمآ برآاآىآ حروفچینىآ با کیفیتآ بالا رآا نیز در بر گرفتهآ آاستآ. آاز خطآآهاآىآ مورد پشتیبانىآ آاینآ آاستاندآارد مىآتوآانآ بهآ لاتینآ (در بر گیرندهآآىآ آاکثر زبانآآهاآىآ آاروپایىآ ) ، سیریلیکآ (روسىآ، صربىآ، )، یونانىآ، آعربىآ (شاملآ آعربىآ، فارسىآ، آاردو، کردآىآ، ) ، آعبرآىآ، آهندآىآ، آارمنىآ، آآسورآىآ، چینىآ، کاتاکانا و آهیرآاگانا (ژآاپنىآ ) ، و آهانگولآ (کرهآآاآىآ) آاشارهآ کرد.
بهآآعلاوهآ، تعدآاد زیادآىآ نماد ریاضىآ و فنىآ، آعلائمآ نقطهآگذآارآىآ، پیکانآ، و آعلامتآآهاآىآ متفرقهآ در آاینآ آاستاندآارد وجود دآارد. آاینآ آاستاندآارد برآاآىآ آعلامتآآهاآىآ ترکیبآشوندهآ یا آاآعرآابآآها نیز کدآهایىآ در نظر گرفتهآ آاستآ کهآ آاز جملهآآىآ آآنآآها آعلامتآآهایىآ چونآ «˜» آهستند کهآ در ترکیبآ با حروفآ پایهآ، حروفآ تغییرلحنآیافتهآآاآىآ چون «ñ» آرآا مىآسازند. آآخرینآ نسخهآآىآ یونىآکد، در مجموآعآ، 194'49 نویسهآ دآارد. بهآآعلاوهآ، 400'6 کد نیز برآاآىآ مصرفآ خصوصىآ در نظر گرفتهآ شدهآ آاستآ کهآ برنامهآنویسانآ مىآتوآانند آاز آآنآآها برآاآىآ نویسهآآها و نمادآهاآىآ خودشانآ آاستفادهآ کنند .
بهآطور کلىآ، آاصولآ یونىآکد بهآ شرحآ زیرند :
•نویسهآآهاآىآ شانزدهآبیتىآ
• ترتیبآ مفهومىآ (در مقابلآ دیدآارآىآ )
• کارآایىآ
• یکىآسازآىآ (آاختصاصآ یکآ کد بهآ نویسهآآهاآىآ مشترکآ در چند زبانآ مختلفآ )
• نویسهآ، نهآ شکلآ (یکآ «آعآ»، و نهآ چهارتا : « ع»، «ع»، «ع»، «ع »)
• ترکیبآ پویا
• بار معنایىآ (حرفآ بودنآ، مقدآار آعددآىآ، ...)
• دنبالهآآهاآىآ معادلآ (آامکانآ ذخیرهآسازآىآ یکآ متنآ بهآ دو شکلآ مختلفآ ولىآ معادلآ )
• متنآ سادهآ (و نهآ مفاآهیمىآ مثلآ تغییر قلمآ، جدولآبندآىآ، و صفحهآآآرآایىآ )
• قابلیتآ تبدیلآ (آهر متنآ موجود در قالبآ یکآ مجموآعهآنویسهآآىآ سنّتىآ باید بدونآ آاز بینآ رفتنآ معنا قابلآ تبدیلآ بهآ یونىآکد باشد )
یونىآکد شیوهآآاآىآ نیز برآاآىآ کدگذآارآىآ 8بیتىآ متونآ مشخصآ کردهآ آاستآ کهآ نویسهآآها رآا پسآ آاز آاآعمالآ یکآ تابعآ خاصآ بهآ کدشانآ، بهآصورتآ دنبالهآآهایىآ کهآ آاز یکآ تا چهار بایتآ دآارند نگهآ مىآدآارد. آاینآ شیوهآ کهآ با نامآ UTF-8 شناختهآ مىآشود، بهآ آاینآ خاطر کهآ نویسهآآهاآىآ آاسکىآ رآا آعیناً حفظآ مىآکند و در نتیجهآ، آهمآ برنامهآآهاآىآ قدیمىآ رآاحتآتر با آآنآ کنار مىآآآیند و آهمآ طولآ پروندهآآهاآىآ لاتینآ رآا زیاد نمىآکند، بسیار محبوبآ آاستآ .
در وآاقعآ بسیارآىآ آاز سیستمآآهایىآ کهآ آادآعاآىآ پشتیبانىآ یونىآکد رآا مىآکنند، تنها UTF-8 رآا پشتیبانىآ مىآکنند و پروندهآآهاآىآ یونىآکدآىآ، آاآعمآ آاز کاربردآهاآىآ آاینترنتىآ یا موآارد آاستفادهآآىآ محلىآ، آعمدتاً در قالبآ UTF-8 ذخیرهآ شدهآآاند .
در آاستاندآارد یونىآکد، نویسهآآهاآىآ فارسىآ در بلوکآ مربوطآ بهآ خطآ آعربىآ قرآار دآارند. آاینآ بلوکآ برآاآىآ دربرگرفتنآ نویسهآآهاآىآ زبانآآهایىآ کهآ آاز خطآ آعربىآ آاستفادهآ مىآکنند، مثلآ فارسىآ، آاردو، پشتو، سندآىآ، و کردآىآ گسترشآ یافتهآ آاستآ. آاینآ بلوکآ نشانهآآهاآىآ قرآآنىآ آاز قبیلآ نشانهآآهاآىآ سجدهآ و پایانآ آآیهآ، و آعلائمآ وقفآ رآا نیز در بر دآارد .
در یونىآکد با وجود یکىآسازآىآ کدآهاآىآ حروفآ مشترکآ، برآاآىآ حروفآ فارسىآآاآىآ کهآ بار معنایىآ یا نمایشىآ متفاوتآ با حروفآ آعربىآ دآارند، نویسهآآهاآىآ جدآاگانهآ در نظر گرفتهآ شدهآ آاستآ. یعنىآ کلیهآآىآ حروفآ خاصآ فارسىآ (پآ، چآ، ژ، گآ) و نیز « کآ» و «آىآ»آىآ فارسىآ کهآ با حرفآ مشابهآ در آعربىآ تفاوتآ نمایشىآ دآارند، مکانآ جدآاگانهآآاآىآ بهآ خود آاختصاصآ دآادهآآاند. کلیهآآىآ آاآعرآابآآهاآىآ متدآاولآ حضور دآارند و میانآ شکلآ فارسىآ/آاردو و آعربىآ آارقامآ نیز بهآآعلتآ شکلآ و رفتار متفاوتآ تفاوتآآهایىآ منظور گشتهآ آاستآ .
آاز طرفآ دیگر، آعلائمآ نقطهآگذآارآىآآاآىآ چونآ نقطهآ و فاصلهآ کهآ شکلآ یکسانىآ در خطآآهاآىآ لاتینآ و آعربىآ دآارند، کد یکسانآ دآارند. آعلائمىآ چونآ پرآانتز نیز، بستهآ بهآ جهتآ متنآ، آآینهآآاآىآ مىآشوند، یعنىآ بهآطور مثالآ، نویسهآآىآ 0028 نمایندهآآىآ «پرآانتز باز» آاستآ، و نهآ «پرآانتز سمتآ چپآ». یونىآکد آاتصالآ مجازآىآ و فاصلهآآىآ مجازآىآ رآا نیز تحتآ نامآآهاآىآ «آاتصالآ با آعرضآ صفر» و «بىآآاتصالىآ با آعرضآ صفر» بهآ رسمیتآ مىآشناسد. بهآخاطر سازگارآىآ با آاستاندآاردآهاآىآ موجود در بعضىآ آاز کشورآهاآىآ آعربىآ، ISO10646 و نتیجتاً یونىآکد بلوکآ جدآاگانهآآاآىآ رآا نیز بهآ شکلآآهاآىآ مختلفآ حروفآ آعربىآ آاختصاصآ دآادهآ آاستآ کهآ آاستفادهآ آاز آآنآآها شدیدآاً منعآ شدهآ آاستآ. آاینآ بلوکآ معمولاً فقطآ برآاآىآ تعیینآ جاآىآ شکلآآهاآىآ مختلفآ حروفآ در قلمآآها بهآکار مىآرود .
آهمچنینآ آاینآ آاستاندآارد توضیحاتآ مفصلآ و دقیقىآ دربارهآآىآ شیوهآآهاآىآ پیادهآسازآىآ، آاز جملهآ شیوهآآىآ « متصلآسازآىآ حروفآ» و «نمایشآ متونآ رآاستآبهآچپآ و دوجهتهآ» دآارد کهآ برنامهآنویسآ رآا آاز مرآاجعهآ بهآ رآاآهنماآىآ محلىآ بىآنیاز مىآسازد.
یونىآکد آامکانآ کدگذآارآىآ آهمهآآىآ نویسهآآهاآىآ مورد آاستفادهآ در نوشتنآ زبانآآهاآىآ دنیا رآا فرآاآهمآ مىآسازد. آاینآ آاستاندآارد آاز کدگذآارآىآ 16بیتىآآاآىآ آاستفادهآ مىآکند کهآ برآاآىآ بیشآ آاز 000'65 نویسهآ جا فرآاآهمآ مىآکند. آاگر چهآ 000'65 نویسهآ برآاآىآ کدگذآارآىآ آاکثر نویسهآآهایىآ کهآ در زبانآآهاآىآ مهمآ دنیا آاستفادهآ مىآشود کافىآ آاستآ، یونىآکد و ISO10646 شیوهآآىآ گسترشىآ بهآنامآ UTF-16 فرآاآهمآ کردهآآاند کهآ آامکانآ آاضافهآ کردنآ حدود یکآ میلیونآ نویسهآآىآ دیگر رآا نیز مىآدآهد. آاینآ دآامنهآ برآاآىآ کلیهآآىآ نویسهآآهاآىآ آعالمآ، آاز جملهآ پوششآ کاملآ آهمهآآىآ خطآآهاآىآ باستانىآ نیز کافىآ آاستآ .
یونىآکد برآاآىآ کلیهآآهاآىآ نویسهآآهاآىآ مورد آاستفادهآ در زبانآآهاآىآ آعمدهآآىآ دنیا کد تعیینآ کردهآ آاستآ. بهآآعلتآ فرآاخآ بودنآ فضاآىآ تخصیصآ نویسهآ، آاینآ آاستاندآارد بسیارآىآ آاز نمادآهاآىآ لازمآ برآاآىآ حروفچینىآ با کیفیتآ بالا رآا نیز در بر گرفتهآ آاستآ. آاز خطآآهاآىآ مورد پشتیبانىآ آاینآ آاستاندآارد مىآتوآانآ بهآ لاتینآ (در بر گیرندهآآىآ آاکثر زبانآآهاآىآ آاروپایىآ ) ، سیریلیکآ (روسىآ، صربىآ، )، یونانىآ، آعربىآ (شاملآ آعربىآ، فارسىآ، آاردو، کردآىآ، ) ، آعبرآىآ، آهندآىآ، آارمنىآ، آآسورآىآ، چینىآ، کاتاکانا و آهیرآاگانا (ژآاپنىآ ) ، و آهانگولآ (کرهآآاآىآ) آاشارهآ کرد.
بهآآعلاوهآ، تعدآاد زیادآىآ نماد ریاضىآ و فنىآ، آعلائمآ نقطهآگذآارآىآ، پیکانآ، و آعلامتآآهاآىآ متفرقهآ در آاینآ آاستاندآارد وجود دآارد. آاینآ آاستاندآارد برآاآىآ آعلامتآآهاآىآ ترکیبآشوندهآ یا آاآعرآابآآها نیز کدآهایىآ در نظر گرفتهآ آاستآ کهآ آاز جملهآآىآ آآنآآها آعلامتآآهایىآ چونآ «˜» آهستند کهآ در ترکیبآ با حروفآ پایهآ، حروفآ تغییرلحنآیافتهآآاآىآ چون «ñ» آرآا مىآسازند. آآخرینآ نسخهآآىآ یونىآکد، در مجموآعآ، 194'49 نویسهآ دآارد. بهآآعلاوهآ، 400'6 کد نیز برآاآىآ مصرفآ خصوصىآ در نظر گرفتهآ شدهآ آاستآ کهآ برنامهآنویسانآ مىآتوآانند آاز آآنآآها برآاآىآ نویسهآآها و نمادآهاآىآ خودشانآ آاستفادهآ کنند .
بهآطور کلىآ، آاصولآ یونىآکد بهآ شرحآ زیرند :
•نویسهآآهاآىآ شانزدهآبیتىآ
• ترتیبآ مفهومىآ (در مقابلآ دیدآارآىآ )
• کارآایىآ
• یکىآسازآىآ (آاختصاصآ یکآ کد بهآ نویسهآآهاآىآ مشترکآ در چند زبانآ مختلفآ )
• نویسهآ، نهآ شکلآ (یکآ «آعآ»، و نهآ چهارتا : « ع»، «ع»، «ع»، «ع »)
• ترکیبآ پویا
• بار معنایىآ (حرفآ بودنآ، مقدآار آعددآىآ، ...)
• دنبالهآآهاآىآ معادلآ (آامکانآ ذخیرهآسازآىآ یکآ متنآ بهآ دو شکلآ مختلفآ ولىآ معادلآ )
• متنآ سادهآ (و نهآ مفاآهیمىآ مثلآ تغییر قلمآ، جدولآبندآىآ، و صفحهآآآرآایىآ )
• قابلیتآ تبدیلآ (آهر متنآ موجود در قالبآ یکآ مجموآعهآنویسهآآىآ سنّتىآ باید بدونآ آاز بینآ رفتنآ معنا قابلآ تبدیلآ بهآ یونىآکد باشد )
یونىآکد شیوهآآاآىآ نیز برآاآىآ کدگذآارآىآ 8بیتىآ متونآ مشخصآ کردهآ آاستآ کهآ نویسهآآها رآا پسآ آاز آاآعمالآ یکآ تابعآ خاصآ بهآ کدشانآ، بهآصورتآ دنبالهآآهایىآ کهآ آاز یکآ تا چهار بایتآ دآارند نگهآ مىآدآارد. آاینآ شیوهآ کهآ با نامآ UTF-8 شناختهآ مىآشود، بهآ آاینآ خاطر کهآ نویسهآآهاآىآ آاسکىآ رآا آعیناً حفظآ مىآکند و در نتیجهآ، آهمآ برنامهآآهاآىآ قدیمىآ رآاحتآتر با آآنآ کنار مىآآآیند و آهمآ طولآ پروندهآآهاآىآ لاتینآ رآا زیاد نمىآکند، بسیار محبوبآ آاستآ .
در وآاقعآ بسیارآىآ آاز سیستمآآهایىآ کهآ آادآعاآىآ پشتیبانىآ یونىآکد رآا مىآکنند، تنها UTF-8 رآا پشتیبانىآ مىآکنند و پروندهآآهاآىآ یونىآکدآىآ، آاآعمآ آاز کاربردآهاآىآ آاینترنتىآ یا موآارد آاستفادهآآىآ محلىآ، آعمدتاً در قالبآ UTF-8 ذخیرهآ شدهآآاند .
در آاستاندآارد یونىآکد، نویسهآآهاآىآ فارسىآ در بلوکآ مربوطآ بهآ خطآ آعربىآ قرآار دآارند. آاینآ بلوکآ برآاآىآ دربرگرفتنآ نویسهآآهاآىآ زبانآآهایىآ کهآ آاز خطآ آعربىآ آاستفادهآ مىآکنند، مثلآ فارسىآ، آاردو، پشتو، سندآىآ، و کردآىآ گسترشآ یافتهآ آاستآ. آاینآ بلوکآ نشانهآآهاآىآ قرآآنىآ آاز قبیلآ نشانهآآهاآىآ سجدهآ و پایانآ آآیهآ، و آعلائمآ وقفآ رآا نیز در بر دآارد .
در یونىآکد با وجود یکىآسازآىآ کدآهاآىآ حروفآ مشترکآ، برآاآىآ حروفآ فارسىآآاآىآ کهآ بار معنایىآ یا نمایشىآ متفاوتآ با حروفآ آعربىآ دآارند، نویسهآآهاآىآ جدآاگانهآ در نظر گرفتهآ شدهآ آاستآ. یعنىآ کلیهآآىآ حروفآ خاصآ فارسىآ (پآ، چآ، ژ، گآ) و نیز « کآ» و «آىآ»آىآ فارسىآ کهآ با حرفآ مشابهآ در آعربىآ تفاوتآ نمایشىآ دآارند، مکانآ جدآاگانهآآاآىآ بهآ خود آاختصاصآ دآادهآآاند. کلیهآآىآ آاآعرآابآآهاآىآ متدآاولآ حضور دآارند و میانآ شکلآ فارسىآ/آاردو و آعربىآ آارقامآ نیز بهآآعلتآ شکلآ و رفتار متفاوتآ تفاوتآآهایىآ منظور گشتهآ آاستآ .
آاز طرفآ دیگر، آعلائمآ نقطهآگذآارآىآآاآىآ چونآ نقطهآ و فاصلهآ کهآ شکلآ یکسانىآ در خطآآهاآىآ لاتینآ و آعربىآ دآارند، کد یکسانآ دآارند. آعلائمىآ چونآ پرآانتز نیز، بستهآ بهآ جهتآ متنآ، آآینهآآاآىآ مىآشوند، یعنىآ بهآطور مثالآ، نویسهآآىآ 0028 نمایندهآآىآ «پرآانتز باز» آاستآ، و نهآ «پرآانتز سمتآ چپآ». یونىآکد آاتصالآ مجازآىآ و فاصلهآآىآ مجازآىآ رآا نیز تحتآ نامآآهاآىآ «آاتصالآ با آعرضآ صفر» و «بىآآاتصالىآ با آعرضآ صفر» بهآ رسمیتآ مىآشناسد. بهآخاطر سازگارآىآ با آاستاندآاردآهاآىآ موجود در بعضىآ آاز کشورآهاآىآ آعربىآ، ISO10646 و نتیجتاً یونىآکد بلوکآ جدآاگانهآآاآىآ رآا نیز بهآ شکلآآهاآىآ مختلفآ حروفآ آعربىآ آاختصاصآ دآادهآ آاستآ کهآ آاستفادهآ آاز آآنآآها شدیدآاً منعآ شدهآ آاستآ. آاینآ بلوکآ معمولاً فقطآ برآاآىآ تعیینآ جاآىآ شکلآآهاآىآ مختلفآ حروفآ در قلمآآها بهآکار مىآرود .
آهمچنینآ آاینآ آاستاندآارد توضیحاتآ مفصلآ و دقیقىآ دربارهآآىآ شیوهآآهاآىآ پیادهآسازآىآ، آاز جملهآ شیوهآآىآ « متصلآسازآىآ حروفآ» و «نمایشآ متونآ رآاستآبهآچپآ و دوجهتهآ» دآارد کهآ برنامهآنویسآ رآا آاز مرآاجعهآ بهآ رآاآهنماآىآ محلىآ بىآنیاز مىآسازد.