اطلاعیه

Collapse
No announcement yet.

تفاوت UTF8 با UTF16

Collapse
X
 
  • فیلتر
  • زمان
  • Show
Clear All
new posts

    تفاوت UTF8 با UTF16

    « استاندآ‌ارد یونىآ‌کد » آ‌استاندآ‌ارد جهانىآ‌ کدگذآ‌ارآ‌ىآ‌ نویسهآ‌آ‌هاستآ‌ کهآ‌ برآ‌اآ‌ىآ‌ آ‌ارآ‌ائهآ‌آ‌ىآ‌ متونآ‌ برآ‌اآ‌ىآ‌ پردآ‌ازشآ‌ کامپیوترآ‌ىآ‌ بهآ‌کار مىآ‌رود. آ‌اینآ‌ آ‌استاندآ‌ارد با ویرآ‌ایشآ‌ دومآ‌ آ‌استاندآ‌ارد بینآ‌آ‌المللى ISO/IEC1:2000-10646 کاملاً سازگار آ‌استآ‌ و آ‌همانآ‌ نویسهآ‌آ‌ها و کدآ‌هاآ‌ى آ‌ ISO/IEC10646 رآ‌ا دآ‌ارد. آ‌استاندآ‌ارد یونىآ‌کد آ‌اطلاآ‌عاتآ‌ بیشترآ‌ىآ‌ نیز در مورد نویسهآ‌آ‌ها و کاربردآ‌هایشانآ‌ فرآ‌اآ‌همآ‌ کردهآ‌ آ‌استآ‌، پسآ‌ در وآ‌اقعآ‌ آ‌هر پیادهآ‌سازآ‌ىآ‌ سازگار با یونىآ‌کد، با ISO/IEC10646 نیز سازگار آ‌استآ‌ .
    یونىآ‌کد آ‌امکانآ‌ کدگذآ‌ارآ‌ىآ‌ آ‌همهآ‌آ‌ىآ‌ نویسهآ‌آ‌هاآ‌ىآ‌ مورد آ‌استفادهآ‌ در نوشتنآ‌ زبانآ‌آ‌هاآ‌ىآ‌ دنیا رآ‌ا فرآ‌اآ‌همآ‌ مىآ‌سازد. آ‌اینآ‌ آ‌استاندآ‌ارد آ‌از کدگذآ‌ارآ‌ىآ‌ 16بیتىآ‌آ‌اآ‌ىآ‌ آ‌استفادهآ‌ مىآ‌کند کهآ‌ برآ‌اآ‌ىآ‌ بیشآ‌ آ‌از 000'65 نویسهآ‌ جا فرآ‌اآ‌همآ‌ مىآ‌کند. آ‌اگر چهآ‌ 000'65 نویسهآ‌ برآ‌اآ‌ىآ‌ کدگذآ‌ارآ‌ىآ‌ آ‌اکثر نویسهآ‌آ‌هایىآ‌ کهآ‌ در زبانآ‌آ‌هاآ‌ىآ‌ مهمآ‌ دنیا آ‌استفادهآ‌ مىآ‌شود کافىآ‌ آ‌استآ‌، یونىآ‌کد و ISO10646 شیوهآ‌آ‌ىآ‌ گسترشىآ‌ بهآ‌نامآ‌ UTF-16 فرآ‌اآ‌همآ‌ کردهآ‌آ‌اند کهآ‌ آ‌امکانآ‌ آ‌اضافهآ‌ کردنآ‌ حدود یکآ‌ میلیونآ‌ نویسهآ‌آ‌ىآ‌ دیگر رآ‌ا نیز مىآ‌دآ‌هد. آ‌اینآ‌ دآ‌امنهآ‌ برآ‌اآ‌ىآ‌ کلیهآ‌آ‌ىآ‌ نویسهآ‌آ‌هاآ‌ىآ‌ آ‌عالمآ‌، آ‌از جملهآ‌ پوششآ‌ کاملآ‌ آ‌همهآ‌آ‌ىآ‌ خطآ‌آ‌هاآ‌ىآ‌ باستانىآ‌ نیز کافىآ‌ آ‌استآ‌ .
    یونىآ‌کد برآ‌اآ‌ىآ‌ کلیهآ‌آ‌هاآ‌ىآ‌ نویسهآ‌آ‌هاآ‌ىآ‌ مورد آ‌استفادهآ‌ در زبانآ‌آ‌هاآ‌ىآ‌ آ‌عمدهآ‌آ‌ىآ‌ دنیا کد تعیینآ‌ کردهآ‌ آ‌استآ‌. بهآ‌آ‌علتآ‌ فرآ‌اخآ‌ بودنآ‌ فضاآ‌ىآ‌ تخصیصآ‌ نویسهآ‌، آ‌اینآ‌ آ‌استاندآ‌ارد بسیارآ‌ىآ‌ آ‌از نمادآ‌هاآ‌ىآ‌ لازمآ‌ برآ‌اآ‌ىآ‌ حروفچینىآ‌ با کیفیتآ‌ بالا رآ‌ا نیز در بر گرفتهآ‌ آ‌استآ‌. آ‌از خطآ‌آ‌هاآ‌ىآ‌ مورد پشتیبانىآ‌ آ‌اینآ‌ آ‌استاندآ‌ارد مىآ‌توآ‌انآ‌ بهآ‌ لاتینآ‌ (در بر گیرندهآ‌آ‌ىآ‌ آ‌اکثر زبانآ‌آ‌هاآ‌ىآ‌ آ‌اروپایىآ‌ ) ، سیریلیکآ‌ (روسىآ‌، صربىآ‌، )، یونانىآ‌، آ‌عربىآ‌ (شاملآ‌ آ‌عربىآ‌، فارسىآ‌، آ‌اردو، کردآ‌ىآ‌، ) ، آ‌عبرآ‌ىآ‌، آ‌هندآ‌ىآ‌، آ‌ارمنىآ‌، آ‌آسورآ‌ىآ‌، چینىآ‌، کاتاکانا و آ‌هیرآ‌اگانا (ژآ‌اپنىآ‌ ) ، و آ‌هانگولآ‌ (کرهآ‌آ‌اآ‌ىآ‌) آ‌اشارهآ‌ کرد.
    بهآ‌آ‌علاوهآ‌، تعدآ‌اد زیادآ‌ىآ‌ نماد ریاضىآ‌ و فنىآ‌، آ‌علائمآ‌ نقطهآ‌گذآ‌ارآ‌ىآ‌، پیکانآ‌، و آ‌علامتآ‌آ‌هاآ‌ىآ‌ متفرقهآ‌ در آ‌اینآ‌ آ‌استاندآ‌ارد وجود دآ‌ارد. آ‌اینآ‌ آ‌استاندآ‌ارد برآ‌اآ‌ىآ‌ آ‌علامتآ‌آ‌هاآ‌ىآ‌ ترکیبآ‌شوندهآ‌ یا آ‌اآ‌عرآ‌ابآ‌آ‌ها نیز کدآ‌هایىآ‌ در نظر گرفتهآ‌ آ‌استآ‌ کهآ‌ آ‌از جملهآ‌آ‌ىآ‌ آ‌آنآ‌آ‌ها آ‌علامتآ‌آ‌هایىآ‌ چونآ‌ «˜» آ‌هستند کهآ‌ در ترکیبآ‌ با حروفآ‌ پایهآ‌، حروفآ‌ تغییرلحنآ‌یافتهآ‌آ‌اآ‌ىآ‌ چون «ñ» آ‌رآ‌ا مىآ‌سازند. آ‌آخرینآ‌ نسخهآ‌آ‌ىآ‌ یونىآ‌کد، در مجموآ‌عآ‌، 194'49 نویسهآ‌ دآ‌ارد. بهآ‌آ‌علاوهآ‌، 400'6 کد نیز برآ‌اآ‌ىآ‌ مصرفآ‌ خصوصىآ‌ در نظر گرفتهآ‌ شدهآ‌ آ‌استآ‌ کهآ‌ برنامهآ‌نویسانآ‌ مىآ‌توآ‌انند آ‌از آ‌آنآ‌آ‌ها برآ‌اآ‌ىآ‌ نویسهآ‌آ‌ها و نمادآ‌هاآ‌ىآ‌ خودشانآ‌ آ‌استفادهآ‌ کنند .
    بهآ‌طور کلىآ‌، آ‌اصولآ‌ یونىآ‌کد بهآ‌ شرحآ‌ زیرند :
    •نویسهآ‌آ‌هاآ‌ىآ‌ شانزدهآ‌بیتىآ‌
    • ترتیبآ‌ مفهومىآ‌ (در مقابلآ‌ دیدآ‌ارآ‌ىآ‌ )
    • کارآ‌ایىآ‌
    • یکىآ‌سازآ‌ىآ‌ (آ‌اختصاصآ‌ یکآ‌ کد بهآ‌ نویسهآ‌آ‌هاآ‌ىآ‌ مشترکآ‌ در چند زبانآ‌ مختلفآ‌ )
    • نویسهآ‌، نهآ‌ شکلآ‌ (یکآ‌ «آ‌عآ‌»، و نهآ‌ چهارتا : « ع»، «ع»، «ع»، «ع »)
    • ترکیبآ‌ پویا

    • بار معنایىآ‌ (حرفآ‌ بودنآ‌، مقدآ‌ار آ‌عددآ‌ىآ‌، ...)
    • دنبالهآ‌آ‌هاآ‌ىآ‌ معادلآ‌ (آ‌امکانآ‌ ذخیرهآ‌سازآ‌ىآ‌ یکآ‌ متنآ‌ بهآ‌ دو شکلآ‌ مختلفآ‌ ولىآ‌ معادلآ‌ )
    • متنآ‌ سادهآ‌ (و نهآ‌ مفاآ‌هیمىآ‌ مثلآ‌ تغییر قلمآ‌، جدولآ‌بندآ‌ىآ‌، و صفحهآ‌آ‌آرآ‌ایىآ‌ )
    • قابلیتآ‌ تبدیلآ‌ (آ‌هر متنآ‌ موجود در قالبآ‌ یکآ‌ مجموآ‌عهآ‌نویسهآ‌آ‌ىآ‌ سنّتىآ‌ باید بدونآ‌ آ‌از بینآ‌ رفتنآ‌ معنا قابلآ‌ تبدیلآ‌ بهآ‌ یونىآ‌کد باشد )

    یونىآ‌کد شیوهآ‌آ‌اآ‌ىآ‌ نیز برآ‌اآ‌ىآ‌ کدگذآ‌ارآ‌ىآ‌ 8بیتىآ‌ متونآ‌ مشخصآ‌ کردهآ‌ آ‌استآ‌ کهآ‌ نویسهآ‌آ‌ها رآ‌ا پسآ‌ آ‌از آ‌اآ‌عمالآ‌ یکآ‌ تابعآ‌ خاصآ‌ بهآ‌ کدشانآ‌، بهآ‌صورتآ‌ دنبالهآ‌آ‌هایىآ‌ کهآ‌ آ‌از یکآ‌ تا چهار بایتآ‌ دآ‌ارند نگهآ‌ مىآ‌دآ‌ارد. آ‌اینآ‌ شیوهآ‌ کهآ‌ با نامآ‌ UTF-8 شناختهآ‌ مىآ‌شود، بهآ‌ آ‌اینآ‌ خاطر کهآ‌ نویسهآ‌آ‌هاآ‌ىآ‌ آ‌اسکىآ‌ رآ‌ا آ‌عیناً حفظآ‌ مىآ‌کند و در نتیجهآ‌، آ‌همآ‌ برنامهآ‌آ‌هاآ‌ىآ‌ قدیمىآ‌ رآ‌احتآ‌تر با آ‌آنآ‌ کنار مىآ‌آ‌آیند و آ‌همآ‌ طولآ‌ پروندهآ‌آ‌هاآ‌ىآ‌ لاتینآ‌ رآ‌ا زیاد نمىآ‌کند، بسیار محبوبآ‌ آ‌استآ‌ .
    در وآ‌اقعآ‌ بسیارآ‌ىآ‌ آ‌از سیستمآ‌آ‌هایىآ‌ کهآ‌ آ‌ادآ‌عاآ‌ىآ‌ پشتیبانىآ‌ یونىآ‌کد رآ‌ا مىآ‌کنند، تنها UTF-8 رآ‌ا پشتیبانىآ‌ مىآ‌کنند و پروندهآ‌آ‌هاآ‌ىآ‌ یونىآ‌کدآ‌ىآ‌، آ‌اآ‌عمآ‌ آ‌از کاربردآ‌هاآ‌ىآ‌ آ‌اینترنتىآ‌ یا موآ‌ارد آ‌استفادهآ‌آ‌ىآ‌ محلىآ‌، آ‌عمدتاً در قالبآ‌ UTF-8 ذخیرهآ‌ شدهآ‌آ‌اند .
    در آ‌استاندآ‌ارد یونىآ‌کد، نویسهآ‌آ‌هاآ‌ىآ‌ فارسىآ‌ در بلوکآ‌ مربوطآ‌ بهآ‌ خطآ‌ آ‌عربىآ‌ قرآ‌ار دآ‌ارند. آ‌اینآ‌ بلوکآ‌ برآ‌اآ‌ىآ‌ دربرگرفتنآ‌ نویسهآ‌آ‌هاآ‌ىآ‌ زبانآ‌آ‌هایىآ‌ کهآ‌ آ‌از خطآ‌ آ‌عربىآ‌ آ‌استفادهآ‌ مىآ‌کنند، مثلآ‌ فارسىآ‌، آ‌اردو، پشتو، سندآ‌ىآ‌، و کردآ‌ىآ‌ گسترشآ‌ یافتهآ‌ آ‌استآ‌. آ‌اینآ‌ بلوکآ‌ نشانهآ‌آ‌هاآ‌ىآ‌ قرآ‌آنىآ‌ آ‌از قبیلآ‌ نشانهآ‌آ‌هاآ‌ىآ‌ سجدهآ‌ و پایانآ‌ آ‌آیهآ‌، و آ‌علائمآ‌ وقفآ‌ رآ‌ا نیز در بر دآ‌ارد .
    در یونىآ‌کد با وجود یکىآ‌سازآ‌ىآ‌ کدآ‌هاآ‌ىآ‌ حروفآ‌ مشترکآ‌، برآ‌اآ‌ىآ‌ حروفآ‌ فارسىآ‌آ‌اآ‌ىآ‌ کهآ‌ بار معنایىآ‌ یا نمایشىآ‌ متفاوتآ‌ با حروفآ‌ آ‌عربىآ‌ دآ‌ارند، نویسهآ‌آ‌هاآ‌ىآ‌ جدآ‌اگانهآ‌ در نظر گرفتهآ‌ شدهآ‌ آ‌استآ‌. یعنىآ‌ کلیهآ‌آ‌ىآ‌ حروفآ‌ خاصآ‌ فارسىآ‌ (پآ‌، چآ‌، ژ، گآ‌) و نیز « کآ‌» و «آ‌ىآ‌»آ‌ىآ‌ فارسىآ‌ کهآ‌ با حرفآ‌ مشابهآ‌ در آ‌عربىآ‌ تفاوتآ‌ نمایشىآ‌ دآ‌ارند، مکانآ‌ جدآ‌اگانهآ‌آ‌اآ‌ىآ‌ بهآ‌ خود آ‌اختصاصآ‌ دآ‌ادهآ‌آ‌اند. کلیهآ‌آ‌ىآ‌ آ‌اآ‌عرآ‌ابآ‌آ‌هاآ‌ىآ‌ متدآ‌اولآ‌ حضور دآ‌ارند و میانآ‌ شکلآ‌ فارسىآ‌/آ‌اردو و آ‌عربىآ‌ آ‌ارقامآ‌ نیز بهآ‌آ‌علتآ‌ شکلآ‌ و رفتار متفاوتآ‌ تفاوتآ‌آ‌هایىآ‌ منظور گشتهآ‌ آ‌استآ‌ .
    آ‌از طرفآ‌ دیگر، آ‌علائمآ‌ نقطهآ‌گذآ‌ارآ‌ىآ‌آ‌اآ‌ىآ‌ چونآ‌ نقطهآ‌ و فاصلهآ‌ کهآ‌ شکلآ‌ یکسانىآ‌ در خطآ‌آ‌هاآ‌ىآ‌ لاتینآ‌ و آ‌عربىآ‌ دآ‌ارند، کد یکسانآ‌ دآ‌ارند. آ‌علائمىآ‌ چونآ‌ پرآ‌انتز نیز، بستهآ‌ بهآ‌ جهتآ‌ متنآ‌، آ‌آینهآ‌آ‌اآ‌ىآ‌ مىآ‌شوند، یعنىآ‌ بهآ‌طور مثالآ‌، نویسهآ‌آ‌ىآ‌ 0028 نمایندهآ‌آ‌ىآ‌ «پرآ‌انتز باز» آ‌استآ‌، و نهآ‌ «پرآ‌انتز سمتآ‌ چپآ‌». یونىآ‌کد آ‌اتصالآ‌ مجازآ‌ىآ‌ و فاصلهآ‌آ‌ىآ‌ مجازآ‌ىآ‌ رآ‌ا نیز تحتآ‌ نامآ‌آ‌هاآ‌ىآ‌ «آ‌اتصالآ‌ با آ‌عرضآ‌ صفر» و «بىآ‌آ‌اتصالىآ‌ با آ‌عرضآ‌ صفر» بهآ‌ رسمیتآ‌ مىآ‌شناسد. بهآ‌خاطر سازگارآ‌ىآ‌ با آ‌استاندآ‌اردآ‌هاآ‌ىآ‌ موجود در بعضىآ‌ آ‌از کشورآ‌هاآ‌ىآ‌ آ‌عربىآ‌، ISO10646 و نتیجتاً یونىآ‌کد بلوکآ‌ جدآ‌اگانهآ‌آ‌اآ‌ىآ‌ رآ‌ا نیز بهآ‌ شکلآ‌آ‌هاآ‌ىآ‌ مختلفآ‌ حروفآ‌ آ‌عربىآ‌ آ‌اختصاصآ‌ دآ‌ادهآ‌ آ‌استآ‌ کهآ‌ آ‌استفادهآ‌ آ‌از آ‌آنآ‌آ‌ها شدیدآ‌اً منعآ‌ شدهآ‌ آ‌استآ‌. آ‌اینآ‌ بلوکآ‌ معمولاً فقطآ‌ برآ‌اآ‌ىآ‌ تعیینآ‌ جاآ‌ىآ‌ شکلآ‌آ‌هاآ‌ىآ‌ مختلفآ‌ حروفآ‌ در قلمآ‌آ‌ها بهآ‌کار مىآ‌رود .
    آ‌همچنینآ‌ آ‌اینآ‌ آ‌استاندآ‌ارد توضیحاتآ‌ مفصلآ‌ و دقیقىآ‌ دربارهآ‌آ‌ىآ‌ شیوهآ‌آ‌هاآ‌ىآ‌ پیادهآ‌سازآ‌ىآ‌، آ‌از جملهآ‌ شیوهآ‌آ‌ىآ‌ « متصلآ‌سازآ‌ىآ‌ حروفآ‌» و «نمایشآ‌ متونآ‌ رآ‌استآ‌بهآ‌چپآ‌ و دوجهتهآ‌» دآ‌ارد کهآ‌ برنامهآ‌نویسآ‌ رآ‌ا آ‌از مرآ‌اجعهآ‌ بهآ‌ رآ‌اآ‌هنماآ‌ىآ‌ محلىآ‌ بىآ‌نیاز مىآ‌سازد.
لطفا صبر کنید...
X