خدمات سایت


متن کامل خبر

یونی‌کد چیست و اهمیت آن در کجاست؟

آرشیو
زبان‌های جهان به خط‌های مختلفی نوشته می‌شوند. مثلاً انگلیسی به خط لاتینی نوشته می‌شود، و فارسی به خط عربی
1390/08/30 10:39:54 ق.ظ

هدف ما در گوگل این است که اطلاعات عالم را نظم و ترتیب داده و به شکل مفیدی در دسترس همگان قرار دهیم. هنگامی که خدمات جدید گوگل در دسترس عموم قرار می‌گیرند، اکثرشان از حداقل 40 زبان پشتیبانی می‌کنند، و هر چه می‌گذرد زبان‌های بیشتر و بیشتری نیز اضافه می‌شود.

زبان‌های جهان به خط‌های مختلفی نوشته می‌شوند. مثلاً انگلیسی به خط لاتینی نوشته می‌شود، و فارسی به خط عربی (البته به این خط در ایران و بعضی کشورهای دیگر «خط فارسی» می‌گویند و در مجامع دانشگاهی جهان، «خط فارسی‐عربی»). در گوشه و کنار جهان از ده‌ها خط مختلف برای نوشتن زبان‌های زندهٔ امروز استفاده می‌شود، و ده‌ها خط باستانی دیگر نیز هستند که بیشتر جنبهٔ تاریخی‌شان اهمیت دارد. مثلاً خط‌های دوناگری، گورومخی، و گجراتی از جمله خط‌هایی هستند که در هند به آنها می‌نویسند، و خط‌های میخی و پارتی کتیبه‌ای از خط‌های باستانی هستند.

اگر در دههٔ 70 شمسی از کامپیوتر استفاده می‌کردید، یادتان می‌آید که آن روزها کامپیوترها معمولاً فقط می‌توانستند در هر لحظه از یک یا دو زبان پشتیبانی کنند. اما این روزها دستگاه‌های کامپیوتری هیچ مشکلی ندارند که به چندین زبان سخن بگویند و همزمان به چند خط مختلف بنویسند و بخوانند. این کار ممکن نمی‌بود، مگر به خاطر استانداردی صنعتی به نام استاندارد یونی‌کد. برای اطلاعات بیشتر دربارهٔ استاندارد یونی‌کد می‌توانید به صفحهٔ «یونی‌کد چیست؟» (به فارسی یا انگلیسی) مراجعه کنید.

اگر متوجه تفاوت ظریف بین «می‌روم» و «می روم» شده باشید، و از خود پرسیده باشید چرا در وب به شکل دومی بیشتر بر می‌خوریم (یا حتی به شکل‌ «میروم» یا از آن هم بدتر، «مي روم») این مجموعه نوشته‌ها را بخوانید. ما در گوگل اطلاعات عالم را نظم و ترتیب می‌دهیم و اگر این اطلاعات تمیز و نظیف باشد، راحت‌تر می‌شود منظم و مرتب‌شان کرد. در این مجموعه نوشته‌ها، می‌خواهیم شما را با روش‌هایی آشنا کنیم که می‌توانید به کمک‌شان از وب فارسی زیباتر استفاده کنید، و مطالبی را که در وب می‌نویسید بی‌نقص بنویسید. (خواه به شکل بلاگ باشد، یا وب‌گاه، یا اصلاً یادداشت‌های Google+‎!) البته لااقل از نظر یونی‌کدی.

یونی‌کد به ما تعداد زیادی «نویسه» (یا character) می‌دهد. در یونی‌کد، نویسه به این شکل تعریف می‌شود: «کوچک‌ترین جزء زبان نوشتاری که ارزش معنایی دارد؛ نویسه به معنی و/یا شکل انتزاعی اطلاق می‌شود، نه به اَشکال مشخص».

مثلاً، حرف «ب» یک نویسه است، و یونی‌کد آن را در نشانی U+0628 و با نام ARABIC LETTER BEH به رسمیت شناخته و کدگذاری کرده است. با این حساب، کد U+0628 کد مشخصهٔ حرف «ب» است، مستقل از این که برای چه زبانی استفاده شود.

حواستان باشد که نویسه را با «شکل» (یا glyph) اشتباه نگیرید. «شکل»، صورت مشخصی است که نویسه‌ها در حالت‌های مختلف ممکن است به خود بگیرند. در نمایش اطلاعات با نویسه‌های یونی‌کدی، برای هر نویسهٔ مشخص ممکن است از یک یا چند شکل مختلف استفاده شود. مثلاً، حرف «غ» در حروف چاپی چهار شکل مختلف به خود می‌گیرد: 1) اول: «غـ»، 2) وسط: «ـغـ»، 3) آخر: «ـغ»، و 4) تنها: «غ». یونی‌کد سعی می‌کند مفاهیم را کدگذاری کند، نه شکل‌ها را.

ممکن است متوجه شده باشید که فقط زبان‌های فارسی و عربی نیستند که به خط عربی نوشته می‌شوند. زبانهای فراوانی وجود دارند که خط عربی را برای نیازهای خود گسترش داده و از آن استفاده می‌کنند. در نتیجه، در بلوک‌های عربی یونی‌کد، صدها حرف مختلف وجود دارد. حرف‌هایی که ممکن است به چشم فارسی‌زبانان یا عربی‌زبانان عجیب بیاید، مثل نویسهٔ U+069B با نام ARABIC LETTER SEEN WITH THREE DOTS BELOW، که حرف «س» است با سه تا نقطه زیرش. (خوانندگانی که با تاریخ خط فارسی آشنایی دارند ممکن است بدانند که این حرف در بعضی از متون قدیمی‌تر فارسی وجود دارد).

از ویژگی‌های این تعدد نویسه‌ها این است که بعضی نویسه‌ها در بعضی حالت‌ها عین یکدیگر به نظر می‌رسند ولی در حالت‌های دیگر متفاوتند. برای مثال، می‌شود از «ی فارسی» در مقابل «ي عربی» نام برد؛ البته مثال‌های ظریف‌تر و مشکل‌تری نیز وجود دارند. در نوشته‌های بعدی این مجموعه دربارهٔ این نویسه‌های گیج‌کننده خواهیم نوشت. اما تا آن وقت، تکلیف شب شما این که جدول نویسه‌های بلوک اصلی خط عربی یونی‌کد را بررسی کنید (پروندهٔ PDF،‏ 180 کیلوبایت). دربارهٔ چیزهای جالبی که پیدا کردید برای ما بنویسید.

اگر سردرگم شده‌اید، دو راهنمای بسیار عالی هست که به شما می‌گوید برای زبان فارسی ایران و زبان‌های فارسی دری و پشتوی افغانستان از چه نویسه‌هایی باید استفاده کرد.

برای ایران، مرجع رسمی این مسائل استاندارد ملی ایران 6219 است که پروژهٔ فارسی‌وب به زبان فارسی در سال 1381 برای سازمان ملی استاندارد ایران تهیه کرده است. نسخهٔ PDF این استاندارد را می‌توانید از وب‌گاه فارسی‌وب بگیرید. وب‌گاه سازمان ملی استاندارد ایران فقط نسخهٔ HTML استانداردهایش را در دسترس عموم قرار داده است، و متأسفانه در روند تبدیل پروندهٔ PDFی که پروژهٔ فارسی‌وب تهیه کرده بوده است به HTML، سازمان ملی استاندارد ایران همان اشتباه‌هایی را مرتکب شده است که در استاندارد 6219 توصیه شده است از آنها اجتناب شود. از نسخهٔ HTML این استاندارد پرهیز کنید.

برای افغانستان، مرجع رسمی، سند «Computer Locale Requirements for Afghanistan» است (به زبان انگلیسی) که در سال 1382 شمسی به سفارش برنامهٔ توسعهٔ سازمان ملل متحد تهیه شده است. نسخهٔ PDF این گزارش را می‌توانید از وب‌گاه اِوِرتایپ بگیرید.

در دو نوشتهٔ بعدی این مجموعه نوشته‌ها، دو سند بالا را بررسی خواهیم کرد. اما در این فاصله، تکلیف شب دوم شما این باشد که نگاهی به آنها بیاندازید و ببینید چه یاد می‌گیرید. چه چیزهای جالبی پیدا کردید؟ چه چیزهایی خیلی برایتان عجیب بود؟ برای ما بنویسید. کتاب‌های درسی شما در این دوره، این دو سند، به اضافهٔ جدول نویسه‌های عربی یونی‌کد که بالاتر درباره‌اش صحبت کردیم و کتاب استاندارد یونی‌کد است.

ما برنامهٔ مفصلی برای نوشته‌های آیندهٔ این مجموعه داریم، ولی شما هم اگر می‌خواهید در زمینهٔ مشخصی بنویسیم، برای ما نامهٔ الکترونیکی بنویسید و ما تلاش‌مان را خواهیم کرد که دست خالی برنگردید!

منبع : خبرآنلاین
به این خبر امتیاز بدهید :
هیچ نظری برای این خبر ثبت نشده است! اولین نفری باشید که نظری را ارسال می کند!
Captcha




یافته‌های نگران‌کننده درباره تأثیر نور مصنوعی: آلودگی نوری مغز حشرات را کوچک می‌کند! image یافته‌های نگران‌کننده درباره تأثیر نور مصنوعی: آلودگی نوری مغز حشرات را کوچک می‌کند! 1403/06/15

بی‌دلیل نیست که حشرات علاقه زیادی به فعالیت در تاریکی و شب دارند.

امتیاز:
تعداد بازدید: 110

معمای حرف زدن انسان نئاندرتال سرانجام حل شد image معمای حرف زدن انسان نئاندرتال سرانجام حل شد 1403/03/05

دانشمندان با کشف شواهدی جدید در مورد ساختار حنجره انسان نئاندرتال، راز حرف زدن این گونه باستانی نزدیک‌تر را کشف کردند.

امتیاز:
تعداد بازدید: 131

پژوهشی جدید: پول واقعاً می‌تواند باعث شادی شود image پژوهشی جدید: پول واقعاً می‌تواند باعث شادی شود 1401/08/22

نکته قابل توجه اینکه، در خانواده‌هایی با درآمد بیشتر از 123 هزار دلار، این افزایش شادی مشاهده نشده است.

امتیاز:
تعداد بازدید: 274

۶ عادت نادرستی که اعتبار و وجه شغلی شما را به نابودی میکشاند image ۶ عادت نادرستی که اعتبار و وجه شغلی شما را به نابودی میکشاند 1399/04/29

هرقدر هم که از نظر تخصص و مهارت در سطح بالایی قرار داشته باشید، برخی اشتباهات رفتاری کوچک می‌تواند به قیمت نابودی اعتبار شغلی‌تان تمام شود.

امتیاز:
تعداد بازدید: 3049

کاهش سکته قلبی با خواب نیمروزی image کاهش سکته قلبی با خواب نیمروزی 1398/06/22

در مطالعه‌ی جدیدی ارتباط مثبت بین خواب نیمروز و کاهش خطر حمله‌ی قلبی و سکته نشان داده شده است؛ اگرچه خواب نیمروز بیش از حد موجب از بین رفتن مزایای آن می‌شود.

امتیاز:
تعداد بازدید: 2847

این غذاها را در آنتالیا امتحان کنید image این غذاها را در آنتالیا امتحان کنید 1398/05/30

آنتالیا طی سالیان اخیر پیشرفت چشم‌گیری هم در زمینه گردشگری و هم خوراک داشته است. ازاین‌رو بهترین غذاهای آنتالیا را در اینجا فهرست کرده‌ایم.

امتیاز:
تعداد بازدید: 3005

با خوردن قارچ از پیری و افزایش وزن جلوگیری کنید image با خوردن قارچ از پیری و افزایش وزن جلوگیری کنید 1397/11/21

بر اساس بررسی جدید محققان، قارچ ها جزو مواد بسیار مغذی محسوب می‌شوند که از فواید آن می‌توان به مبارزه با پیری، کاهش وزن، خاصیت ضدالتهاب و افزایش سلامت استخوان اشاره کرد.

امتیاز:
تعداد بازدید: 2967

با خوردن قارچ از پیری و افزایش وزن جلوگیری کنید image با خوردن قارچ از پیری و افزایش وزن جلوگیری کنید 1397/11/21

بر اساس بررسی جدید محققان، قارچ ها جزو مواد بسیار مغذی محسوب می‌شوند که از فواید آن می‌توان به مبارزه با پیری، کاهش وزن، خاصیت ضدالتهاب و افزایش سلامت استخوان اشاره کرد.

امتیاز:
تعداد بازدید: 16

برتری ژنتیکی،‌ راز پایین ماندن وزن در افراد لاغراندام است  image برتری ژنتیکی،‌ راز پایین ماندن وزن در افراد لاغراندام است 1397/11/08

پژوهشگران دانشگاه کمبریج به‌تازگی دریافتند که امکان کنترل ما روی وزنمان، بسیار کم‌تر از آن است که تصور می‌کنیم.

امتیاز:
تعداد بازدید: 2500