ความแตกต่างระหว่าง ASCII และ Unicode Text คืออะไร?

ความแตกต่างระหว่าง ASCII และ Unicode Text คืออะไร?

ASCII และ Unicode เป็นทั้งมาตรฐานที่อ้างถึงการแสดงข้อความดิจิทัล โดยเฉพาะอักขระที่ประกอบเป็นข้อความ อย่างไรก็ตาม มาตรฐานทั้งสองมีความแตกต่างกันอย่างมีนัยสำคัญ โดยมีคุณสมบัติหลายอย่างที่สะท้อนถึงลำดับการสร้างตามลำดับ





อเมริกากับจักรวาล

American Standard Code for Information Interchange (ASCII) ซึ่งเหมาะสำหรับผู้ชมชาวอเมริกันโดยเฉพาะคือการเขียนตัวอักษรภาษาอังกฤษ ซึ่งเกี่ยวข้องกับตัวอักษรที่ไม่เน้นเสียง เช่น A-Z และ a-z รวมทั้งเครื่องหมายวรรคตอนและอักขระควบคุมจำนวนเล็กน้อย





โดยเฉพาะอย่างยิ่ง ไม่มีทางแทนคำยืมที่มาจากภาษาอื่นเช่น กาแฟ ใน ASCII โดยไม่ทำให้เสียโฉมโดยแทนที่อักขระที่มีการเน้นเสียง (เช่น คาเฟ่ ). ส่วนขยาย ASCII ที่แปลแล้วได้รับการพัฒนาเพื่อตอบสนองความต้องการของภาษาต่างๆ แต่ความพยายามเหล่านี้ทำให้การทำงานร่วมกันไม่สะดวกและขยายขีดความสามารถของ ASCII อย่างชัดเจน





ในทางตรงกันข้าม Universal Coded Character Set (Unicode) จะอยู่ฝั่งตรงข้ามของมาตราส่วนความทะเยอทะยาน Unicode พยายามรองรับระบบการเขียนของโลกให้ได้มากที่สุดเท่าที่จะเป็นไปได้ ให้ครอบคลุมภาษาโบราณและชุดสัญลักษณ์แสดงอารมณ์ที่ทุกคนชื่นชอบ ได้แก่ อิโมจิ

ชุดอักขระหรือการเข้ารหัสอักขระ?

กล่าวอย่างง่าย ๆ ชุดอักขระคือการเลือกอักขระ (เช่น A-Z) ในขณะที่การเข้ารหัสอักขระเป็นการแมประหว่างชุดอักขระและค่าที่สามารถแสดงแบบดิจิทัลได้ (เช่น A=1, B=2)



มาตรฐาน ASCII มีประสิทธิภาพทั้ง: กำหนดชุดอักขระที่แสดงและวิธีการจับคู่อักขระแต่ละตัวกับค่าตัวเลข

ในทางตรงกันข้าม คำว่า Unicode ใช้ในบริบทที่แตกต่างกันหลายอย่างเพื่อหมายถึงสิ่งที่แตกต่างกัน คุณสามารถมองมันเป็นคำที่ครอบคลุมทุกอย่าง เช่น ASCII เพื่ออ้างถึงชุดอักขระและการเข้ารหัสจำนวนหนึ่ง แต่เนื่องจากมีการเข้ารหัสหลายแบบ คำว่า Unicode จึงมักใช้เพื่ออ้างถึงชุดอักขระโดยรวม แทนที่จะใช้วิธีการแมป





ขนาด

เนื่องจากขอบเขตของมัน Unicode จึงแสดงอักขระได้มากกว่า ASCII มาตรฐาน ASCII ใช้ช่วง 7 บิตเพื่อเข้ารหัส 128 ค่าที่แตกต่างกัน ตัวอักษร . ในทางกลับกัน Unicode นั้นใหญ่มากจนเราจำเป็นต้องใช้คำศัพท์ที่แตกต่างกันเพื่อพูดคุยเกี่ยวกับมัน!

Unicode รองรับ 1,111,998 addressable จุดรหัส จุดโค้ดมีความคล้ายคลึงกับช่องว่างที่สงวนไว้สำหรับอักขระ แต่สถานการณ์นั้นซับซ้อนกว่านั้นมากเมื่อคุณเริ่มเจาะลึกรายละเอียด!





การเปรียบเทียบที่มีประโยชน์มากกว่าคือจำนวนสคริปต์ (หรือระบบการเขียน) ที่ได้รับการสนับสนุนในปัจจุบัน แน่นอน ASCII จัดการเฉพาะตัวอักษรภาษาอังกฤษ อักษรละตินหรือโรมันเป็นหลัก เวอร์ชันของ Unicode ที่ผลิตในปี 2020 นั้นไปไกลกว่านั้นมาก: รองรับสคริปต์ทั้งหมด 154 สคริปต์

พื้นที่จัดเก็บ

ช่วง 7 บิตของ ASCII หมายความว่าอักขระแต่ละตัวถูกเก็บไว้ในไบต์ 8 บิตเดียว บิตสำรองไม่ได้ใช้ใน ASCII มาตรฐาน ทำให้การคำนวณขนาดเป็นเรื่องไม่สำคัญ: ความยาวของข้อความเป็นอักขระคือขนาดของไฟล์เป็นไบต์

คุณสามารถยืนยันสิ่งนี้ด้วยลำดับคำสั่ง bash ต่อไปนี้ ขั้นแรก เราสร้างไฟล์ที่มีตัวอักษร 12 ตัว:

บูต windows 10 เป็นหน้าจอสีดำ
$ echo -n 'Hello, world' > foo

เพื่อตรวจสอบว่าข้อความอยู่ในการเข้ารหัส ASCII เราสามารถใช้ ไฟล์ สั่งการ:

$ file foo
foo: ASCII text, with no line terminators

สุดท้าย ในการรับจำนวนไบต์ที่แน่นอนของไฟล์นั้น เราใช้เครื่องหมาย สถานะ สั่งการ:

$ stat -f%z foo
12

เนื่องจากมาตรฐาน Unicode เกี่ยวข้องกับอักขระที่หลากหลาย ไฟล์ Unicode จึงใช้พื้นที่จัดเก็บมากขึ้นโดยธรรมชาติ มากน้อยเพียงใดขึ้นอยู่กับการเข้ารหัส

การทำซ้ำชุดคำสั่งเดิมก่อนหน้านี้ โดยใช้อักขระที่ไม่สามารถแสดงใน ASCII ได้ ให้สิ่งต่อไปนี้:

$ echo -n '€' > foo
$ file foo
foo: UTF-8 Unicode text, with no line terminators
$ stat -f%z foo
3

อักขระตัวเดียวนั้นมีพื้นที่ 3 ไบต์ในไฟล์ Unicode โปรดทราบว่า bash สร้างไฟล์ UTF-8 โดยอัตโนมัติเนื่องจากไฟล์ ASCII ไม่สามารถเก็บอักขระที่เลือก (€) UTF-8 เป็นการเข้ารหัสอักขระทั่วไปสำหรับ Unicode; UTF-16 และ UTF-32 เป็นการเข้ารหัสทางเลือกสองแบบ แต่มีการใช้งานน้อยกว่ามาก

UTF-8 คือการเข้ารหัสแบบความกว้างตัวแปร ซึ่งหมายความว่าจะใช้พื้นที่เก็บข้อมูลที่แตกต่างกันสำหรับจุดโค้ดที่ต่างกัน จุดโค้ดแต่ละจุดจะใช้พื้นที่ระหว่างหนึ่งถึงสี่ไบต์ โดยมีจุดประสงค์เพื่อให้อักขระทั่วไปต้องการพื้นที่น้อยลง ให้ประเภทของการบีบอัดในตัว ข้อเสียคือการกำหนดความยาวหรือขนาดของข้อความที่ต้องการจะซับซ้อนกว่ามาก

ASCII เป็น Unicode แต่ Unicode ไม่ใช่ ASCII

สำหรับความเข้ากันได้แบบย้อนหลัง จุดโค้ด Unicode 128 จุดแรกแสดงถึงอักขระ ASCII ที่เทียบเท่ากัน เนื่องจาก UTF-8 เข้ารหัสอักขระแต่ละตัวเหล่านี้ด้วยไบต์เดียว ข้อความ ASCII ใดๆ จึงเป็นข้อความ UTF-8 ด้วย Unicode เป็น superset ของ ASCII

อย่างไรก็ตาม ดังที่แสดงไว้ข้างต้น ไฟล์ Unicode จำนวนมากไม่สามารถใช้ในบริบท ASCII ได้ อักขระที่อยู่นอกขอบเขตจะแสดงในลักษณะที่ไม่คาดคิด มักมีอักขระทดแทนที่แตกต่างจากที่ตั้งใจไว้โดยสิ้นเชิง

การใช้งานที่ทันสมัย

สำหรับวัตถุประสงค์ส่วนใหญ่ ASCII ถือเป็นมาตรฐานเดิมเป็นส่วนใหญ่ แม้ในสถานการณ์ที่รองรับเฉพาะสคริปต์ละติน—เช่น การสนับสนุนอย่างเต็มที่สำหรับความซับซ้อนของ Unicode ไม่จำเป็น—มักจะสะดวกกว่าในการใช้ UTF-8 และใช้ประโยชน์จากความเข้ากันได้ของ ASCII

วิธีตรวจหาไวรัสบน mac

โดยเฉพาะอย่างยิ่ง หน้าเว็บควรได้รับการบันทึกและส่งโดยใช้ UTF-8 ซึ่งเป็นค่าเริ่มต้นสำหรับ HTML5 สิ่งนี้ตรงกันข้ามกับเว็บก่อนหน้านี้ซึ่งจัดการใน ASCII โดยค่าเริ่มต้นก่อนที่จะถูกแทนที่ด้วยภาษาละติน 1

มาตรฐานที่เปลี่ยนไป

การแก้ไข ASCII ครั้งล่าสุดเกิดขึ้นในปี 1986

ในทางตรงกันข้าม Unicode ยังคงได้รับการอัปเดตทุกปี มีการเพิ่มสคริปต์ ตัวละคร และโดยเฉพาะอย่างยิ่ง อิโมจิใหม่เป็นประจำ ด้วยการจัดสรรส่วนน้อยเหล่านี้ ชุดอักขระทั้งหมดมีแนวโน้มที่จะเติบโตและเติบโตในอนาคตอันใกล้

ที่เกี่ยวข้อง: 100 Emojis ยอดนิยมอธิบาย

ASCII กับ Unicode

ASCII ทำหน้าที่ตามวัตถุประสงค์มาเป็นเวลาหลายทศวรรษ แต่ขณะนี้ Unicode ได้แทนที่อย่างมีประสิทธิภาพเพื่อวัตถุประสงค์ในทางปฏิบัติทั้งหมดนอกเหนือจากระบบเดิม Unicode มีขนาดใหญ่กว่าและแสดงออกได้มากกว่า มันแสดงถึงความพยายามในการทำงานร่วมกันทั่วโลกและให้ความยืดหยุ่นมากกว่าเดิม แม้ว่าจะแลกมาด้วยความซับซ้อนบางอย่างก็ตาม

แบ่งปัน แบ่งปัน ทวีต อีเมล ข้อความ ASCII คืออะไรและใช้งานอย่างไร?

ข้อความ ASCII ดูเหมือนคลุมเครือ แต่มีประโยชน์หลายอย่างบนอินเทอร์เน็ต

อ่านต่อไป
หัวข้อที่เกี่ยวข้อง
  • เทคโนโลยีอธิบาย
  • อิโมจิ
  • ศัพท์เฉพาะ
  • วัฒนธรรมเว็บ
  • Unicode
เกี่ยวกับผู้เขียน Bobby Jack(58 บทความเผยแพร่)

Bobby เป็นผู้ที่ชื่นชอบเทคโนโลยีซึ่งทำงานเป็นนักพัฒนาซอฟต์แวร์มาเกือบสองทศวรรษ เขาหลงใหลในการเล่นเกม ทำงานเป็นบรรณาธิการบทวิจารณ์ที่ Switch Player Magazine และหมกมุ่นอยู่กับทุกแง่มุมของการเผยแพร่ออนไลน์และการพัฒนาเว็บ

เพิ่มเติมจาก Bobby Jack

สมัครรับจดหมายข่าวของเรา

เข้าร่วมจดหมายข่าวของเราสำหรับเคล็ดลับทางเทคนิค บทวิจารณ์ eBook ฟรี และดีลพิเศษ!

คลิกที่นี่เพื่อสมัครสมาชิก