Skillnad mellan UCS-2 och UTF-16 Skillnaden mellan

Anonim

UCS-2 vs UTF-16

UCS-2 och UTF-16 två teckenkodningssystem som använder 2 byte, som består av 16 bitar, för att representera varje karaktär; således 2 och 16 suffixerna. Huvudskillnaden mellan UCS-2 och UTF-16 är vilken som används idag. UCS-2 är ett äldre program som sedan dess har ansetts föråldrat och ersatt med den mycket nyare och kraftfullare UTF-16.

UCS-2 är en kod med fast bredd som använder två byte för varje tecken; Det betyder att det kan representera upp till totalt 216 tecken eller något över 65 tusen. Å andra sidan är UTF-16 ett kodningsschema med variabel bredd som använder minst 2 byte och högst 4 byte för varje tecken. Detta låter UTF-16 representera ett tecken i Unicode medan du använder minimalt utrymme för de vanligaste tecknen. För majoriteten av de 65 000 + karaktärerna har UCS-2 och UTF-16 identiska kodpunkter. så de är till stor del likvärdiga. Detta gör det möjligt för UTF-16-kompatibla applikationer att korrekt tolka UCS-2-koder. Men omvänden skulle inte fungera på grund av de många förbättringarna i UTF-16.

En av de nämnda förbättringarna är förmågan att representera skript som går från höger till vänster i stället för från vänster till höger. I UTF-16 kan skripten identifiera riktning, vilket gör det möjligt för applikationen att korrekt ordna de ord som lagras i koden. UCS-2 saknar denna förmåga, så det kommer inte att fungera med skript som arabiska och hebreiska, som flyttar från höger till vänster. En annan egenskap som UTF-16 har är normalisering. Normalisering behandlar ord som betyder samma sak men är representerade annorlunda som identiska. Till exempel kan orden "kan inte" och "kan inte" vara identiska eftersom den senare bara är en sammandragning av den tidigare. Detta är mycket viktigt, särskilt när du söker efter sådana ord, eftersom det skulle möjliggöra ett mer omfattande sökresultat. I UCS-2 sker inte detta automatiskt, så programmet behöver själv implementera en sådan funktion.

Det finns verkligen ingen anledning att välja UCS-2 över UTF-16, förutom att ha en applikation behöver du inte stödja UTF-16. I alla aspekter är UTF-16 överlägsen UCS-2. Det är också i stor utsträckning bakåtkompatibelt, så du behöver inte oroa dig för filer som kodas i UCS-2.

Sammanfattning:

  1. UCS-2 är föråldrad och har sedan ersatts med UTF-16
  2. UCS-2 är ett kodningsschema med fast bredd medan UTF-16 är ett kodningsschema med variabel bredd
  3. UTF-16 kompatibla applikationer kan läsa UCS-2-filer, men inte tvärtom
  4. UTF-16 stöder rätt att låta skript medan UCS-2 inte
  5. UTF-16 stöder normalisering medan UCS-2 inte