UTF-8 – Wikipedia tiếng Việt

UTF-8 (8-bit Unicode Transformation FormatĐịnh dạng chuyển đổi Unicode 8-bit) là một bộ mã hóa ký tự với chiều rộng biến thiên dành cho Unicode. Tương tự như UTF-16 và UTF-32, UTF-8 có thể biểu diễn tất cả các chữ cái trong bộ ký tự Unicode, nhưng điểm khác biệt quan trọng nhất là nó có thể tương thích ngược với ASCII. Vì lý do này, UTF-8 nhanh chóng trở thành bộ mã hóa thống trị trong các tập tin, thư điện tử, trang web[1][2], và các phần mềm xử lý văn bản.

UTF-8 mã hóa mỗi ký tự ( điểm mã ) thành 1 đến 4 octet ( tức là byte gồm 8 – bit ). 128 ký tự tiên phong của bộ ký tự Unicode ( tương ứng một-một với bộ ASCII ) chỉ dùng một octet có cùng giá trị nhị phân như bộ ASCII .Nhóm đặc trách kỹ thuật Internet ( Internet Engineering Task Force – IETF ) bắt buộc mọi giao thức Internet phải xác lập bộ mã hóa dùng trong tài liệu ký tự, và trong những bộ mã hóa ký tự tương hỗ phải có UTF-8 [ 3 ]. Liên minh Thư tín Internet ( Internet Mail Consortium – IMC ) khuyến nghị tổng thể những chương trình thư điện tử phải hiển thị và tạo được thư bằng UTF-8 [ 4 ] .

Cho đến đầu năm 1992, người ta vẫn đang tìm kiếm một bộ mã hóa thành byte cho các tập ký tự có nhiều byte. Tiêu chuẩn ISO 10646 ở dạng nháp có một phần phụ không bắt buộc có tên là UTF cung cấp một cách mã hóa ra dạng byte cho các điểm mã 32-bit của nó. Cách mã hóa này không tốt về mặt hiệu suất, nhưng đã giới thiệu cách ký hiệu ở dạng byte trong dải 0–127 của ASCII theo UTF, từ đó tạo ra khả năng tương thích ngược.

Vào tháng 7 năm 1992, ủy bản XoJIG của X/Open bắt đầu tìm kiếm một cách mã hóa tốt hơn. Dave Prosser thuộc Phòng thí nghiệm Hệ thống Unix đề xuất một cách mã hóa có đặc tính hiện thực nhanh hơn và giới thiệu cải tiến sao cho các ký tự ASCII 7-bit chỉ đại diện cho chính chúng; còn mọi chuỗi nhiều byte khác sẽ chỉ thêm các byte có bit cao bằng 1.

Vào tháng 8 năm 1992, đề xuất kiến nghị này đã được đại diện thay mặt của IBM X / Open chuyển giao cho những bên có chăm sóc. Ken Thompson thuộc nhóm hệ quản lý Plan 9 tại Bell Labs sau đó đã triển khai một chỉnh sửa quan trọng cho bộ mã hóa, được cho phép nó tự đồng nhất, tức là, không cần phải đọc từ đầu dãy để tìm những biên điểm mã nữa. Thiết kế của Thompson được diễn đạt tổng quan vào ngày 2 tháng 9 năm 1992 trong bữa ăn với Rob Pike. Những ngày sau, Pike và Thompson hiện thực nó và update Plan 9 để sử dụng nó thoáng đãng, rồi thông tin thành công xuất sắc của họ lại cho X / Open. [ 5 ]

UTF-8 lần tiên phong được trình làng chính thức là tại hội nghị USENIX ở San Diego, diễn ra từ ngày 25-29 tháng 1 năm 1993 .

UTF-8 – Wikipedia tiếng Việt

Bài viết liên quan
Hotline 24/7: O984.666.352
Alternate Text Gọi ngay