Tin mới nhận:  
Đăng ký tin thư
  Email của bạn
  
  
Quảng cáo
Thêm một giải pháp nhận dạng tiếng Việt
Lao Động số 175 Ngày 01/08/2008 Cập nhật: 5:58 AM, 30/07/2008
(LĐ) - Cty Laserfiche (Mỹ) và Cty Quadralink Global Services (Canada) đã giới thiệu với các bộ ngành, tổ chức của VN về giải pháp nhận dạng ký tự bằng quang học (OCR) cho tiếng Việt vào trung tuần tháng 7.2008.

Cty Laserfiche (Mỹ) chuyên cung cấp các giải pháp quản lý dữ liệu số (DD) và OCR cho hơn 4.000 tổ chức chính phủ và hơn 25.000 công ty lớn trên khắp thế giới, đã hợp tác với Quadralink Global Services (Canada) xây dựng giải pháp OCR tiếng Việt từ giữa năm 2007. Giải pháp được hoàn chỉnh vào tháng 5.2008 vừa qua, với mức độ hiểu tiếng Việt chính xác khoảng 96% - 99% (tùy theo chất lượng của văn bản).

Ông Yet Ngô - Chủ tịch Quaralink - cho biết, giải pháp OCR của Laserfiche và Quadralink được thiết kế với giao diện đặc thù cho người VN sử dụng, giúp bảo toàn những đặc điểm độc đáo của tiếng Việt và hỗ trợ Unicode cho tiếng Việt. Nó cho phép quét các tài liệu giấy với nhiều kiểu máy quét, nhập dễ dàng các hồ sơ điện tử như tài liệu MS Office, chuyển đổi tài liệu điện tử mà không cần quét, lưu hồ sơ tài liệu điện tử gồm hình ảnh, văn bản, trang bảng tính, PDF, vẽ AutoCAD, hồ sơ âm thanh và phim, chuyển đổi tài liệu điện tử thành ảnh lưu trữ.

Quản lý dữ liệu số hóa giúp tiết kiệm không gian và chi phí với khả năng bảo mật cao.

Quản lý dữ liệu số hóa giúp tiết kiệm không gian và chi phí với khả năng bảo mật cao.


Hiện nay, tại VN chỉ có hai giải pháp nhận dạng tiếng Việt là VnDORC của Viện KH&CN VN (được phát triển từ cách đây 10 năm) và Scanmax do Phòng nhận dạng & Công nghệ Tri thức - Viện Công nghệ thông tin phát triển (sẽ được tung ra thị trường trong 2-3 tháng tới). Trong đó, VnDORC chú trọng vào việc nhận dạng các văn bản thông thường và đưa về xử lý dưới dạng file word, không có quản lý. Còn Scanmax cung cấp một giải pháp nhận dạng tích hợp với các giải pháp quản lý sẵn có do IBM và Microsoft phát triển như Lotus Note, SharePoint...

Theo ông Nguyễn Hữu Hòa - chuyên gia về các giải pháp nhận dạng tiếng Việt của Phòng nhận dạng & Công nghệ Tri thức - Viện Công nghệ thông tin phát triển, giải pháp của Laserfiche và Quadralink có khả năng xử lý nhận dạng các ảnh màu trên văn bản vượt trội hơn hẳn VnDORC và Scanmax. VnDORC không thể xử lý được ảnh màu, còn Scanmax chỉ dừng lại ở việc xử lý các ảnh màu trên  những văn bản trình bày đơn giản.

Theo ông Hoàng Ngọc Diệp - cố vấn cao cấp về CNTT cho các tổ chức lớn của thế giới tại VN, việc thiếu những giải pháp số hóa hiệu quả và an toàn đã làm đình trệ việc hình thành và phát triển các cơ sở dữ liệu lớn cấp quốc gia. Vì vậy, giải pháp nhận diện tiếng Việt bằng OCR của Laserfiche và Quadralink sẽ là một trong những "chìa khóa" có thể đổi văn bản giấy thành văn bản kỹ thuật số mà vẫn giữ được tính pháp lý, từ đó giúp giải quyết một nhu cầu cấp bách của ngành CNTT VN. 

T.Trang

Quảng cáo
 
Tòa soạn | Lịch sử | Thỏa thuận sử dụng | Trợ giúp | Sitemap | Liên hệ
© 2006 Báo Lao Động - Cơ quan của Tổng Liên đoàn Lao động Việt Nam. All rights reserved.
Giấy phép số: 221/GP-BVHTT • Tổng Biên tập: VƯƠNG VĂN VIỆT • Phó Tổng Biên tập: Tô Quang Phán - Vũ Mạnh Cường
Địa chỉ: 15/167 Tây Sơn - Đống Đa - Hà Nội • ĐT: 04-5330304 - 5330305 • Fax: 04-5370141 Email: webmaster@laodong.com.vn
Báo mới - Tổng hợp tin tức tự động