Thử đoán mò. Tất nhiên có tập tin nên việc đoán mò có cơ sở hơn.
Văn bản trong PDF 99% không ở dạng unicode. Nó giống như văn bản Việt nhưng không ở dạng unicode. Ta làm thí nghiệm. Mở bất kỳ tập tin nào đã có vd. trong A1 văn bản được gõ bằng Unikey, kiểu gõ telex, bảng mã VNI Windows. Nếu chưa có tập tin như thế thì tạo mới rồi gõ. Nếu ta chọn cho A1 phông chữ Times New Roman thì sẽ nhìn thấy "đầu trâu mặt ngựa", nếu chọn VN-Times thì văn bản nhìn "đẹp tuyệt vời".
Trong Google Dịch ta chọn nguồn là tiếng Việt, đích là tiếng Anh. Nếu ta copy A1 và dán vào cửa sổ google thì cả ở đích và nguồn đều có "đầu trâu mặt ngựa".
Nếu bây giờ dùng Unikey để chuyển text trong A1 về unicode rồi dán vào A2 (phông chữ cho A2 là Times New Roman) thì sau khi copy A2 rồi dán vào google thì có ở nguồn và đích văn bản "đẹp tuyệt vời".
Excel hiển thị A1 "đẹp tuyệt vời" vì ta chọn cho A1 VNI-Times. PDF hiển thị văn bản Lào "đẹp tuyệt vời" vì phông chữ dùng để hiển thị đã được chèn vào, nhúng vào tập tin PDF.
Có lẽ giống như text VNI Windows trong A1, phải convert sang unicode. Lúc đó copy và dán text unicode vào google Dịch mới thành công. PDF được tạo mấy chục năm trước (được tạo 31/05/2007 bằng Acrobat PDFMaker 7.0 for Word) nên nó không dùng bảng mã unicode là điều dễ hiểu. Hồi xưa thì Việt Nam cũng chỉ có VNI Windows, TCVN3, ... thôi.