tách lấy text từ bản PDF để lọc dữ liệu

Liên hệ QC

viethoang92

Thành viên mới
Tham gia
24/3/21
Bài viết
6
Được thích
0
cả nhà cho e hỏi chút ạ!!
e muốn copy toàn bộ text từ file pdf này sang file excel và text của mỗi page pdf được thêm cột để phân biệt là của page đó - file pdf e gửi lên đây có 2 page thôi, thì đánh dấu là text đó của page 1 hay của page 2.
e có rất nhiều file pdf như thế, làm tay thì lâu, nên cả nhà chỉ giùm có cách hay dùng tool hay vba để lấy được text từ pdf không ạ
e xin cám ơn nhiều!
 

File đính kèm

  • 1.pdf
    1.2 MB · Đọc: 16
cả nhà cho e hỏi chút ạ!!
e muốn copy toàn bộ text từ file pdf này sang file excel và text của mỗi page pdf được thêm cột để phân biệt là của page đó - file pdf e gửi lên đây có 2 page thôi, thì đánh dấu là text đó của page 1 hay của page 2.
e có rất nhiều file pdf như thế, làm tay thì lâu, nên cả nhà chỉ giùm có cách hay dùng tool hay vba để lấy được text từ pdf không ạ
e xin cám ơn nhiều!
Bạn nên viết hẳn từ "e" ra nhé. Nhanh thôi đó mà! :)
Yêu cầu của bạn khoai thế, mình xem file pdf của bạn hoa cả mắt luôn. Bạn đã thử 1 số phần mềm convert từ file pdf sang word hay excel chưa?

Để mình hỏi bạn này thử xem hình như có phần mềm convert bản quyền ngon lắm. :D

@NghiaKieu : bạn xem bài này giúp thớt, mình nhớ không nhầm bạn có phần mềm xử lý file pdf chuyên nghiệp có bản quyền đúng không ta? :)
 
Bạn nên viết hẳn từ "e" ra nhé. Nhanh thôi đó mà! :)
Yêu cầu của bạn khoai thế, mình xem file pdf của bạn hoa cả mắt luôn. Bạn đã thử 1 số phần mềm convert từ file pdf sang word hay excel chưa?

Để mình hỏi bạn này thử xem hình như có phần mềm convert bản quyền ngon lắm. :D

@NghiaKieu : bạn xem bài này giúp thớt, mình nhớ không nhầm bạn có phần mềm xử lý file pdf chuyên nghiệp có bản quyền đúng không ta? :)
vâng, em cám ơn bác ạ. em nhắn tin thế nên nhiều thành quên mất chữ m :)
em cũng đã tìm phần mềm nhưng chưa ra bác ạ, trên youtube có 1 video có tool của nước ngoài nhưng nó lại chia vụn text ra quá nên không sử dụng được.
 
Bạn đọc bắt đầu từ bài #6 nhé.

 
Bạn đọc bắt đầu từ bài #6 nhé.

vâng, em cám ơn bác, em đang xem ạ
 
Bạn đọc bắt đầu từ bài #6 nhé.

https://giaiphapexcel.com/diendan/t...B0a-v%C3%A0o-excel.141631/post-935560[/QUOTE]
Chào bác, em làm theo code bác chia sẻ lấy được văn văn tiếng Việt rồi, tạo ra thêm 1 file Text. Nhưng k chạy được phần copy dữ liệu text đó vào file excel. Bác hướng dẫn thêm giúp được không ạ
Cám ơn bác nhiều
 
Chào bác, em làm theo code bác chia sẻ lấy được văn văn tiếng Việt rồi, tạo ra thêm 1 file Text. Nhưng k chạy được phần copy dữ liệu text đó vào file excel. Bác hướng dẫn thêm giúp được không ạ
Cám ơn bác nhiều
Bác ấy đã lâu không vào GPE. Bạn dùng hàm sau để đọc file txt ra 1 mảng.
Rich (BB code):
Function GetText_txt(sPathname As String)
    Dim st As Object, arrTemp
    Dim sText As String, aText() As String
    Dim dblRw As Double, i As Long
    
    Set st = CreateObject("ADODB.Stream")
    With st
        .Charset = "utf-8"
        .Open
        .LoadFromFile (sPathname)
        sText = .ReadText(-1)
        aText = Split(sText, vbCrLf)
        dblRw = UBound(aText)
        ReDim arrTemp(1 To dblRw + 1, 1 To 1)
        
        For i = 0 To dblRw
            arrTemp(i + 1, 1) = aText(i)
        Next i
        .Close
    End With
    Set st = Nothing
    GetText_txt = arrTemp
End Function
 
Bác ấy đã lâu không vào GPE. Bạn dùng hàm sau để đọc file txt ra 1 mảng.
Rich (BB code):
Function GetText_txt(sPathname As String)
    Dim st As Object, arrTemp
    Dim sText As String, aText() As String
    Dim dblRw As Double, i As Long
   
    Set st = CreateObject("ADODB.Stream")
    With st
        .Charset = "utf-8"
        .Open
        .LoadFromFile (sPathname)
        sText = .ReadText(-1)
        aText = Split(sText, vbCrLf)
        dblRw = UBound(aText)
        ReDim arrTemp(1 To dblRw + 1, 1 To 1)
       
        For i = 0 To dblRw
            arrTemp(i + 1, 1) = aText(i)
        Next i
        .Close
    End With
    Set st = Nothing
    GetText_txt = arrTemp
End Function
Em các ơn bác nhiều
 
Web KT
Back
Top Bottom