Share Đọc nội dung tập tin PDF với thư viện PdfToText

filiallion

Administrator
Staff member
Administrator
Messages
585
Points
10
Language
Tiếng Việt
Khi lập trình các ứng dụng web thì việc đọc nội dung các tập tin cũng là một trong những chức năng thường có, ví dụ như đọc tập tin văn bản đơn thuần, tập tin Excel... Có một số trường hợp các bạn phải viết chức năng đọc nội dung tập tin PDF. Hiện nay, để đọc nội dung tập tin PDF các bạn có một vài thư viện và một trong số đó là thư viện PdfToText mà tôi giới thiệu với các bạn ở bài viết này.

Việc sử dụng thư viện PdfToText không quá phức tạp nhưng việc chuẩn bị ban đầu cho máy chủ web đòi hỏi các bạn phải có kiến thức về hệ điều hành Linux cũng như có quyền cài đặt thư viện lên máy chủ web. Để thư viện PdfToText hoạt động thì các bạn phải cài gói thư viện poppler-utils lên máy chủ web, tuỳ vào hệ điều hành mà các bạn có cách cài đặt khác nhau, các bạn có thể tham khảo các cách cài đặt gói thư viện poppler-utils như sau:

Đối với hệ điều hành Ubuntu hoặc Debian:
Code:
apt-get install poppler-utils
Đối với hệ điều hành CentOS hoặc RedHat:
Code:
yum install poppler-utils
Sau khi cài đặt thành công poppler-utils lên máy chủ web, các bạn tiến hành cài đặt gói thư viện PdfToText vào ứng dụng web của các bạn bằng công cụ composer như sau:
Code:
composer require spatie/pdf-to-text
Và sử dụng thư viện PdfToText đơn giản như sau:
PHP:
<?php
/*
* Require tập tin autoload.php để nạp thư viện tự động
*/
require 'path/to/autoload.php';

/*
* Khởi tạo đối tượng pdf
*/
$pdf = new Pdf();

/*
* Đọc nội dung tập tin PDF
*/
$text = $pdf->setPdf('path/to/filename.pdf')
            ->text();
Các bạn có thể tìm hiểu thêm về thư viện PdfToText tại địa chỉ https://github.com/spatie/pdf-to-text.
 
Back
Top