Share Chuyển đổi nội dung HTML thành văn bản với thư viện html2text

filiallion

Administrator
Staff member
Administrator
Messages
585
Points
10
Language
Tiếng Việt
Trong nhiều trường hợp, các bạn cần lấy nội dung văn bản đã loại bỏ các thẻ HTML từ một trang HTML thì các bạn thường sử dụng hàm strip_tags do PHP cung cấp. Với hàm strip_tags, các bạn sẽ loại bỏ hoàn toàn các thẻ HTML một cách dễ dàng chỉ với một dòng lệnh PHP đơn giản. Tuy nhiên, kết quả mà hàm strip_tags trả về lại là một nội dung văn bản chỉ nằm trên một dòng duy nhất, tức là hàm strip_tags không phân biệt đâu là nơi xuống dòng của văn bản. Để giải quyết vấn đề này, các bạn có thể sử dụng thư viện html2text mà tôi giới thiệu với các bạn ở bài viết này để chuyển đổi trang HTML sang văn bản tốt hơn với việc giữ lại các dòng, các đoạn văn bản, giúp cho nội dung nhận được thêm rõ ràng.

Việc sử dụng thư viện html2text rất đơn giản, trước tiên các bạn cần tải thư viện về tích hợp vào dự án bằng công cụ Composer với dòng lệnh:
Code:
composer require soundasleep/html2text
Bây giờ, các bạn sử dụng thư viện html2text để loại bỏ các thẻ HTML, lấy nội dung văn bản như ví dụ sau:
PHP:
<?php
//Require tập tin autoload.php
require 'path/to/autoload.php';

//Khai báo sử dụng thư viện
use Soundasleep\Html2Text;

//Chuyển đổi nội dung HTML sang văn bản
$text = Html2Text::convert('Nội_dung_HTML');
Các bạn có thể tìm hiểu thêm các tuỳ chọn của thư viện html2text tại địa chỉ https://github.com/soundasleep/html2text.
 
Back
Top