- Messages
- 585
- Points
- 10
- Language
- Tiếng Việt
Trong nhiều trường hợp, các bạn cần lấy nội dung văn bản đã loại bỏ các thẻ HTML từ một trang HTML thì các bạn thường sử dụng hàm strip_tags do PHP cung cấp. Với hàm strip_tags, các bạn sẽ loại bỏ hoàn toàn các thẻ HTML một cách dễ dàng chỉ với một dòng lệnh PHP đơn giản. Tuy nhiên, kết quả mà hàm strip_tags trả về lại là một nội dung văn bản chỉ nằm trên một dòng duy nhất, tức là hàm strip_tags không phân biệt đâu là nơi xuống dòng của văn bản. Để giải quyết vấn đề này, các bạn có thể sử dụng thư viện html2text mà tôi giới thiệu với các bạn ở bài viết này để chuyển đổi trang HTML sang văn bản tốt hơn với việc giữ lại các dòng, các đoạn văn bản, giúp cho nội dung nhận được thêm rõ ràng.
Việc sử dụng thư viện html2text rất đơn giản, trước tiên các bạn cần tải thư viện về tích hợp vào dự án bằng công cụ Composer với dòng lệnh:
Bây giờ, các bạn sử dụng thư viện html2text để loại bỏ các thẻ HTML, lấy nội dung văn bản như ví dụ sau:
Các bạn có thể tìm hiểu thêm các tuỳ chọn của thư viện html2text tại địa chỉ https://github.com/soundasleep/html2text.
Việc sử dụng thư viện html2text rất đơn giản, trước tiên các bạn cần tải thư viện về tích hợp vào dự án bằng công cụ Composer với dòng lệnh:
Code:
composer require soundasleep/html2text
PHP:
<?php
//Require tập tin autoload.php
require 'path/to/autoload.php';
//Khai báo sử dụng thư viện
use Soundasleep\Html2Text;
//Chuyển đổi nội dung HTML sang văn bản
$text = Html2Text::convert('Nội_dung_HTML');