Trang

Thứ Hai, 23 tháng 6, 2014

Lấy nội dung bài viết bằng HtmlAgilityPack

Hôm nay mình sẽ demo cách lấy text của bài viết trên website hoặc những thứ khác như link ảnh, link video, link audio ...v.v... một cách dể dàng nhờ thư viện htmlagilitypack.

Đầu tiên, mình cần một giao diện để tương tác như hình dưới :


Sau đó viết sự kiện cho nút " Lấy text ", nhớ thêm thư viện HtmlAgilityPack vào

using HtmlAgilityPack;

private void button1_Click(object sender, EventArgs e)

{

HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();

HtmlWeb hw = new HtmlWeb();

doc = hw.Load("http://hcm.24h.com.vn/world-cup-2014/argentina-sau-2-tran-ganh-nang-tren-vai-messi-c512a638589.html");//chuỗi url của bài viết

//mình tìm đến node div có class là text-conent và lấy nội dung trong thẻ p

HtmlNodeCollection texts = doc.DocumentNode.SelectNodes("//div[@class=\"text-conent\"]/p");//câu truy vấn xpath, nếu bạn không biết có thể tìm hiểu thêm tại w3school

string kq = "";

//cho vòng lặp để lấy kết quả

foreach (var item in texts)

{

kq += item.InnerText + Environment.NewLine;

}

//hiển thị kq ra richtextbox

richTextBox1.Text = kq;

}


Source demo: download

Nếu bạn chưa rõ, có thể xem video này :

Không có nhận xét nào:

Đăng nhận xét