Cách Sử Dụng Hàm IMPORTXML Trong Google Trang Tính

Những hàm phổ biến trong Google Sheet & cách sử dụng

Google Trang Tính (Google Sheets) là một công cụ bảng tính đa năng được sử dụng rộng rãi trong quản lý dữ liệu và tự động hóa. Một trong những tính năng mạnh mẽ nhất của Google Trang Tính chính là hàm IMPORTXML, cho phép bạn tự động lấy dữ liệu từ các trang web theo định dạng XML, HTML, RSS và các định dạng đánh dấu khác.

1. Hàm IMPORTXML là gì?

Hàm IMPORTXML được dùng để trích xuất dữ liệu từ một URL cụ thể dựa trên các thẻ XPath hoặc HTML. Bạn có thể sử dụng nó để lấy thông tin như tiêu đề bài viết, giá sản phẩm, mô tả, bảng dữ liệu từ các trang web một cách nhanh chóng và chính xác.

Cú pháp hàm IMPORTXML

excel
=IMPORTXML(URL, Xpath_query)
  • URL: Đường dẫn của trang web (phải nằm trong ngoặc kép ” ” hoặc được tham chiếu từ ô khác).
  • Xpath_query: Một truy vấn XPath dùng để chỉ định dữ liệu cần lấy từ trang web.

2. Ứng dụng cơ bản của hàm IMPORTXML

Ví dụ 1: Lấy tiêu đề từ một trang web tin tức

Giả sử bạn muốn lấy tiêu đề của bài viết từ trang web “https://example.com”. Tiêu đề thường được đặt trong thẻ <h1> hoặc <h2>.

Công thức như sau:

=IMPORTXML("https://example.com", "//h1")

Hoặc:

=IMPORTXML("https://example.com", "//h2")

Kết quả: Google Trang Tính sẽ tự động liệt kê các tiêu đề bài viết trên trang web.

Ví dụ 2: Lấy giá sản phẩm từ một trang bán hàng

Nếu bạn cần lấy giá sản phẩm từ một trang web thương mại điện tử, giá thường được đặt trong thẻ có class chứa từ “price”. Sử dụng Xpath như sau:

=IMPORTXML("https://example.com/product", "//span[@class='price']")

Kết quả: Trang tính sẽ hiển thị giá của sản phẩm.

3. Ứng dụng nâng cao của hàm IMPORTXML

Ví dụ 3: Lấy danh sách liên kết trên một trang web

Bạn muốn liệt kê tất cả các liên kết trên một trang? Dùng công thức sau:

=IMPORTXML("https://example.com", "//a/@href")

Kết quả: Trang tính sẽ hiển thị danh sách các URL liên kết từ trang web.

Ví dụ 4: Kết hợp hàm IMPORTXML và hàm khác

Đôi khi bạn cần xử lý dữ liệu đã nhập, ví dụ như lọc các URL chứa từ khóa. Sử dụng kết hợp với hàm FILTER:

=FILTER(IMPORTXML("https://example.com", "//a/@href"), REGEXMATCH(IMPORTXML("https://example.com", "//a/@href"), "keyword"))

Ví dụ 5: Theo dõi tỷ giá ngoại tệ tự động

Bạn muốn theo dõi tỷ giá ngoại tệ trên Google Sheets? Lấy tỷ giá từ một trang tài chính, ví dụ:

=IMPORTXML("https://example.com/exchange-rates", "//table[@class='currency-table']//td")

Kết quả: Trang tính sẽ hiển thị danh sách tỷ giá cập nhật từ trang web.

4. Lưu ý khi sử dụng hàm IMPORTXML

  1. Dữ liệu công khai: Hàm chỉ hoạt động với các trang web có dữ liệu công khai, không yêu cầu đăng nhập.
  2. Giới hạn của Google Sheets: Google hạn chế số lượng yêu cầu từ một tài liệu, vì vậy bạn không nên lạm dụng hàm này.
  3. Thay đổi cấu trúc trang web: Nếu trang web thay đổi định dạng HTML, bạn sẽ cần điều chỉnh lại truy vấn XPath.
  4. Trang web bị chặn: Một số trang web sử dụng biện pháp bảo mật (như CAPTCHA) có thể chặn truy cập từ hàm IMPORTXML.

5. Công cụ hỗ trợ tạo truy vấn XPath

Nếu bạn chưa quen với XPath, có thể sử dụng công cụ như:

  • Chrome DevTools: Nhấp chuột phải vào phần tử cần lấy, chọn “Inspect”, sau đó sao chép XPath.
  • XPath Helper (tiện ích mở rộng của Chrome): Hỗ trợ kiểm tra và tinh chỉnh truy vấn XPath.

Kết luận

Hàm IMPORTXML là một công cụ mạnh mẽ giúp tự động hóa việc thu thập dữ liệu từ các trang web. Từ các ứng dụng cơ bản như lấy tiêu đề bài viết, đến các ứng dụng nâng cao như trích xuất và xử lý dữ liệu phức tạp, IMPORTXML sẽ giúp bạn tiết kiệm thời gian và nâng cao hiệu quả công việc. Hãy bắt đầu thử nghiệm với các ví dụ trên để khám phá tiềm năng của công cụ này!

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *