Công cụ tìm kiếm

Văn Tuấn
Công cụ tìm kiếm là một hệ thống phần mềm cung cấp các liên kết đến trang web và những thông tin liên quan trên Internet, nhằm giải đáp các truy vấn của người dùng. Người dùng nhập nội dung cần tìm thông qua trình duyệt web hoặc ứng dụng di động. Sau đó, công cụ tìm kiếm sẽ trả về kết quả dưới dạng một danh sách các đường dẫn, kèm theo đoạn tóm tắt nội dung và hình ảnh minh họa. Ngoài ra, người dùng có thể chủ động thu hẹp phạm vi tìm kiếm theo từng loại nội dung cụ thể như hình ảnh, video hoặc tin tức.
a-screenshot-of-suggestions-by-google-search-when-wikip-is-typed-new-1742306895.png
Một số công cụ tìm kiếm sẽ gợi ý các truy vấn cho người dùng khi họ nhập từ khóa vào ô tìm kiếm.

Với các nhà cung cấp dịch vụ tìm kiếm, công cụ tìm kiếm là một phần trong hệ thống điện toán phân tán, bao gồm nhiều trung tâm dữ liệu trên toàn cầu. Tốc độ và độ chính xác của kết quả tìm kiếm phụ thuộc vào một hệ thống lập chỉ mục phức tạp, thường xuyên cập nhật thông qua các trình thu thập dữ liệu web tự động. Các trình thu thập này sẽ khai thác thông tin từ tập tin và cơ sở dữ liệu lưu trên máy chủ web; tuy nhiên, vẫn có một số nội dung mà chúng không thể truy cập.

Từ khi Internet ra đời vào những năm 1990, đã có rất nhiều công cụ tìm kiếm xuất hiện. Tuy nhiên, từ những năm 2000, Google Search vươn lên chiếm ưu thế và giữ vững vị trí dẫn đầu đến tận ngày nay. Hiện tại, Google chiếm khoảng 90% thị phần tìm kiếm toàn cầu. Vì thế, các hoạt động tiếp thị và tối ưu hóa trang web nhằm cải thiện khả năng hiển thị trên công cụ tìm kiếm phần lớn đều tập trung vào Google.

Trước những năm 1990

Năm 1945, Vannevar Bush đã giới thiệu một hệ thống truy xuất thông tin giúp người dùng dễ dàng tiếp cận lượng lớn thông tin ngay trên bàn làm việc cá nhân. Ông gọi hệ thống này là memex và mô tả chi tiết trong bài viết mang tựa đề "As We May Think," đăng trên tạp chí The Atlantic Monthly. Bush tạo ra memex nhằm hỗ trợ người dùng xử lý hiệu quả vấn đề tìm kiếm thông tin ngày càng khó khăn, trong bối cảnh các chỉ mục khoa học tập trung liên tục mở rộng. Ông hình dung các thư viện nghiên cứu có thể liên kết với nhau thông qua các chú thích, khá giống với siêu liên kết ngày nay.

Về sau, phân tích liên kết đã trở thành thành phần quan trọng của công cụ tìm kiếm, đặc biệt thông qua sự ra đời của các thuật toán như Hyper Search và PageRank.

Những năm 1990: Sự ra đời của công cụ tìm kiếm

Các công cụ tìm kiếm đầu tiên trên Internet xuất hiện từ trước khi World Wide Web chính thức ra mắt vào tháng 12 năm 1990. Ví dụ, công cụ tìm kiếm người dùng WHOIS đã có từ năm 1982, còn dịch vụ tìm kiếm đa mạng Knowbot Information Service thì bắt đầu hoạt động vào năm 1989. Archie—ra mắt ngày 10 tháng 9 năm 1990—được xem là công cụ tìm kiếm đầu tiên có khả năng tìm kiếm tập tin FTP.

Trước tháng 9 năm 1993, việc lập chỉ mục nội dung trên World Wide Web đều được thực hiện thủ công. Tim Berners-Lee là người trực tiếp biên tập danh sách các máy chủ web, danh sách này được lưu trữ trên máy chủ của CERN. Hiện nay, một bản lưu của danh sách này từ năm 1992 vẫn còn tồn tại; tuy nhiên, khi số lượng máy chủ ngày càng tăng nhanh, việc cập nhật thủ công không còn khả thi. Thời điểm ấy, trên trang web của tổ chức NCSA, các máy chủ mới liên tục được giới thiệu trong mục "What's New!".

Công cụ đầu tiên hỗ trợ người dùng tìm kiếm nội dung (thay vì tìm kiếm thông tin người dùng) là Archie. Tên gọi Archie bắt nguồn từ từ "archive," bỏ chữ cái "v". Alan Emtage, sinh viên khoa học máy tính tại Đại học McGill (Montréal, Canada), là người tạo ra Archie. Công cụ này tải về các danh sách thư mục từ những máy chủ FTP công cộng, xây dựng cơ sở dữ liệu để người dùng tìm kiếm tên tập tin dễ dàng. Tuy vậy, Archie không lập chỉ mục nội dung bên trong các tập tin do lượng dữ liệu khi ấy còn hạn chế và có thể tra cứu thủ công được.

Sự xuất hiện của hệ thống Gopher năm 1991—do Mark McCahill tại Đại học Minnesota sáng tạo—đã thúc đẩy sự ra đời của hai công cụ tìm kiếm mới là Veronica và Jughead. Tương tự Archie, hai công cụ này chuyên tìm kiếm tên và tiêu đề các tập tin trên Gopher. Veronica cho phép tìm kiếm từ khóa trong tiêu đề menu khắp hệ thống Gopher, trong khi Jughead lấy thông tin từ menu tại từng máy chủ Gopher cụ thể. Khác với Archie, tên gọi của Veronica và Jughead được lấy từ các nhân vật truyện tranh "Archie," nhằm thể hiện sự kế thừa từ công cụ tìm kiếm tiền nhiệm này.

Vào mùa hè năm 1993, web vẫn chưa có công cụ tìm kiếm nào, chỉ tồn tại những danh mục web được cập nhật thủ công. Tại Đại học Geneva, Oscar Nierstrasz viết một loạt tập lệnh bằng Perl để tự động sao chép và chuyển đổi các trang web này sang một định dạng chuẩn. Đó chính là tiền thân của W3Catalog—công cụ tìm kiếm sơ khai đầu tiên dành riêng cho web—ra mắt ngày 2 tháng 9 năm 1993.

Tháng 6 năm 1993, Matthew Gray tại MIT phát triển robot tìm kiếm đầu tiên viết bằng Perl, có tên là World Wide Web Wanderer, nhằm tạo chỉ mục mang tên Wandex. Ban đầu, robot này được dùng để đo kích thước của World Wide Web, kéo dài đến cuối năm 1995. Công cụ tìm kiếm thứ hai trên web là Aliweb, ra mắt vào tháng 11 cùng năm. Aliweb không sử dụng robot để thu thập dữ liệu mà dựa vào việc các quản trị viên tự thông báo sự tồn tại của tập tin chỉ mục trên website của họ.

Tháng 12 năm 1993, Jonathon Fletcher phát triển JumpStation, một công cụ tìm kiếm sử dụng robot để thu thập dữ liệu web và xây dựng chỉ mục. JumpStation cũng cung cấp giao diện tìm kiếm thông qua biểu mẫu trên web, kết hợp đầy đủ ba chức năng cơ bản: thu thập dữ liệu, lập chỉ mục, và tìm kiếm. Tuy nhiên, do giới hạn về tài nguyên, JumpStation chỉ lập chỉ mục tiêu đề và các đề mục của trang web.

Năm 1994, WebCrawler ra đời, trở thành công cụ tìm kiếm đầu tiên cho phép người dùng tra cứu bất kỳ từ nào xuất hiện trong nội dung toàn bộ trang web. WebCrawler nhanh chóng được công chúng biết đến rộng rãi. Cùng năm, Lycos—công cụ tìm kiếm bắt nguồn từ Đại học Carnegie Mellon—được tung ra thị trường và nhanh chóng phát triển mạnh mẽ về mặt thương mại.

Yahoo! Search là công cụ tìm kiếm phổ biến đầu tiên trên web. Yahoo! do Jerry Yang và David Filo thành lập vào tháng 1 năm 1994, ban đầu chỉ là một danh mục web với tên gọi Yahoo! Directory. Đến năm 1995, Yahoo! bổ sung chức năng tìm kiếm cho phép người dùng tra cứu trực tiếp trong danh mục của mình, tuy nhiên chức năng này không hỗ trợ tìm kiếm nội dung đầy đủ của các trang web.

Ngay sau đó, hàng loạt công cụ tìm kiếm khác ra đời và cạnh tranh mạnh mẽ, nổi bật như Magellan, Excite, Infoseek, Inktomi, Northern Light và AltaVista. Ngoài tìm kiếm theo từ khóa, người dùng còn có thể duyệt theo danh mục có sẵn.

Năm 1996, Robin Li phát triển thuật toán RankDex nhằm xếp hạng các trang web dựa trên phân tích liên kết, qua đó nhận được bằng sáng chế tại Mỹ. Đây là công cụ đầu tiên sử dụng siêu liên kết để đánh giá chất lượng trang web, xuất hiện trước cả PageRank do Google đăng ký vào năm 1998. Larry Page cũng tham khảo công trình của Robin Li khi phát triển PageRank. Về sau, Robin Li ứng dụng chính thuật toán RankDex để xây dựng công cụ tìm kiếm Baidu tại Trung Quốc, ra mắt năm 2000.

Cũng năm 1996, Netscape muốn chọn một công cụ tìm kiếm duy nhất để tích hợp độc quyền vào trình duyệt web của mình, nhưng cuối cùng lại quyết định hợp tác với năm công cụ lớn: Yahoo!, Magellan, Lycos, Infoseek và Excite, mỗi công cụ trả 5 triệu USD mỗi năm để luân phiên xuất hiện trên trang tìm kiếm của Netscape.

Năm 1998, Google áp dụng ý tưởng bán quảng cáo từ khóa học được từ goto.com, qua đó biến thị trường công cụ tìm kiếm từ một ngành khó khăn thành lĩnh vực kinh doanh vô cùng lợi nhuận.

Vào cuối thập niên 1990, các công ty tìm kiếm trở thành tâm điểm của làn sóng đầu tư mạnh mẽ trên Internet. Nhiều công ty đạt thành công vang dội khi phát hành cổ phiếu lần đầu (IPO). Tuy nhiên, không ít công ty cũng rơi vào bong bóng dot-com—cuộc khủng hoảng tài chính do đầu cơ, đạt đỉnh điểm vào tháng 3 năm 2000—buộc họ phải đóng cửa phiên bản tìm kiếm công khai và chuyển sang cung cấp dịch vụ riêng cho doanh nghiệp, điển hình như Northern Light.

Từ những năm 2000 đến nay: Giai đoạn hậu bong bóng dot-com.

Vào khoảng năm 2000, công cụ tìm kiếm của Google bắt đầu nổi bật. Công ty đạt được kết quả tốt hơn cho nhiều truy vấn nhờ vào thuật toán PageRank, như được giải thích trong bài báo "Anatomy of a Search Engine" do Sergey Brin và Larry Page, những người sáng lập Google, viết. Thuật toán này xếp hạng các trang web dựa trên số lượng và chất lượng của các liên kết từ các trang khác, với giả thuyết rằng các trang tốt hoặc mong muốn sẽ nhận được nhiều liên kết hơn. Bằng sáng chế PageRank của Larry Page trích dẫn bằng sáng chế RankDex của Robin Li trước đó như một ảnh hưởng. Google cũng duy trì giao diện tối giản cho công cụ tìm kiếm của mình, trong khi nhiều đối thủ của Google lại tích hợp công cụ tìm kiếm vào các cổng web. Thực tế, công cụ tìm kiếm của Google trở nên phổ biến đến mức các công cụ giả mạo như Mystery Seeker cũng xuất hiện.

Đến năm 2000, Yahoo! cung cấp dịch vụ tìm kiếm dựa trên công cụ tìm kiếm của Inktomi. Yahoo! đã mua lại Inktomi vào năm 2002 và Overture (chủ sở hữu của AlltheWeb và AltaVista) vào năm 2003. Yahoo! chuyển sang sử dụng công cụ tìm kiếm của Google cho đến năm 2004, khi họ ra mắt công cụ tìm kiếm riêng, dựa trên công nghệ kết hợp từ các công ty mà họ đã mua lại.

Microsoft lần đầu ra mắt MSN Search vào mùa thu năm 1998, sử dụng kết quả tìm kiếm từ Inktomi. Đầu năm 1999, trang web bắt đầu hiển thị kết quả từ Looksmart, kết hợp với kết quả từ Inktomi. Trong một thời gian ngắn vào năm 1999, MSN Search thay thế kết quả bằng AltaVista. Đến năm 2004, Microsoft bắt đầu chuyển sang công nghệ tìm kiếm của riêng mình, hỗ trợ bởi công cụ thu thập dữ liệu web msnbot.

Công cụ tìm kiếm của Microsoft được đổi tên thành Bing và ra mắt vào ngày 1 tháng 6 năm 2009. Vào ngày 29 tháng 7 năm 2009, Yahoo! và Microsoft ký kết thỏa thuận, theo đó công nghệ Bing sẽ cung cấp kết quả tìm kiếm cho Yahoo! Search.

Tính đến năm 2019, các công cụ thu thập dữ liệu tìm kiếm hoạt động bao gồm của Google, Sogou, Baidu, Bing, Gigablast, Mojeek, DuckDuckGo và Yandex.