reCAPTCHA: tìm hiểu về CAPTCHA và reCAPTCHA | Cách ẩn icon reCAPTCHA V3 | HOW TO HIDE/REMOVE reCAPTCHA V3 BADGE - BÁCH KHOA TRI THỨC | CAPAPHAM

[CPP] Dù bạn đang sử dụng website với WordPress (kết hợp với Contact Form 7) hay mã nguồn nào, hầu hết chúng ta đều sử dụng Google Recaptcha để chống spam. Nếu bạn là người hay sử dụng internet, bạn sẽ hay thấy dòng chữ: “I’m not a robot” hay “Tôi không phải là người máy“. Vậy Google reCAPTCHA là gì? Phiên bản reCaptcha mới nhất hiện tại là gì và có gì khác với phiên bản trước? Hãy lần lượt tìm hiểu nhé!

Cách ẩn reCaptcha v3 | How to hide/remove protected by Google reCaptcha v3 badge?

Mục lục ẩn

1. Cách ẩn reCaptcha v3 | How to hide/remove protected by Google reCaptcha v3 badge?

2. CAPTCHA là gì?

2.1. Captcha là viết tắt của từ gì?

2.2. Nguồn gốc, lịch sử của Captcha

2.3. Đặc điểm của Captcha

2.4. Ứng dụng của Captcha, Captcha dùng để làm gì?

3. reCAPTCHA là gì?

3.1. reCAPTCHA hoạt động như thế nào?

3.2. Sự bán mình của reCAPTCHA cho Google

3.3. Lịch sử các phiên bản reCAPTCHA

4. Thành công khó lặp lại

Bạn thêm dòng này vào CSS:

.grecaptcha-badge {
opacity: 0;
}

Có những bài viết dùng thuộc tính “display: none;“, hoặc “visibility: hidden;“, nhưng mình thấy opacity vẫn tốt hơn.

CAPTCHA là gì?

Captcha là viết tắt của từ gì?

Captcha là viết tắt của từ Completely Automated Public Turing test to tell Computers and Humans Apart, nôm na là một phép thử để phân biệt con người và máy tính.

Captcha đa phần là các đoạn kí tự uốn éo khác nhau, thứ mà được cho là máy tính không thể tự giải được và chỉ có con người thật sự mới làm được.

Nguồn gốc, lịch sử của Captcha

Vào những năm 1950, sự khó khăn tiềm tàng trong việc phân biệt giữa người và máy tính mạo danh con người đã được đề ra, điển hình là phép thử Turing được đề xuất bởi Alan Turing. Cuộc bàn luận đầu tiên về các thử nghiệm tự động để phân biệt con người với máy tính với mục đích kiểm soát sự truy cập các dịch vụ web xuất hiện trong bản thảo năm 1996 của Moni Naor từ Viện Khoa học Weizmann, có tên “Lĩnh vực xác minh con người, hay Sự định danh thông qua Phép thử Turing” Naor, Moni (1996)

Những CAPTCHA nguyên thủy có lẽ được phát triển vào năm 1997 tại AltaVista, do Andrei Broder và đồng nghiệp của ông sáng tạo để ngăn ngừa bot thêm URL vào bộ máy tìm kiếm của họ. Để khiến cho hình ảnh chống lại được OCR (Nhận dạng ký tự quang học), nhóm đã mô phỏng những tình huống mà những cuốn hướng dẫn bộ quét cho rằng sẽ dẫn đến kết OCR sai.

Vào năm 2000, Luis von Ahn, Manuel Blum và các cộng sự đã phát triển và công khai khái niệm CAPTCHA, bao gồm bất kỳ chương trình nào có thể phân biệt con người với máy tính. Họ đã sáng chế ra nhiều mẫu CAPTCHA, gồm có những CAPTCHA đầu tiên được sử dụng rộng rãi, và cũng chính là những loại được Yahoo! sử dụng. (Theo wiki)

Một trong các CAPTCHA đầu tiên — Các CAPTCHA thuở đầu tiên như thế này, được chương trình EZ-Gimpy tạo ra, đã được Yahoo sử dụng. Tuy nhiên, đã có công nghệ đọc được loại CAPTCHA này.

Một CAPTCHA hiện đại hơn, có đường gạch ngang — Một CAPTCHA hiện đại. Ngoài việc cố gắng tạo ra phông nền méo mó và làm cong chữ, CAPTCHA này còn tập trung vào việc làm cho từng đoạn khó nhận ra hơn bằng cách thêm vào đường gạch ngang.

Một loại CAPTCHA khác có chữ chồng lên nhau — Một cách khác để khiến khó phân tách hơn. Con người có thể đọc dễ dàng các chữ chồng lên nhau, còn máy thì rất khó tách chữ.

Đặc điểm của Captcha

Một hệ thống CAPTCHA là một dạng thử thách mới được tạo ra tự động trong đó:

Có một số lượng vô hạn các phiên bản mà máy tính hiện nay không thể giải được một cách chính xác, việc dạy máy tình có thể đưa ra câu trả lời chính xác là cực kỳ có khăn trong khi đó đa số con người có thể giải được.
Khoảng cách hoặc sự phân biệt các ký tự trong captcha là khó khăn.
Phải được hiểu một cách toàn diện giúp nhận các ký tự có khả năng được nhận biết chính xác.Ví dụ trong một phân đoạn CAPTCHA, tồn tại một ký tự nhìn như chữ m, nhưng nếu đặt toàn bộ vào ngữ cảnh thì nó phải được hiểu là chữ n.

Ứng dụng của Captcha, Captcha dùng để làm gì?

CAPTCHA có một số ứng dụng trong bảo mật thực tế, bao gồm:

Ngăn chặn Spam comment trong Blogs: Hầu hết các blogger đều quen thuộc với các chương trình đưa ra comment không có thật, thường là nhằm mục đích nâng cao thứ hạng của công cụ tìm kiếm trong một số trang web. Đây được gọi là spam nhận xét. Bằng cách sử dụng CAPTCHA, chỉ có người có thể nhập nhận xét vào blog. Không cần người dùng phải sign up trước khi họ nhập nhận xét, và không có ý kiến hợp pháp nào bị mất.
Bảo vệ Đăng ký Website: Một số công ty (Yahoo !, Microsoft, …) cung cấp dịch vụ email miễn phí. Cho đến một vài năm trước, hầu hết các dịch vụ này đều chịu một loại tấn công cụ thể: các con “bots” thể đăng ký hàng nghìn tài khoản email mỗi phút. Giải pháp cho vấn đề này là sử dụng CAPTCHA để đảm bảo rằng chỉ có con người mới có được tài khoản miễn phí. Nói chung, dịch vụ miễn phí nên được bảo vệ bằng CAPTCHA để ngăn chặn lạm dụng bằng các tập lệnh tự động.
Bảo vệ Địa chỉ Email Từ Scrapers: Những người gửi spam thu thập thông tin Web để tìm kiếm các địa chỉ email được đăng trong văn bản rõ ràng. CAPTCHA cung cấp cơ chế hiệu quả để ẩn địa chỉ email của bạn khỏi những scraper. Ý tưởng là yêu cầu người dùng giải quyết CAPTCHA trước khi hiển thị địa chỉ email của bạn.
Cuộc thăm dò trực tuyến: Vào tháng 11 năm 1999, https://www.slashdot.org đã công bố một cuộc thăm dò trực tuyến về một trong những trường đại học tốt nhất về khoa học máy tính (một câu hỏi nguy hiểm để hỏi qua web!). Như trường hợp của hầu hết các cuộc thăm dò trực tuyến, địa chỉ IP của người vote được ghi lại để ngăn không cho người sử dụng đơn lẻ bỏ phiếu nhiều lần. Tuy nhiên, sinh viên Carnegie Mellon đã tìm ra cách để bỏ phiếu bằng các chương trình đã bỏ phiếu cho CMU hàng ngàn lần. Điểm của CMU bắt đầu phát triển nhanh chóng. Ngày hôm sau, sinh viên MIT đã viết chương trình riêng của họ và cuộc thăm dò đã trở thành một cuộc thi giữa bỏ phiếu “bots”. MIT đã kết thúc với 21.156 phiếu bầu, Carnegie Mellon với 21.032 và mọi trường khác với ít hơn 1.000. Có thể tin cậy kết quả của bất kỳ cuộc thăm dò trực tuyến nào? Không phải trừ khi cuộc thăm dò đảm bảo rằng chỉ có con người mới có thể bỏ phiếu.
Ngăn chặn tấn công từ điển với mật khẩu: CAPTCHAs cũng có thể được sử dụng để ngăn chặn các cuộc tấn công từ điển trong các hệ thống mật khẩu. Ý tưởng rất đơn giản: ngăn không cho máy tính có thể lặp lại toàn bộ không gian mật khẩu bằng cách yêu cầu nó giải quyết CAPTCHA sau một số lần đăng nhập không thành công. Điều này tốt hơn cách tiếp cận cổ điển của việc khóa tài khoản sau một chuỗi đăng nhập không thành công, vì làm như vậy sẽ cho phép kẻ tấn công khóa tài khoản theo ý muốn.

reCAPTCHA là gì?

Để phòng tránh các cuộc tấn công mạng, chủ website thường sử dụng CAPTCHA như một phương tiện vừa hiệu quả vừa miễn phí.

Phát hiện ra sự “lãng phí” của CAPTCHA, Luis von Ahn đã viết nên reCAPTCHA, với nhiệm vụ vừa bảo vệ website, vừa có khả năng dịch văn bản cực kỳ chính xác.

Captcha được nhiều trang web sử dụng để phòng tránh các cuộc tấn công từ chối dịch vụ hàng loạt hoặc đánh cắp dữ liệu vì sự hiệu quả cũng như giá thành “0 đồng” của mình.
Tuy nhiên, nhà sáng lập Luis nhanh chóng nhận ra rằng, tuy mỗi người chỉ tốn vài giây để hoàn tất một mẫu Captcha, nếu tính tổng cộng số người dùng khổng lồ trên Internet, mỗi ngày có đến hàng trăm ngàn giờ lao động “lãng phí” đang được đổ vào Captcha.
Nhằm tận dụng những giờ lao động quý giá này, Luis cho ra đời reCAPTCHA vào năm 2007. reCAPTCHA về cơ bản vẫn là một chương trình CAPTCHA thông thường, ngay từ lúc xuất hiện, reCAPTCHA đã chủ động giới thiệu bản thân là một dịch vụ hoàn toàn miễn phí và cực kỳ dễ sử dụng cho các chủ sở hữu website.
Không lâu sau đó, reCAPTCHA được sử dụng rộng rãi và trở thành chương trình phòng vệ mặc định của rất nhiều trang web lớn.
Nhưng ít ai biết được mô hình kinh doanh “thiên tài” đằng sau chương trình miễn phí này.
Hàng chục triệu người dùng Internet đang bị biến thành những “cỗ máy đánh chữ”, đều đặn gõ hàng triệu chữ cái mỗi ngày, điện tử hóa hàng ngàn quyển sách, tạp chí, bài báo từ xa xưa mà không hề hay biết.

reCAPTCHA nhanh chóng được Google mua lại sau 2 năm thành lập với giá gần 30 triệu USD!

reCAPTCHA hoạt động như thế nào?

So với các phần mềm nhận dạng khác, reCAPTCHA yêu cầu người dùng phải nhập 2 chữ cái khác nhau thay vì 1 chữ.

Và cũng không giống các CAPTCHA còn lại, reCAPTCHA không tự động “tạo” những chữ khó nhìn để đánh đố người dùng mà lấy hẳn hình ảnh từ các văn bản vật lý (sách, báo, tờ rơi…) mà phần mềm nhận diện mặt chữ (Optical Character Recognition – OCR) không thể giải quyết được.

Các phần mềm OCR luôn được sử dụng để chuyển các trang sách, tạp chí, bài báo từ bản in sang bản điện tử để lưu trữ cũng như phân phối.

Nhưng OCR cũng chỉ là một phần mềm “bắt chước” khả năng đọc của con người, nếu như trang giấy có dấu hiệu sờn, cũ hoặc xuống cấp, OCR sẽ ngay lập tức không nhận diện được, dù một người bình thường có thể dễ dàng nhận ra chữ đó là gì.

Trong 2 chữ mà chương trình này “thách thức” người dùng, một chữ đã được nhận diện và lưu trong kho dữ liệu, một chữ còn lại sẽ đến từ danh sách các từ mà OCR không đọc được ở trên.

Nếu có ít nhất 6 người dùng cùng sử dụng một chữ để thay thế cho hình ảnh mà OCR không nhận diện được, reCAPTCHA sẽ xem nó như là một từ đã được “điện tử hóa” thành công.

Sự bán mình của reCAPTCHA cho Google

Với khả năng đọc chữ chính xác “gấp 6 lần người thường”, reCAPTCHA nhanh chóng ký hợp đồng với tờ báo danh tiếng New York Times để điện tử hóa tất cả bài viết cũ.

Chỉ trong vài tháng hợp tác, reCAPTCHA đã dễ dàng điện tử hóa tất cả bài viết của New York Times trong vòng 20 năm trước khi có máy tính.

Và chỉ trong một năm hoạt động, hơn 440 triệu từ đã được điện tử hóa thành công, tương đương với gần 17.600 quyển sách!

Vào năm 2009, tức là chỉ 2 năm kể từ lúc thành lập, reCAPTCHA nhanh chóng được Google mua lại với một khoản tiền không được công bố (nhưng vài chuyên gia dự đoán giá trị ít nhất là 30 triệu USD).

Ngay sau khi thâu tóm, Google ngay lập tức sử dụng reCAPTCHA cho Google Books, biến đây trở thành thư viện điện tử lớn nhất thế giới chỉ sau vài năm.

Không những thế, Google còn sử dụng reCAPTCHA cho nhiều mục đích khác, chẳng hạn như giải mã biển tên đường hay số nhà trên Google Maps Street View, phân biệt các phương tiện và biển hiệu giao thông cho dự án xe không người lái …

Có thể thấy rằng reCAPTCHA đã nhanh chóng chứng minh giá trị của mình và “hoàn vốn” nhanh chóng cho Google qua các ứng dụng trên.

reCAPTCHA là tấm gương của mô hình kinh doanh đơn giản mà hiệu quả. An ninh mạng và Nhận diện chữ viết là hai việc hoàn toàn không liên quan đến nhau, nhưng Luis đã kết nối được hai phạm trù này để “tận dụng” hàng triệu người trên khắp thế giới làm việc cho mình, tối ưu hóa nguồn lực của xã hội trước khi định nghĩa “kinh tế chia sẻ” được ra đời.

Lịch sử các phiên bản reCAPTCHA

Google mới tiết lộ phiên bản mới của reCAPTCHA nhằm hướng tới dịch vụ thân thiện hơn, mang đến cho các nhà quản trị web nhiều lựa chọn hơn khi cần xử lý những lưu lượng Internet không mong muốn.

Hầu như bất kì người dùng Internet nào cũng từng gặp phải CAPTCHA đòi xác nhận. Chúng được tạo ra để xác minh người truy cập đúng là con người chứ không phải bot. Trang đăng nhập là ví dụ điển hình cho việc sử dụng CAPTCHA. Các website không bao giờ muốn bot đăng ký tài khoản, và vì thế, họ dùng CAPTCHA để ngăn bot làm việc đó.

CAPTCHA cũng có nhiều vấn đề, như việc người dùng chọn sai khá nhiều, đôi khi rất khó hoặc không thể xác định văn bản bạn được hỏi, dẫn đến sự khó chịu.

Khi Google lần đầu tung ra phiên bản đầu tiên của công cụ xác nhận reCAPTCHA, mọi người dùng đều phải vượt qua bài kiểm tra CAPTCHA mới có thể truy cập trang hoặc thực hiện việc gì đó. Nay bản này đã bị ngưng sử dụng.

reCaptcha v1 đã ngừng hoạt động từ tháng 3/2018

Ở bản thứ 2, Google sử dụng hộp checkbox khiến khoảng một nửa người dùng có thể vượt qua mà không cần nhập CAPTCHA. Sau khi tick chọn, bạn có thể truy cập được ngay (NO CAPTCHA) hoặc sẽ bị thử thách một chút bằng các bảng biểu, hình ảnh…

Phiên bản thứ 3 còn hoàn toàn thay đổi mọi thứ khi người quản trị web được quyền chọn cách hiển thị CAPTCHA. Thay vì hiển thị ngay cho người dùng, reCAPTCHA v3 sẽ tính toán để cho người quản trị web biết khả năng đó là người hay bot.

Xem video hướng dẫn reCaptcha v3 của Google tại đây:

“Với reCAPTCHA v3, chúng tôi thay đổi hoàn toàn cách trang kiểm tra hoạt động của người và bot bằng cách tính điểm và nói cho bạn biết tương tác đó đáng nghi tới mức nào, giảm thiểu việc bắt người dùng phải vượt qua các thử thách. reCAPTCHA 3 chạy phân tích rủi ro ở dạng nền, cảnh báo traffic đáng ngờ, trong khi người dùng ình thường vẫn trải nghiệm thoải mái trên trang”.

Quản trị web có quyền kiểm soát nhiều hơn. Họ có thể đặt ra ngưỡng để người truy cập tự động được phép vào trang, thêm các dấu hiệu tùy biến để phát hiện, xác định kiểu xác nhận mà họ muốn người truy cập thực hiện, như xác thực 2 yếu tố hay số điện thoại..

Thành công khó lặp lại

Sau khi thành công với reCAPTCHA, Luis đã thành lập Duolingo vào năm 2011, nhằm cung cấp một dịch vụ học ngôn ngữ hoàn toàn miễn phí và đi kèm là “giải pháp” dịch thuật chính xác hơn bất kỳ trí thông minh nhân tạo nào.

Nhưng cho đến nay, Duolingo dần chuyển qua mô hình “khuyến khích” người dùng đóng phí để học hiệu quả hơn, cho thấy rằng thành công của reCAPTCHA khó lặp lại hơn mọi người nghĩ.

Như vậy, để “tận dụng nguồn lực” nhàn rỗi như reCAPTCHA, một mô hình mới cần phải thỏa mãn các điều kiện sau:

Phục vụ một nhu cầu trực tuyến (Chẳng hạn như xác nhận người dùng không phải là robot).
Phân phối hoàn toàn miễn phí.
Thu thập nguồn lực đến từ khắp nơi trên thế giới để tạo ra một giải pháp mà công nghệ chưa đủ phát triển để giải quyết.
Tìm cách bán giải pháp đó.

Bên trên là một số thông tin về lịch sử, nguồn gốc CAPTCHA và reCAPTCHA, sự khác nhau giữa Captcha và reCaptcha, sự thành công của reCaptcha và một bài học quan trọng là thành công khó lặp lại bởi gần như cùng một mô hình và cùng một nhà sáng lập!