Ngay cả các bản ghi duyệt web ẩn danh cũng phần nào đó liên hệ trở lại danh tính trong thế giới thực.
ảnh minh họa
Khi duyệt web, các nhà quảng cáo theo dõi gần như mọi website bạn ghé qua, thu thập lượng thông tin khổng lồ về thói quen của bạn. Khi ghé thăm một website tin tức, họ có thể biết bạn là người hâm mộ môn thể thao nào, loại hình âm nhạc nào, từ đó lựa chọn các quảng cáo phù hợp với thị hiếu của bạn.
Nhà quảng cáo sử dụng thông tin để tạo ra trải nghiệm mang tính cá nhân cao nhưng về cơ bản, họ không biết chính xác bạn là ai. Họ chỉ quan sát dấu chân trên mạng chứ không phải danh tính, do đó bạn vẫn cảm giác như mình được an toàn.
Tuy nhiên, thực tế, theo tác giả Jessica Su, Ansh Shukla, Sharad Goel và Arvind Narayanan, ngay cả các bản ghi duyệt web ẩn danh cũng phần nào đó liên hệ trở lại danh tính trong thế giới thực.
Để thử nghiệm, họ viết một website nơi mọi người đóng góp lịch sử duyệt web cho mục đích nghiên cứu. Sau đó, họ xem có thể kết nối chúng với tài khoản Twitter chỉ bằng dữ liệu công khai có sẵn. 72% những người muốn ẩn danh đã được xác định là ứng cử viên đầu tiên trên kết quả tìm kiếm, 81% nằm trong 15 ứng cử viên hàng đầu.
Như vậy, nó gọi ra chính xác người dùng trong số hàng trăm triệu tài khoản Twitter. Ngoài ra, phương pháp của nhóm tác giả chỉ yêu cầu một người bấm vào link hiện ra trên feed chứ không cần đăng bất kỳ nội dung nào. Vì vậy, những người vẫn cẩn trọng khi chia sẻ trên Internet đều có nguy cơ bị lộ danh tính.
Phương thức hoạt động
Cách tiếp cận của nhóm dựa trên quan sát đơn giản: Mỗi người đều có mạng lưới riêng biệt, bao gồm gia đình và bạn học, đồng nghiệp cùng các giai đoạn khác nhau trong đời. Như một hệ quả, bộ đường link trên feed Facebook và Twitter cũng khác biệt. Bấm vào những link này để lại một dấu ấn trong lịch sử duyệt web của họ.
Nhìn vào bộ website mà một cá nhân ghé thăm, họ có thể chọn ra các feed mạng xã hội tương tự, rút gọn danh sách những người có thể tạo ra lịch sử duyệt web đó. Bằng cách này, họ gắn một người cụ thể ngoài đời với bộ link mà họ ghé qua, bao gồm cả những link chưa bao giờ được đăng trên bất kỳ trang mạng xã hội nào.
Phương thức chính xác hơn với những ai hoạt động Twitter thường xuyên. 90% những người tham gia bấm hơn 100 link trên Twitter khớp với danh tính.
Nhiều công ty sở hữu nguồn lực theo dõi để thực hiện một cuộc tấn công như thử nghiệm nói trên mà không cần có sự đồng ý của người dùng.
Các nghiên cứu tương tự
Một số nghiên cứu tương tự dựa vào dữ liệu công khai để giải mãi dữ liệu nhạy cảm. Có lẽ nổi tiếng nhất là khảo sát của Latanya Sweeney từ Đại học Harvard năm 2002. Cô phát hiện 87% người Mỹ có thể được xác định dựa trên sự kết hợp của mã ZIP, giới tính và ngày sinh.
Ba thông tin này có mặt trong dữ liệu bầu cử công khai (mà cô mua với giá 20 USD) và dữ liệu y tế ẩn danh (được phát tán rộng rãi vì mọi người nghĩ rằng nó ẩn danh). Thông qua kết nối các nguồn dữ liệu đó, cô tìm thấy hồ sơ y tế của thị trưởng Massachusetts.
Năm 2006, Netflix tổ chức cuộc thi để cải thiện các gợi ý phim ảnh. Họ phát hành bộ dữ liệu nặng danh về đánh giá phim của mọi người và trao giải 1 triệu USD cho nhóm có thể cải thiện thuật toán gợi ý thêm 10%.
Nhà khoa học máy tính Arvind Narayanan và Vitaly Shmatikov nhận thấy phim mọi người xem rất khác nhau, phần lớn trong bộ dữ liệu đều được xác định dựa trên một nhóm các phim. Nói cách khác, từ lựa chọn xem phim và đánh giá IMDB, các nhà nghiên cứu có thể xác định những người dùng Netflix này thực sự là ai.
Với sự phổ biến của mạng xã hội, ngày càng nhiều người chia sẻ thông tin vô thưởng vô phạt nhưng thực chất tiết lộ rất nhiều về dữ liệu cá nhân. Nghiên cứu của Michal Kosinski từ Đại học Cambridge dẫn đầu dùng các nút like trên Facebook để dự báo khuynh hướng tình dục, quan điểm chính trị và tính cách của họ.
Một nhóm khác, đứng đầu là Gilbert Wondracek của Đại học công nghệ Vienna, lại phát triển “máy giải mã”, xác định được nhóm người nào hoạt động trên mạng xã hội Xing và dùng nó để tìm ra ai là ai.
Bạn có thể làm gì?
Hầu hết mọi cuộc tấn công đều khó tránh khỏi, trừ khi bạn ngừng sử dụng Internet hay ngừng tham gia vào các hoạt động công khai. Ngay cả khi đã chấm dứt, các công ty vẫn có thể thu thập dữ liệu. Nếu vài người bạn của bạn đăng danh bạ lên Facebook và số của bạn có trong này, Facebook vẫn có thể đưa ra phán đoán về bản, dù bạn không dùng dịch vụ.
Cách tốt nhất là giới hạn những người có thể truy cập dữ liệu duyệt web ẩn danh của bạn. Những tiện ích trình duyệt như Ghostery sẽ chặn đứng kẻ theo dõi. Nếu là người quản trị trang web, bạn có thể giúp bảo vệ người dùng bằng cách để họ duyệt bằng HTTPS.
Tuy nhiên, không có nhiều điều bạn có thể làm để bảo vệ bản thân trước các cuộc tấn công giải mã. Không có gì riêng tư trong kỷ nguyên số.