Is SurfMind safe to use?

Yes! SurfMind is designed with security and privacy at its core. SurfMind has been thoroughly reviewed and approved by both the Chrome Web Store and Apple App Store, ensuring it meets strict security and privacy standards.

Do I need an AI API key?

Not necessary. You can either use your own API key from your chosen AI provider or subscribe to a SurfMind plan to avoid the hassle of managing API keys.

How does the AI understand my page?

When you interact with SurfMind, it analyzes the content of the current webpage and includes relevant context in your conversation with the AI. This allows the AI to provide intelligent, context-aware responses.

What browsers are supported?

SurfMind works on all major browsers including Chrome, Edge, Brave, Arc, Opera, and Safari. The extension adapts to your browser automatically.

Can I use multiple AI models?

Yes! You can easily switch between different AI models (GPT, Claude, Gemini, etc.) within the extension to find the best one for your specific task.

Cách Sử Dụng Ollama để Trò Chuyện với Bất Kỳ Trang Web Nào

Bạn có thể đã chú ý đến sự thay đổi đang diễn ra. ChatGPT xuất hiện ở khắp mọi nơi, nhưng cũng có sự lo ngại ngày càng tăng xung quanh nó. Những tài liệu bạn dán vào sẽ ra sao? Ai đọc các câu hỏi bạn gửi? Nhà tuyển dụng hay khách hàng của bạn có thể biết khi nào bạn đang sử dụng nó không?

Đó là những câu hỏi hợp lý. Và có một nhóm người ngày càng nhiều đã lặng lẽ ngừng đặt ra vì họ đã chuyển thiết lập AI sang chạy cục bộ.

Đây chính là chủ đề của bài viết này. Chúng ta sẽ đi qua Ollama, nó là gì, cách cài đặt, những mô hình nào đáng dùng, rồi đến phần thật sự thú vị: dùng AI trực tiếp trong trình duyệt để tương tác với bất kỳ trang web nào bạn đang đọc. Không cần đăng ký. Không dữ liệu nào rời khỏi máy bạn trừ khi bạn muốn.

Dù bạn là nhà phát triển, nhà nghiên cứu, nhà báo hay chỉ đơn thuần là người tò mò về AI và không thích việc mọi truy vấn của mình bị ghi lại đâu đó, đây là dành cho bạn.

Trước tiên - Ollama là gì?

Ollama là một công cụ miễn phí, mã nguồn mở cho phép bạn tải xuống và chạy các mô hình ngôn ngữ lớn trực tiếp trên máy tính của bạn. Mac, Windows, Linux, đều hỗ trợ.

Hãy nghĩ nó như một trình quản lý mô hình. Bạn chọn một mô hình, tải về một lần, và từ đó nó chạy hoàn toàn trên phần cứng của bạn. Không cần kết nối internet. Không mất phí sử dụng. Không có máy chủ bên thứ ba xử lý truy vấn của bạn.

Khi ChatGPT mới ra mắt, các mô hình AI mạnh chỉ có thể truy cập qua các dịch vụ đám mây. Giờ bạn có thể chạy những mô hình tương đương hoàn toàn cục bộ và riêng tư, hoặc nếu cần sức mạnh, kết nối vào đám mây của Ollama mà không phải chuyển công cụ hay thay đổi workflow. Sẽ nói kỹ hơn ngay sau.

Lợi ích thực tế lớn hơn bạn tưởng. Bạn có thể đưa cho Ollama những tài liệu nhạy cảm, ghi chú riêng tư, trang web bí mật, và tùy chế độ dùng, chẳng cần dữ liệu nào đi nơi khác. Đồng thời bạn không phải trả phí tính theo token, vốn âm thầm cộng dồn thành chi phí hàng tháng.

Mọi người dùng Ollama để làm gì?

Trước khi cài đặt, hãy điểm qua vài trường hợp sử dụng thực tế, vì "chạy AI cục bộ" nghe có vẻ trừu tượng.

Mọi người dùng mô hình cục bộ cho rất nhiều việc: tóm tắt báo cáo dài, soạn email, gỡ lỗi code, nghiên cứu mà không muốn truy vấn bị lưu, phân tích hợp đồng, xử lý ghi chú cuộc họp. Lập trình viên dùng nó để kiểm thử hành vi mô hình trong môi trường kiểm soát. Nhà văn dùng để nhận phản hồi bản thảo mà không lo bị dùng làm dữ liệu huấn luyện. Sinh viên dùng để giải quyết chủ đề khó mà không vội tốn phí đăng ký.

Điểm chung là kiểm soát. Người dùng Ollama thường muốn làm việc với AI theo cách riêng của họ, không qua cổng đăng ký dễ bị thay đổi giá cả, giới hạn truy cập hay lưu trữ phiên làm việc.

Cài đặt Ollama

Bạn cần chuẩn bị gì

Bạn không cần máy tính khủng, nhưng RAM quan trọng. Chúng tôi khuyến nghị ít nhất 16GB để trải nghiệm mượt với đa số mô hình. 8GB vẫn chạy được nhưng chỉ với các mô hình nhỏ nhất và thời gian phản hồi sẽ hơi chậm. Nếu bạn dùng Mac có Apple Silicon, rất lợi thế vì kiến trúc bộ nhớ thống nhất xử lý AI cục bộ hiệu quả. Windows và Linux cũng chạy rất tốt.

Cài đặt

Ollama hỗ trợ các nền tảng chính (macOS, Linux, Windows). Cách cài dễ nhất:

# On macOS or Linux
curl -fsSL https://ollama.com/install.sh | sh

# Or use Homebrew on macOS
brew install ollama

# On Windows, download the installer from Ollama’s website https://ollama.com/download/windows

Sau khi cài xong, Ollama chạy một server cục bộ nền ở cổng 11434. Bạn có thể kiểm tra bằng cách mở trình duyệt vào http://localhost:11434, sẽ thấy thông báo xác nhận.

Tải mô hình đầu tiên

Mở terminal và chạy:

ollama pull llama3.2

Lệnh này tải về mô hình Llama 3.2 của Meta (~2GB). Lệnh run cũng tự động tải nếu bạn bỏ qua giai đoạn trên và chạy luôn:

ollama run llama3.2

Gõ câu hỏi rồi nhận câu trả lời. Bạn đã chạy được một mô hình ngôn ngữ mạnh mẽ hoàn toàn trên phần cứng của mình.

Nên dùng mô hình nào?

Thư viện Ollama có hơn 100 mô hình, ban đầu dễ khiến bạn bối rối. Đây là lựa chọn thực tế:

Mô hình	Phù hợp với	RAM cần
`gemma3:2b`	Máy yếu hoặc đời cũ	~4GB
`llama3.2`	Dùng hàng ngày đa năng	~8GB
`mistral`	Nhanh, xử lý mã lập trình	~8GB
`deepseek-r1`	Phân tích, suy luận, nghiên cứu	~8GB
`llama3.3:70b`	Công suất cục bộ tối đa	~32GB+

Nếu mới bắt đầu, llama3.2 là lựa chọn tốt. Nhanh, đa dụng, chạy thoải mái trên hầu hết laptop hiện nay.

Xem danh sách mô hình đã cài:

ollama list

Lưu ý: các mô hình này có giới hạn kiến thức đến một mốc nhất định và không truy cập dữ liệu trực tuyến. Với nội dung thời gian thực như trang web bạn đang đọc, bạn phải cung cấp bối cảnh trực tiếp cho chúng. Đây chính là điều chúng ta sẽ phát triển.

Nếu cần mô hình lớn mạnh hơn?

Mô hình cục bộ rất ấn tượng, nhưng giới hạn bởi phần cứng của bạn. Mô hình 70 tỷ tham số cần RAM rất lớn, còn loại 671 tỷ tham số thì không thể chạy trên máy cá nhân.

Đây chính là lúc các mô hình đám mây của Ollama phát huy tác dụng. Ra mắt cuối 2025, cho phép bạn chạy các mô hình khổng lồ trên phần cứng cấp trung tâm dữ liệu với giao diện Ollama quen thuộc. Cùng lệnh, cùng API, cùng công cụ.

ollama run deepseek-v3.1:671b-cloud

Các mô hình đám mây có:

deepseek-v3.1:671b-cloud: một trong những mô hình mở mạnh nhất hiện có
qwen3-coder:480b-cloud: chuyên cho lập trình
gpt-oss:120b-cloud và gpt-oss:20b-cloud: mô hình mở của OpenAI

Mô hình đám mây hoạt động kiểu như mô hình cục bộ, chỉ khác bạn cần đăng nhập ollama.com trước:

ollama signin

Và quan trọng: Ollama đám mây không lưu giữ dữ liệu của bạn. Bạn nhận sức mạnh của các mô hình lớn mà không mất quyền riêng tư.

Điểm lợi: dùng mô hình cục bộ cho công việc nhạy cảm, không muốn dữ liệu rời máy. Chuyển sang đám mây khi cần hiệu suất tối đa. Ollama hỗ trợ cả hai liền mạch, bạn chỉ cần chọn tag mô hình có hậu tố -cloud.

Phần thay đổi cách bạn làm việc: trò chuyện với trang web

Đây là phần thú vị nhất.

Ollama tự nó đã hữu ích. Nhưng kết nối vào trình duyệt, để bạn có thể chỉ vào bất cứ trang web nào và hỏi trực tiếp về nội dung hiển thị, mới là bước chuyển từ "thí nghiệm hay ho" thành công cụ bạn sẽ dùng hàng ngày.

Nghĩ về những gì điều này mở ra:

Đọc bài nghiên cứu dày? Hỏi mô hình tóm tắt phương pháp, giải thích kết quả bằng ngôn ngữ đơn giản, hoặc chỉ ra chỗ nào có vẻ không hợp lý.
Xem trang giá của đối thủ? Hỏi điểm khác biệt chính, hoặc yếu tố thiếu sáng rõ.
Đọc bài báo dài? Lấy ra những luận điểm chính, kiểm tra tiêu đề có phù hợp không, nghe phản biện.
Xem tin tuyển dụng? Hỏi liệu kinh nghiệm của bạn có phù hợp với mô tả không.
Đọc tài liệu pháp lý hoặc điều khoản dịch vụ? Nhận bản giải thích rõ ràng mà không phải dán văn bản nhạy cảm lên công cụ đám mây.

Tất cả theo đúng điều kiện của bạn. Nội dung trang web sẽ được gửi đến mô hình bạn chọn.

Cách làm với SurfMind

SurfMind là tiện ích trình duyệt được tạo ra cho mục đích này. Nó đọc nội dung trang bạn đang xem và cho phép bạn trò chuyện cùng nó trực tiếp trong trình duyệt, không cần sao chép dán.

Nó hỗ trợ mô hình Ollama cục bộ ngay khi cài, cũng như mô hình đám mây Ollama, đem đến trợ lý AI mạnh mẽ giúp bạn làm việc trên toàn bộ web theo cách riêng.

Cách kết nối:

Bước 1. Trước khi chạy Ollama, bật truy cập trình duyệt với lệnh một lần này:

# Mac/Linux
OLLAMA_ORIGINS="*" ollama serve

# Windows (PowerShell)
$env:OLLAMA_ORIGINS="*"; ollama serve

Lỗi "port 11434 already in use"? Có nghĩa là Ollama đã chạy ngầm. Thoát ứng dụng trước, trên Mac tìm biểu tượng Ollama trên thanh menu rồi chọn Quit; trên Windows vào khay hệ thống để tắt. Rồi chạy lại lệnh trên.

Bước 2. Cài SurfMind từ Chrome Web Store và mở nó trên bất kỳ trang nào.

Bước 3. Nhấn tên mô hình ở dưới cùng panel SurfMind để mở Favorites, chuyển sang tab Custom.

SurfMind Favorites model list

SurfMind Custom tab

Bước 4. Nhấn Add Custom Models. Một form "Custom Model API" xuất hiện. Nhấn mũi tên dropdown ở ô tên API, bạn sẽ thấy menu Presets, chọn Ollama để tự động điền các trường:

API URL: http://localhost:11434/api/chat
Models URL: http://localhost:11434/api/tags
API Key Header: Không có
API Key: (để trống)

SurfMind Custom Model API form with Ollama preset

Bước 5. Nhấn Save. SurfMind kết nối với Ollama local, lấy danh sách mô hình bạn đã cài. Chúng sẽ hiện trong phần Ollama, sẵn để chọn.

SurfMind connected to Ollama with local models listed

Giờ truy cập trang web nào bạn muốn, mở SurfMind, chọn mô hình Ollama ở dưới cùng, bắt đầu hỏi về nội dung trên trang. Thế là xong.

Một số ví dụ thực tế nên thử

Dành cho nhà nghiên cứu và sinh viên: Mở bài báo học thuật, hỏi "lập luận chính là gì?" hoặc "tác giả thừa nhận những hạn chế nào?" Giúp bạn định hướng nhanh thay vì phải đọc lướt toàn bộ.

Dành cho lập trình viên: Mở tài liệu đang làm và hỏi rõ các vấn đề cụ thể. Rất hữu ích khi xử lý API hay framework mới mà không phải bật cửa sổ chat riêng biệt.

Dành cho kinh doanh: Trỏ vào báo cáo lợi nhuận, thông cáo báo chí, trang đối thủ, hoặc phân tích ngành. Hỏi những điểm đáng chú ý, những gì còn thiếu, hay những câu hỏi phát sinh. Với phân tích sâu, chuyển sang mô hình đám mây để có độ sâu hơn.

Dành cho người quan tâm riêng tư: Bất cứ khi nào bạn định dán nội dung lên ChatGPT mà ngần ngại vì lý do bảo mật, đây là sự thay thế an toàn.

Một vài lưu ý trung thực

Không công cụ AI nào hoàn hảo. Các mô hình có thể thỉnh thoảng đưa ra câu trả lời chắc chắn nhưng sai. Đây là hạn chế chung của mọi mô hình ngôn ngữ, không riêng gì cục bộ. Với các lĩnh vực cần độ chính xác cao như phân tích pháp lý, y tế, tài chính, hãy xem kết quả là điểm khởi đầu cần xác minh, không phải câu trả lời cuối cùng.

Tuy nhiên, chất lượng đã tiến bộ rất nhiều. Các mô hình nhỏ cục bộ đáp ứng hầu hết tác vụ hàng ngày tốt, và nếu bạn cần nhiều sức mạnh hơn, các mô hình đám mây của Ollama thu hẹp khoảng cách rất nhiều.

Đáng thử ít nhất một lần

Không gian AI cục bộ phát triển nhanh hơn hầu hết nghĩ. Một năm trước còn đòi hỏi kiến thức kỹ thuật đáng kể. Nay bạn chỉ cần hai lệnh terminal và một tiện ích trình duyệt để có trợ lý AI mạnh mẽ chạy trên mọi trang web, hoàn toàn riêng tư, miễn phí, và theo cách bạn muốn.

Nếu bạn từng tò mò về việc chạy AI riêng mà nghĩ quá phức tạp, Ollama chính là điều giúp bạn dễ tiếp cận. Cài đặt ngay chiều nay. Tải mô hình. Mở SurfMind trên bài viết bạn định đọc. Xem nó thay đổi trải nghiệm thế nào.

Và nếu dùng thử, hãy cho chúng tôi biết bạn dùng nó để làm gì. Các trường hợp sử dụng người dùng nghĩ ra luôn sáng tạo hơn những gì chúng tôi tưởng tượng.

Mô hình AI cục bộ của bạn đang chạy. Giờ hãy để nó làm việc trên mọi trang bạn duyệt.

Nhận SurfMind Miễn Phí →