返回博客
ollama本地大模型开源 AI

如何使用 Ollama 与任何网页聊天

-阅读需 14 分钟
如何使用 Ollama 与任何网页聊天

你可能已经注意到了变化。ChatGPT 无处不在,但围绕它的不安也在逐渐增加。你粘贴进去的文档会发生什么?谁会阅读你的提示?你的雇主或客户能否辨别你是否使用过它?

这些都是合理的问题。而且越来越多的人已经悄悄不再问这些问题,因为他们已经将 AI 设置迁移到了本地。

这篇文章正是讲这个的。我们将介绍 Ollama 是什么、如何设置、哪些模型值得使用,然后进入真正令人兴奋的部分:在浏览器内直接使用 AI 与任何你正在阅读的网页互动。无需订阅。除非你愿意,否则数据不会离开你的设备。

无论你是开发者、研究人员、记者,还是仅仅对 AI 好奇且不喜欢每条查询都被记录的普通用户,这篇都适合你。

首先——什么是 Ollama?

Ollama 是一个免费开源工具,允许你直接在自己的电脑上下载并运行大型语言模型。无论是 Mac、Windows 还是 Linux,通通支持。

把它想象成模型管理器。你选择一个模型,下载一次,从此它完全运行在你的硬件上。无需互联网连接。没有使用费用。没有第三方服务器处理你的查询。

在 ChatGPT 首次发布时,强大的 AI 模型只能通过云服务访问。现在,你可以完全本地且私密地运行相当的模型,或者如果你需要更强大的算力,可以在不切换工具或改变工作流程的情况下,使用 Ollama 的云服务。后面会详细介绍。

实际好处超过想象。你可以输入敏感文件、私人笔记、保密网页,取决于你使用的模式,这些内容无需传输到任何地方。这也意味着你不必为按令牌计费而不断积累的月度费用买单。

人们实际使用 Ollama 做什么?

在进入设置之前,先用真实用例来解释,因为“本地运行 AI”听起来抽象。

人们用本地模型做的事很广泛:总结长篇报告、写邮件草稿、调试代码、不想让查询被存储时做研究、分析合同、处理会议笔记。开发者用它在受控环境里测试模型行为。作家用它在不担心作品被用作训练数据的情况下获取草稿反馈。学生用它在不烧订阅的前提下深入复杂主题。

共同点是对“掌控”的需求。使用 Ollama 的人往往希望在自己的条件下 AI 协作,而不是通过可能随时涨价、限速或记录会话的订阅门户。

设置 Ollama

你需要什么

不必顶尖配置,但内存很关键。推荐至少 16GB 内存,以顺畅运行大多数模型。8GB 可用,但只能选最小的模型,响应可能较慢。如果你使用带 Apple Silicon 的 Mac,情况特别好,因为统一内存架构极高效地支持本地 AI。Windows 和 Linux 也非常兼容。

安装步骤

Ollama 支持主流平台(macOS、Linux、Windows)。最简单的安装方式是:

# On macOS or Linux
curl -fsSL https://ollama.com/install.sh | sh

# Or use Homebrew on macOS
brew install ollama

# On Windows, download the installer from Ollama’s website https://ollama.com/download/windows

安装后,Ollama 会在后台启动本地服务器,端口是 11434。打开浏览器访问 http://localhost:11434 即可验证是否运行正常,页面上会出现确认信息。

下载你的第一个模型

打开终端,输入:

ollama pull llama3.2

这会把 Meta 的 Llama 3.2 模型下载到你的机器(约 2GB)。run 命令也会自动处理下载,所以你可以直接执行:

ollama run llama3.2

输入你的问题,得到回答。你现在已能在本地硬件上运行一个功能强大的语言模型。

选用哪个模型?

Ollama 库中有 100 多个模型,刚看时可能会令人眼花缭乱。这里给你一个实用入门指引:

模型 适用场景 需要内存
gemma3:2b 旧款或低配置机器 ~4GB
llama3.2 一般日常使用 ~8GB
mistral 速度和编程任务 ~8GB
deepseek-r1 分析、推理、研究 ~8GB
llama3.3:70b 最大本地能力 ~32GB+

如果刚开始,llama3.2 是最佳选择。它速度快,表现均衡,且适合大多数现代笔记本。

用以下命令查看你安装的模型列表:

ollama list

值得注意的是:这些模型的知识截止于特定时间点,无法访问实时信息。比如当前阅读的网页内容,你需要直接提供给模型上下文。这正是我们即将介绍的内容。

如果你需要更大、更强的模型怎么办?

本地模型很强,但受硬件限制。70B 参数模型需要大量内存,671B 参数模型根本不可能在个人电脑上运行。

这时可用 Ollama 的云模型。2025 年末发布,它让你用相同的 Ollama 界面运行数据中心级的大型模型。命令相同、API 不变,工具不换。

ollama run deepseek-v3.1:671b-cloud

云模型选项包括:

  • deepseek-v3.1:671b-cloud:目前最强劲的开源权重模型之一
  • qwen3-coder:480b-cloud:专为编码任务设计
  • gpt-oss:120b-cloudgpt-oss:20b-cloud:OpenAI 公开权重模型

云模型表现与本地模型一致,唯一差别是需先登录 ollama.com:

ollama signin

并且重要的是:Ollama 云不会保存你的数据。你可以拥有大型云模型的强大能力,而无需担心通常的隐私折衷。

实际建议是:本地模型用于敏感工作,确保数据不离机;需要极强能力时切换云模型。Ollama 顺滑支持两者,只需选带 -cloud 后缀的模型标签。

真正改变工作方式的部分:与网页聊天

精彩来了。

单独的 Ollama 很有用,但把它和浏览器连接起来,让你能针对任何网页内容提问,才是工作流程从“有趣实验”转变为“每天都用”的关键。

想想这带来的可能:

  • 阅读复杂研究论文? 请模型总结方法、用白话解释结论,或指出任何牵强之处。
  • 审阅竞争对手定价页面? 询问差异点,或者遗漏了什么。
  • 浏览长篇新闻报道? 摘出关键论点,确认标题是否准确,了解反面观点。
  • 查看招聘信息? 判断自己的经验是否匹配岗位描述。
  • 处理法律文件或服务条款? 用通俗语言解读,无需将敏感文字贴到云端工具。

一切都由你掌控。页面内容只传给你选定的模型。

如何用 SurfMind 实现

SurfMind 是一个为此专门打造的浏览器扩展。它能读取你所在网页的内容,让你直接在浏览器内与之进行真实对话,无需复制粘贴。

它开箱即用支持本地 Ollama 模型,以及 Ollama 云模型,提供一个强大的 AI 助手,跨全网运作且由你掌控。

连接步骤如下:

步骤 1. 启动 Ollama 前,运行这条一次性命令,开启浏览器访问:

# Mac/Linux
OLLAMA_ORIGINS="*" ollama serve

# Windows (PowerShell)
$env:OLLAMA_ORIGINS="*"; ollama serve

出现“端口 11434 已被占用”错误? 说明 Ollama 应用已在后台运行。先关闭它,Mac 上点击菜单栏 Ollama 图标选择退出;Windows 右下系统托盘找到 Ollama 图标退出。然后重新运行上述命令。

步骤 2. 从 Chrome 网上应用店安装 SurfMind,并在任意页面打开扩展。

步骤 3. 点击 SurfMind 面板底部的模型名称,打开收藏夹,再切换到 自定义 标签页。

SurfMind Favorites model list

SurfMind Custom tab

步骤 4. 点击 添加自定义模型,弹出“自定义模型 API”表单。点击“API 名称”字段旁边的下拉箭头,会看到已有的预设菜单,其中直接有 Ollama。选择 Ollama,各字段会自动填写:

  • API URL: http://localhost:11434/api/chat
  • Models URL: http://localhost:11434/api/tags
  • API 密钥头:
  • API 密钥: 留空

SurfMind Custom Model API form with Ollama preset

步骤 5. 点击 保存。SurfMind 将连接到本地 Ollama 实例,拉取你已安装的模型列表。它们会显示在 Ollama 区域,等你选择。

SurfMind connected to Ollama with local models listed

这时,浏览任意网页,打开 SurfMind,从底部切换器选中你想用的 Ollama 模型,开始提问关于页面的内容。完成!

一些值得尝试的实际应用示例

针对研究人员和学生: 打开任何学术文章,问“这里的主要论点是什么?”或“作者承认了哪些局限?”你能在几秒内找到方向,而不必全文浏览找相关部分。

开发者: 打开文档提问具体问题。非常适合浏览不熟悉的 API 或框架,避免分心去开聊天窗口。

商务场景: 指向财报、新闻稿、竞争对手网页或行业分析。询问重点、遗漏,或会引发什么问题。需要深入分析时,可以切换云模型。

注重隐私的日常使用: 凡是你犹豫要不要把内容粘贴进 ChatGPT 的场景,这里是替代方案。

一些诚实的告诫

没有 AI 工具是绝对准确的。模型偶尔会生成自信但错误的回答。这是所有语言模型的通病,而非本地专属问题。涉及法律分析、医疗问题、财务决策时,务必将输出视为一个需要核实的起点,而非最终结论。

但不可否认,质量已大幅提升。中小型本地模型能很好处理大多数日常任务,如果需要更强性能,Ollama 云模型能极大缩小差距。

值得一试——即使只有一次

本地 AI 领域的发展比大多数人想象的要快。一年前这还需要一定技术门槛。今天,只需两个终端命令加一个浏览器扩展,你就拥有一个可在任意网页上私密工作、免费又完全受控的强力 AI 助手。

如果你一直好奇自建 AI 环境,但觉得太复杂,Ollama 能帮你轻松上手。今天下午安装,下载一个模型,用 SurfMind 打开你本来准备看的下一篇文章,感受它带来的改变。

如果你试用了,也欢迎告诉我们你的使用场景。人们的创造力总超出我们的预期。


你的本地 AI 模型已经运行。现在就让它在你浏览的每个页面上发挥作用。

免费下载 SurfMind →