标签模型部署下的文章

端侧大模型落地流程及攻击面浅析

作者: 纯情
时间: 2026-01-21
分类: 资讯
评论

免费 nvidia 模型使用

作者: 纯情
时间: 2026-01-14
分类: 网络
评论

这里简单介绍一下，这个平台相当于老黄用自家的显卡，部署了这些模型，然后统一用 OpenAPI 接口来给大家造福利（bushi），但是也确实好用，虽然高峰期的时候会卡，但白嫖是吧
话不多说，让我们勒死 go

一、从官网进行获取 api-key

起手先注册账户拿钥匙

二、怎么进行使用

1. openapi 格式使用

baseurl: https://integrate.api.nvidia.com/v1/chat/completions
API Key: 就是第一步申请的 key
这里以沉浸式翻译插件，使用 Kimi2-thinking 举例。

添加自定义服务

注意，这里选择 open-api

配置如下：moonshotai/kimi-k2-thinking

然后手动调试一下是否可用

这里打即可。

tip：如果不知道哪个模型，可以到官网中进行查看，方法如下：

📌 转载信息

来源：
https://linux.do/t/topic/1444112

转载时间：
2026/1/14 10:39:49

DeepSeek 官转 - 20260112

作者: 纯情
时间: 2026-01-12
分类: 网络
评论

https://2c2ch1u11-share-api.hf.space/v1/chat/completions

10M Token

LDC 兑换官转：https://2c2ch1u11-share-api.hf.space

LDC 兑换官 Key：https://ldc-shop-ochre.vercel.app

📌 转载信息

来源：
https://linux.do/t/topic/1430032

原作者：
SMNET

转载时间：
2026/1/12 10:16:24

21 行代码自部署 Qwen3-VL-8B-Instruct-FP8 成功

作者: 纯情
时间: 2026-01-06
分类: 网络
评论

准备：

modal secret create qwen-auth QWEN_API_KEY=sk-123abc
modal secret create huggingface-secret HF_TOKEN=hf_…

import modal, os
MODEL_ID = "Qwen/Qwen3-VL-8B-Instruct-FP8"
MODEL_DIR = "/data/model"
vol = modal.Volume.from_name("qwen-storage", create_if_missing=True)
image = (modal.Image.debian_slim().apt_install("ffmpeg", "libsm6", "libxext6").run_commands("pip install -U pip").pip_install("vllm>=0.7.0").pip_install("huggingface_hub", "hf_transfer", "decord","torch-c-dlpack-ext").env({"HF_HUB_ENABLE_HF_TRANSFER": "1","PYTORCH_CUDA_ALLOC_CONF": "expandable_segments:True"}))
app = modal.App("qwen-vl-volume")
@app.function("/data": vol},timeout=1800,secrets=[modal.Secret.from_name("huggingface-secret")]) def download_model_to_volume():
    from huggingface_hub import snapshot_download
    snapshot_download(MODEL_ID,local_dir=MODEL_DIR,ignore_patterns=["*.pt", "*.bin"])
    vol.commit()
@app.cls(gpu="l4", image=image, volumes={"/data": vol}, scaledown_window=180, timeout=600, secrets=[modal.Secret.from_name("qwen-auth")]) class QwenServer:
@modal.web_server(port=8000, startup_timeout=600) def serve(self):
        import subprocess, sys
        if not os.path.exists(MODEL_DIR):
            return
        api_key = os.environ.get("QWEN_API_KEY", "sk-default")
        cmd = [sys.executable, "-m", "vllm.entrypoints.openai.api_server","--model", MODEL_DIR,"--served-model-name", MODEL_ID,"--trust-remote-code","--tensor-parallel-size", "1","--api-key", api_key,"--gpu-memory-utilization", "0.90", "--max-model-len", "8192", "--kv-cache-dtype", "auto","--limit-mm-per-prompt", '{"image": 16, "video": 4}',"--port", "8000"]
        subprocess.Popen(cmd, stdout=sys.stdout, stderr=sys.stderr)

效果：

原图：

29.0 tok/s

📌 转载信息

来源：
https://linux.do/t/topic/1409725

原作者：
Clancy

转载时间：
2026/1/6 12:02:52

元旦快乐大佬们，分享几个可以用于 claude code 的 claude 4.5 和其他模型的 api, 可以用于 claude code 的 claude 4.5 可以无限用，速度非常快

作者: 纯情
时间: 2026-01-01
分类:
评论

http://18.206.111.229/, sk-1234
http://115.120.28.33:8000,sk-1234
http://210.3.19.246:4000，sk-1234

📌 转载信息

来源：
https://linux.do/t/topic/1385058

原作者：
lza12

转载时间：
2026/1/1 15:31:23

PaddleOCR-VL部署使用体验记录

作者: 纯情
时间: 2025-10-30
分类: 网络
评论

前言

前阵子看到paddle发布SOTA的OCR模型，预览效果很nb，但看很少人去尝试使用。刚好公司有一些书籍类型的pdf（含公式，图片，表格等），内容双栏显示。使用场景够复杂了吧，也是日常会遇到的情况。于是就开始折腾部署PaddleOCR-VL模型。

配置

RTX6000（46G显存）
Windows11(配置wsl，Ubuntu-22.04)
python==3.12
确保wsl内的CUDA 版本必须大于或等于 12.6（nvidia-smi查看）

开始操作

所有流程都在wsl中操作，包括python虚拟环境创建包安装等。我使用非Docker的方式安装
1.创建虚拟环境
conda create -n paddleocr python==3.12
2.安装paddle包

# 以下命令安装 CUDA 12.6 版本的 PaddlePaddle，对于其他 CUDA 版本以及 CPU 版本，请参考 https://www.paddlepaddle.org.cn/install/quick?docurl=/documentation/docs/zh/develop/install/pip/linux-pip.html
python -m pip install paddlepaddle-gpu==3.2.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/

连续使用以下命令即可

python -m pip install -U "paddleocr[doc-parser]"

python -m pip install https://paddle-whl.bj.bcebos.com/nightly/cu126/safetensors/safetensors-0.6.2.dev0-cp38-abi3-linux_x86_64.whl

3.python代码（单个pdf文档)

from pathlib import Path
from paddleocr import PaddleOCRVL

input_file = "./your_pdf_file.pdf"
output_path = Path("./output")

pipeline = PaddleOCRVL()
output = pipeline.predict(input=input_file)

markdown_list = []
markdown_images = []

for res in output:
    md_info = res.markdown
    markdown_list.append(md_info)
    markdown_images.append(md_info.get("markdown_images", {}))

markdown_texts = pipeline.concatenate_markdown_pages(markdown_list)

mkd_file_path = output_path / f"{Path(input_file).stem}.md"
mkd_file_path.parent.mkdir(parents=True, exist_ok=True)

with open(mkd_file_path, "w", encoding="utf-8") as f:
    f.write(markdown_texts)

for item in markdown_images:
    if item:
        for path, image in item.items():
            file_path = output_path / path
            file_path.parent.mkdir(parents=True, exist_ok=True)
            image.save(file_path)

4.完成到这部就可以运行了，第一次使用会下载模型比较慢。可能之前安装依赖中断过几次的原因，运行代码报错缺失系统依赖，错误日志丢ai解决即可。
我使用的文档是书中截取的三页内容，并非全书。消耗显存5.9G左右

效果

效果图
可以看到即使两栏内容，paddleocr也能很好的识别连接，公式使用latex，图表这里不知道为什么没识别成表格（官方演示效果）但还是完整保留下来了。有部分公式格式异常，导致公式没有正常渲染。后面写了脚本把二十多个pdf都进行ocr，占用显存44.5G。

结论

目前看效果已经非常好了，个人还没有做多模态检索，所以图片数据不是很重要，但确实已经很好的保留书籍的完整结构。这种文档结构识别再进行ocr的架构（类似于工作流）应该是未来OCR的方向了。

参考连接：使用教程 - PaddleOCR 文档