标签 小红书 下的文章

自从工作后每年都想着能有自己的休息时间,搭档一直也提这件事,但每年都是忙了一整年后也没休息到,所以突发奇想:要么今年不回老家过年了?

主要想去一些和江南地区有一些区别的地方,比如东北、新疆、云南等等,最终两个人更倾向于去云南。

我在小红书搜了一下攻略,它直接基于一些帖子给我生成了一个看似周全的总结。但考虑到它毕竟是 AI ,另外就是春节到了,不知道时间节点是否更特殊,所以还是来问问有经验的老哥们。

大佬们多说益善,先谢过了。

老家五线城市,离省城大概 200 公里,去年 10 月左右,让二老在家尝试代购了两次

前期准备:
小红书和抖音发了简单的《 XX 需要山姆代购的吗》,都设置地区投了流,小红书投了两次,每次 66 元,抖音投流一次 99 元。小红书私信+评论问的大概 20-40 人,抖音一个没有

第一次是我在上海买了,寄顺丰回去,冰箱里面拿出来的寄了生鲜,其他的寄了普通,代购费收入 50 ,快递费支出 80 ,还不算二老在老家骑电动车送货的钱

第二次是用我攒的 12306 积分,给我妈买了张去省城的高铁,买好了东西后然后坐我舅舅回家的顺风车回来,不算高铁票和顺风车的话,这次等于没有支出,代购费收入了 90 元

就做了两次,随后我爸觉得没有钱赚,还会亏很长一段时间,就叫停了
山姆的开卡费第一次是我自己开的,第二次我妈开的,我俩后来都退掉了,等于没花钱

大家或者身边的人有没有做这个的呢,感觉最重要还是圈子集中不起来,有没有好的建议,准备年后再试一次看看

本工具仅限学术交流使用,严格遵循相关法律法规,符合平台内容的合法及合规性,禁止用于任何商业用途!

1. 项目背景与核心功能整合

开发初衷

小红书作为国内头部的社区种草平台,其海量笔记数据蕴含着极高的商业与学术价值。此前,为了满足不同场景的采集需求,我曾分别开发了针对评论、博主主页以及UID转换的三款独立工具。然而,许多用户反馈在处理复杂任务(如同时采集评论和主页笔记)时,频繁切换软件带来了操作上的不便。

为了解决这一痛点,我将上述三个核心模块进行了深度融合,推出了全新的 “爬小红书聚合软件v1.0”。这是一款集成了“评论采集”、“达人笔记采集”及“UID转换”的一体化数据解决方案。

适用场景

本工具严格遵循相关法律法规,仅限于学术交流与合规性研究,具体适用场景包括:

  • 获客截流: 从行业热门作品评论区精准挖掘目标用户画像。
  • 舆情分析: 用于社会舆情挖掘、网络传播规律等学术研究。
  • 内容优化: 辅助内容创作者分析优质博主风格与热门话题。
  • 运营辅助: 解决跨平台协作中链接与ID转换的痛点。

2. 技术架构与实现逻辑

本软件完全由 Python 语言独立开发,采用模块化设计以保证高效运行与维护。

核心模块分工

序号模块名称功能描述
1tkinter构建GUI图形用户界面
2requests负责发送HTTP请求
3json解析服务器返回的响应数据
4pandas处理并保存为CSV数据结果
5logging记录运行日志,便于异常回溯

核心代码实现

以下是软件中处理数据请求与保存的关键代码片段:

发送请求与解析:

# 发送请求
r = requests.get(url, headers=h1, params=params)
# 解析数据
json_data = r.json()

数据解析示例(评论内容):

for c in json_data['data']['comments']: 
    # 评论内容 
    content = c['content'] 
    self.tk_show('评论内容:' + str(content)) 
    content_list.append(content)

数据保存至CSV:

# 保存数据到DF
df = pd.DataFrame( {  
    '笔记链接': 'https://www.xiaohongshu.com/explore/' + note_id,  
    '笔记链接_长': note_url2,  
    '页码': page,  
    '评论者昵称': nickname_list,  
    '评论者id': user_id_list,  
    '评论者主页链接': user_link_list,  
    '评论时间': create_time_list,  
    '评论IP属地': ip_list,  
    '评论点赞数': like_count_list,  
    '评论级别': comment_level_list,  
    '评论内容': content_list, })
# 设置csv文件表头
if os.path.exists(self.result_file3): 
    header = False
else: 
    header = True
# 保存到csv
df.to_csv(self.result_file3, mode='a+', header=header, index=False, encoding='utf_8_sig')
self.tk_show('文件保存成功:' + self.result_file3)

采用logging模块记录日志运行过程,方便debug回溯场景:

def get_logger(self):    
    self.logger = logging.getLogger(__name__)    
    # 日志格式
    formatter = '[%(asctime)s-%(filename)s][%(funcName)s-%(lineno)d]--%(message)s'    
    # 日志级别
    self.logger.setLevel(logging.DEBUG)    
    # 控制台日志
    sh = logging.StreamHandler()    
    log_formatter = logging.Formatter(formatter, datefmt='%Y-%m-%d %H:%M:%S')    
    # info日志文件名
    info_file_name = time.strftime("%Y-%m-%d") + '.log'    
    # 将其保存到特定目录
    case_dir = r'./logs/'    
    info_handler = TimedRotatingFileHandler(filename=case_dir + info_file_name,                                        
                                          when='MIDNIGHT',                                        
                                          interval=1,                                        
                                          backupCount=7,                                        
                                          encoding='utf-8')

3. 功能详解与数据产出

本软件通过接口协议进行数据交互,相比模拟浏览器(RPA)具有更高的稳定性。采集过程中,系统会实时(每页请求间隔1~2s)将数据存入CSV文件,有效防止因网络异常导致的数据丢失。

功能一:搜索笔记与评论采集

该模块支持根据关键词或笔记链接采集评论区数据。在这里插入图片描述

  • 笔记数据字段(19个): 包含关键词、笔记ID、标题、正文、点赞/收藏/评论数、发布时间及IP属地等。
  • 评论数据字段(11个): 包含评论者昵称/ID、评论内容、点赞数、IP属地及评论级别等。
  • 多媒体支持: 自动下载搜索到的笔记封面图片。

功能二:博主主页笔记采集

支持根据博主主页链接批量抓取其发布的历史笔记。在这里插入图片描述

  • 采集字段(18个): 包含作者信息、笔记ID、链接、类型、互动数据及正文内容等。
  • 结果展示: 生成结构化的CSV文件及对应的图片素材包。

功能三:UID与链接转换工具

提供高频使用的转换功能,无需打开网页即可完成:在这里插入图片描述

  1. 主页链接 $\leftrightarrow$ 小红书号(xhs号)互转。
  2. App端作品链接 $\rightarrow$ PC端作品链接转换。

4. 使用指南

前置准备

  • 在开始采集前,用户需获取并填写自己的Cookie值。
  • 打开浏览器开发者工具(F12),复制Cookie值。
  • 将其粘贴至软件同级目录下的 cookie.txt 文件中。

操作流程

  • 登录界面: 启动软件并完成登录验证。
  • 选择模块: 根据需求选择“搜索采集”、“主页采集”或“转换工具”。
  • 配置参数: 填写关键词、时间范围或博主链接等信息。
  • 执行任务: 点击「开始执行」,实时监控进度条。
  • 查看结果: 任务完成后,在软件所在文件夹查看生成的CSV文件及图片文件夹。

5.演示视频

为了方便用户上手,附带了完整的操作演示视频:

mp.weixin.qq.com/s/t9cKGsgJoI9rca3I1w5RdA

END. 版权声明

本软件及文章均为本人独立原创开发与编写。请尊重原创成果,严禁任何形式的二创、转载或盗发,违者必究!