BLCL的博客小馆

binance币安理财存U年化收益40% !!牛市躺着就是收钱,闲置资金记得放理财!立即注册立享收益!!

首页

关于

归档

loading..
大模型爬虫

一日一技:使用大模型实现全自动爬虫(一)

在文章一日一技:图文结合,大模型自动抓取列表页中,我提到可以使用大模型实现一个全自动爬虫。只需要输入起始URL加上需求,就可以借助模拟浏览器自动完成所有的抓取任务。在实现的过程中,我发现涉及到的知识点可能一篇文章讲不完,因此拆分成了多篇文章。爬虫演示今天是第一部分,我们暂时不依赖模拟浏览器,而是使用httpx(你也可以使用requests)实现全自动爬虫,传入我博客文章列表页,爬虫会自动抓取前三页所有博客文章的标题、正文、作者、发布时间。爬取结果如下图所示:运行过程如下图所示:爬虫首先会进入起始列表页,抓取上面的所有文章。然后进入列表页第二页,再抓取所有文章,最后进入第三页,再抓取所有文章。整个过程都是全自动的。不需要写任何XPath,也不需要告诉爬虫哪里是翻页按钮,文章的标题在哪里,发布时间在哪里,正文..

更多
loading..
RTOS

RTOS对比

Foreword 总结一下嵌入式的小型RTOS,对比一下异同和近年的发展情况 NuttX https://nuttx.apache.org/ 这里的Vela是小米基于NuttX的改进版本 NuttX的系统架构,从纵向看,NuttX和传统操作系统一样由调度子系统、文件子系统、网络子系统、图形子系统和驱动子系统组成。从横向看,NuttX向上给应用程序提供了POSIX和ANSI定义的标准C/C++接口。对于没有标准化的组件(比如各种外设),NuttX通常会提供兼容Linux的API。向下NuttX定义了Arch API、块设备驱动接口、网卡驱动接口、display驱动接口,以及各种总线和外设的lower half驱动接口,使得芯片厂商能够规范、快速地完成移植工作。上图中数量众多的蓝..

更多
loading..
VPSV2ray

2024可用的V2ray配置

Foreword 好久没有折腾V2ray了,总结一下当前可用方式 协议 V2ray 目前来说vmess+ws+tls+nginx或者caddy,活不久,经常被封端口,如果是有企业背书另说,正规企业背书的节点完全不会管的 同理如果是裸奔vmess+ws+tls动态端口其实也不太稳定,经常需要换端口 但是目前看到别人用vmess+ws+一点点简单的伪装,竟然就可以特别稳定,协议使用如下的即可 { "inbounds": [ { "listen": "0.0.0.0", "port": 80, "protocol": "vmess", "settings": { ..

更多
loading..
大模型爬虫

一日一技:图文结合,大模型自动抓取列表页

熟悉我的同学都知道,GNE可以自动化提取任意文章页面的正文,专业版GnePro的准确率更是在13万个网站中达到了90%。但GNE一直不支持列表页的自动抓取。这是因为列表页的列表位置很难定义。例如下面这张图片:对人来说,要找到文章列表很简单,红色方框框住的部分就是我们需要的文章列表。但如果让程序自动根据HTML格式相似的规律来寻找列表页,它可能会提取出蓝色方框的位置、绿色方框的位置、灰色方框的位置,甚至导航栏。之前我也试过使用ChatGPT来提取文章列表,但效果并不理想。因为传给大模型HTML以后,他也不能知道这里面某个元素在浏览器打开以后,会出现什么位置。因此它本质上还是通过HTML找元素相似的规律来提取列表项目。那么其实没有解决我的根本问题,上图中的蓝色、绿色、灰色位置还是经常会提取到。前两天使用GLM..

更多
Linux攻玉计划Nginx

维护 Nginx 时,什么时候应该用 reload,什么时候应该用 restart?

本文是“攻玉计划”的一部分,翻译自 https://stackoverflow.com/questions/13525465/when-to-restart-and-not-reload-nginx/20215497问题描述使用 Nginx 时,什么情况下 reload 无法满足需求,而必须要使用 restart 命令呢?如果 Nginx 进程占用了过多内存,是不是应该用 restart 来重启?如果修改了 Nginx 的核心配置,或者某些插件的配置,是不是也需要使用 restart 命令?修改 Nginx 配置后,用户既可以使用 restart 也可以使用 reload 来使配置生效,见 Ubuntu 上 /etc/init.d/nginx -h 的输出。那么,哪种方案更优呢?回答 1reload 比 ..

更多
stdout

Install mosh for macOS arm64 with Miniconda3

I always hate compiling and building. It's an error-prone path filled with riddles and unknowns. mosh is a great tool replacing ssh in many cases, sadly it does not provide an arm64 binary download or installer for M1/M2/M3 MacBooks. Moreover I dont like XCode and protected /usr/bin shit so I prefer isolated envs like miniconda3. Anyway, for such a detour..

更多
loading..
stdout

javascript 节拍器

娃学琴,节奏感糊成一坨了。老师让抖腿打节拍,显然不work。码农特有的穷B气质让我舍不得买个实体的;去找个节拍器app,结果各大市场都是各种广告,怕给娃用不正经;甚至找了很多公众号版的,小程序版的,网页版的,普遍都是各种跳转诱导点击。 失望之余,想起来上次JS播放DTMF对 WebAudio 有点感觉,要不这次自己干脆再手搓一个。调研了一圈发现这玩意没那么容易,主要就是javascript在浏览器里 setInterval 是有时间抖动(jitter)的,不能保证节奏精确。如何才能做到精准采样打节拍呢?连续精心编排 AudioContext 时间轴! 搜了一圈发现一位叫 Grant James 已经写好放在 github 了。那还等什么直接拿来~~针对性的改进了: 无广告 去掉 .js .css 依赖,..

更多
loading..
stdout

Edge找回丢失的右上角Copilot侧边栏图标

右上角图标和侧边栏的官方截图: 如果不小心关掉了,找回办法: 打开 edge://settings/sidebar/appSettings?hubApp=cd4688a9-e888-48ea-ad81-76193d56b1be F12 或者 Opt+Cmd+I,找到第一个“Show Copilot”开关,把它改成关闭。 如果第二步不会搞,输入 document.querySelector('input[aria-label="Show Copilot"]').removeAttribute('disabled') 可破 为什么会有这个问题,因为政策的原因,Microsoft Copilot 不能在简中使用,于是右上角的按钮点一下会消失;但是开发或者集成测试的为了省事儿,就直接给隐藏掉,导致侧边栏无法..

更多

解决 Maven 的 unable to find valid certification path to requested target 错误

今天我在从公司的 Maven 私库上下载依赖时,Maven 报出了 unable to find valid certification path to requested target 的问题,经查询是因为没有将私库使用的自签名证书导入到 Java 的 keystore。这里写一下我的两个解决方案,方便发生了同样问题的人参考。 让 Maven 忽略证书错误因为在默认情况下,自签名证书是不受信任的,那么我们只要让 Maven 忽略证书错误,就可以解决这个问题了。 我们可以在.bashrc 或.zshrc(或者其他位置,看你用哪个 shell 了)里面加入如下语句: 1export MAVEN_OPTS='-Dmaven.wagon.http.ssl.insecure=true -Dmaven.wago..

更多

文件系统访问(File System Access) API

File API 文件 API 对于传统的File API 当需要用户提供文件时,Web 应用程序可以使用文件 <input> 元素打开文件选择对话框来访问文件或者文件夹fileInput.addEventListener("change", async () => { const [file] = fileInput.files; }); File System Access API 借助 File System Access API,开发者可以构建功能强大的 Web 应用, 用户本地设备上的文件,例如 IDE、照片和视频编辑器、文本编辑器等。更新后 当用户向 Web 应用授予访问权限时,此 API 可让用户直接读取或保存对文件的更改,以及 文件夹。除了读取和写入文件以外,File..

更多
13456781