单塔文本匹配
介绍文本匹配是研究两段文本之间的关系。 此处介绍两种,分别是point-wise和pair-wise语义匹配模型。 point-wise是ptm+二分类,判断句子相似度。pair-wise是ptm+score,判断两个句子相似度得分,可用于排序。最近实现了一个,可参考pairwise-match。 粗排方面有sentence transformer以及SimBERT,再比如DSSM。 这些先记下,等后面有时间了再实现总结。 更新关于双塔模型中的sentence transformer,网络结构如下: 其中pooling为比如Sentence的维度为(1,7,768),那么就对7那一维做mean操作。 由于共用同一个pretrained model,将向量提前保存到数据库。当..
更多HTTPS是如何保证数据安全的
与Windows大量使用二进制文件和数据传输不同,HTTP(Hypertext Transfer Protocol,超文本传输协议)与Linux/Unix一样都是是基于文本的,这也导致其在传输过程中十分容易被解析和篡改,于是HTTPS(Hypertext transfer protocol secure)应运而生。HTTP协议一般跑在TCP协议之上,而HTTPS协议就是在原来的TCP和HTTP之间增加一层加密的操作,加密解密由Clinet端和Server端完成,由此保证了HTTP协议的内容不被中间人获取和篡改。可见HTTPS的核心就是这一段加密和解密,它是通过SSL(Secure Sockets Layer)安全套接层和TLS(Transport Layer Security)传输层安全协议实现的。SSL..
更多8行javascript录制屏幕
看到个骚操作,玩了一下,写了个 bookmarklet navigator.mediaDevices.getDisplayMedia({video:true}).then(function(stream){ const mr=new MediaRecorder(stream,{mimeType:"video/webm;codecs=h264,opus"}); mr.ondataavailable=function(ev){ const a=document.createElement('a');a.href=URL.createObjectURL(ev.data); a.download ='screen_capture.webm';a.click(); }; // will ..
更多终极白嫖:使用免费MongoDB显示浏览量
最近又研究研究了vercel,看到了database,发现vercel可以直接整合各大数据库,其中MongoDB有免费够用的方案,于是我试了试,用数据库存储博客浏览量。 初始化 首先注册一个免费的MongoDB账号(无需绑卡,他真的,我哭死),免费版512 MB容量,普通使用绰绰有余,虽然是共享内存,但实测速度并不慢。 然后在vercel上一键整合到nuxt3-blog项目,控制界面就可以看到MONGODB_URI环境变量了: MONGODB_URI 实在太方便啦,关键还免费。OK,现在非代码部分已经over了,下面是喜闻乐见的Talk is cheap,show me the code环节。分两部分: 功能代码:数据库增删改查 API代码:前端调用 功能代码 这里省略创建并缓存数据库连接的代码,我参..
更多内容推荐调研
介绍下派一个任务,研究下推荐系统,貌似后面和电信搞一个类似电视视频内容推荐之类的项目. 基于流行度的推荐这个推荐比较简单些,就是根据视频的得分来进行排序,排除掉当前用户已经看过的,剩下的再排序返回给用户就行. 好处是这是一个非常简单但是非常有效的算法,基本来说我们看视频都是根据播放量高、得分高进行播放。坏处是有一个长尾效应,过于小众的基本不会推荐出来,看看京东,其实也有点类似这样~ 关于视频的打分,这个可以根据一些特征工程来获得,比如用户点赞,收藏,喜欢,浏览,基于不同权重进行得分。如果没有这些特征,可以手动构造这些视频的得分(不行可以抓豆瓣。。。)甚者直接根据用户的浏览记录进行排序就能上线。 对于长尾效应,可以运营分出几大类,根据类别再进行排序也是可以一定程度多了新的选择..
更多橘生淮南为橘,橘生苏联为?
在二十世纪上半叶,苏联柑橘专家(Citrology在当时是一个重要学科)在-30℃的低温下在户外种植(亚)热带植物,而且不使用玻璃或任何燃料辅助。 During the first half of the twentieth century, Soviet citrologists grew (sub)tropical plants in temperatures as low as minus 30 degrees Celsius – outdoors, and without the use of glass or any fossil fuel-powered assistance. "渐进式抗冻" “Progressive cold-hardening” 进口的柑橘品种只在黑海沿岸几个孤立的地方..
更多求合理路径
今天在群里看到有人问了这么一道题,如下图所示。瞬间让我大呼这不就是我之前想出的一道面试题么,不过有可能是我当时没有表达清楚,发现小伙伴们理解的不是很透彻。 那我的方法就是基于每个元素的position,构成一个有向图即可。 代码如下(也方便未来自己再重新写😂) 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869# -*- coding: utf8 -*-#import mathfrom typing import Listdef trace_path(vec, pathes): if not..
更多OpenCore 引导完美升级
备份原有 OC (做好回滚的准备下载新版 OpenCore https://github.com/acidanthera/OpenCorePkg/releases将 1, 3, 4 里面的文件使用新版进行替换4 里面的文件严格来说并不需要, 只是留着方便使用不追求完美到这就可以收工了将 OC 复制到 U 盘 EFIU 盘格式化可以使用: diskutil list && diskutil eraseDisk HFS+ usbefi /dev/${identifier}U 盘 EFI 挂载可以使用 OOC > 工具 > 挂载 EFI扫描配置文件, 使用 OOC 打开 U 盘 EFI 里面的配置文件升级 ACPI, Drivers, ToolsACPI 设置, 下载/更新, 选中需..
更多图算法基础知识概览
分享一篇文章,这篇文章对图算法做了一个概览,主要分成三块: 路径搜索(DFS、BFS、prime tree, Dijkstra, ranom rank) 中心性计算(度中心性,紧密性中心性,pagerank) 社群发现(聚类,等) 同样更推荐《算法》,是一本系统完备的书,不管从工程还是算法角度都很适合。
更多浅谈搭建平台-画布篇
搭建平台本身也是一款软件,它更注重于“复用与组合”,而非实际的业务逻辑。前言近些年搭建平台变得很是流行,它提供了一种全新的开发方式,同时大幅降低了使用者的门槛,解决了企业的两大痛点:开发效率与人员转型。搭建平台由编辑器(画布+设置器)和生成器组成,本文将重点介绍画布,分为架构设计与画布设计两个章节来展开。正文什么是搭建平台在介绍搭建平台之前,有一个无法绕过的主题,那就是 NCLC(No Code & Low Code)。NCLC 作为建站产品背后的核心概念,推动了一波又一波的技术浪潮。近些年围绕 NCLC 踊跃出了不同形态的产品,如项目管理 Meego、低代码系统 Retool、在线文档 Notion 等,甚至还有人将 NCLC 细分为了 12 个发展赛道。 image 图片来源:https:..
更多