BLCL的博客小馆

多模态-繁体不同排版
点击返回顶部
币安理财存U年化收益40% ！！牛市躺着就是收钱，闲置资金记得放理财！立即注册立享收益！！

首页

关于

归档

前言
总结
附件

多模态-繁体不同排版

2024-08-27

前言

最近有个需求，能够对不同排版格式的繁体信息进行抽取，所以从传统的版面分析+文字检测、识别+阅读顺序+NLP到现在发展的多模态大模型综合调研。

此处以文字区域检测+识别做个demo,来直观感受多模态大模型的结果。

总结

LVLM(large vision language model)相比LLM至少落后一代。
LVLM相比LLM更具有挑战性。1）多模态信息融合。2）从结果上看，训练时长与loss下降速度。3）高清图片，针对不同尺寸的图片，原来例如CLIP使用固长224*224像素来patch,Qwen-VL-Chat使用448,MiniCPM-V-2_6采用动态计算切分方式，来更好贴近原始SigLIP的输入尺寸,减少缩放后图片质量的损失。以及引入query embed来减少高清图片输入长度过长问题，看Perceiver Sampler和LlaVA-UHD。
存在更为明显重复生成问题。之前在试字节豆包时，在一个问答中涉及批量工作场景时遇到过重复生成，即模型“宕机”了，不断重复一段文本。其他LLM也有这类问题，只是相比LVLM更少些。在未见过的或者说更为复杂排版场景时，出错的概率更高。
推理速度。不过这个也是跟随业界大环境走吧，第一代的LLM其实速度也不是很快，后面VLLM等加速推理框架、其他技术出现等。

附件

注：实际比下面还复杂些，此处只做简单demo展示。

简体横排（没有这样训练语料仍能泛化，模型本身具备OCR能力）：

手写体（基本仍符合横排）：

繁体竖排：

对于更复杂场景的排版，泛化效果不理想，官方解释是原始训练语料包含少。

标题: 多模态-繁体不同排版
来源: https://geasyheart.github.io/2024/08/19/%E5%A4%9A%E6%A8%A1%E6%80%81-%E7%B..
版权: 此文版权归原作者所有，若有来源错误或者侵犯您的合法权益，您可通过邮箱与我们取得联系，我们将及时进行处理。邮箱地址：xmwbnews@gmail.com

上一页: React 类组件下一页: 一日一技：如何使用大模型提高开发效率