如何收集更多的短信内容样本?用于机器学习

[复制链接]
查看: 1734   回复: 9
发表于 2024-9-17 01:07:10 | 显示全部楼层 |阅读模式
最近课题作业需要做个垃圾短信识别的工具
整理了几千条短信内容,然后一条条手工标记区分正常短信和垃圾短信,用来训练机器学习模型。
发现几千条样本还是太少了点,现在准确率还远远不够,需要继续收集样本。
只要短信内容正文就好,不需要发信收信号码,脱敏后应该没有隐私问题。
想请问各位MJJ大佬,还能从哪里收集更多的短信样本?
小弟感激不尽!提供有用线索必有重谢!有偿信息亦可直接私信!
回复

使用道具 举报

 楼主| 发表于 2024-9-17 01:07:25 | 显示全部楼层
IOS上熊猫吃短信不就是深度学习做的
回复 支持 反对

使用道具 举报

 楼主| 发表于 2024-9-17 01:08:06 | 显示全部楼层
曾经见过有人花钱收垃圾短信的
回复 支持 反对

使用道具 举报

 楼主| 发表于 2024-9-17 01:08:16 | 显示全部楼层
你把你手机,能注册的,挨着注册一遍

jd和tb,能开会员的,那些免费入会一类的,挨着开。然后等俩月:L

要么你就直接爬一下那些接码站,不想爬,就写信联系,交易一下,py一下
回复 支持 反对

使用道具 举报

发表于 2024-9-17 01:08:27 | 显示全部楼层
那种是撸黑产羊毛的吧
回复 支持 反对

使用道具 举报

发表于 2024-9-17 01:09:17 | 显示全部楼层
用程序编点垃圾短信  然后喂给模型
回复 支持 反对

使用道具 举报

发表于 2024-9-17 01:10:05 | 显示全部楼层
现在这几千条就是靠我自己手机里的各种优惠送券短信

接码站倒是看过,基本都是验证码的信息,正常短信、垃圾短信比较少
回复 支持 反对

使用道具 举报

 楼主| 发表于 2024-9-17 01:10:19 | 显示全部楼层
github有不少相关,数据集虽然旧了但是垃圾短信还是换汤不换药
回复 支持 反对

使用道具 举报

发表于 2024-9-17 01:10:42 | 显示全部楼层
https://github.com/wandouqiang/RubbishMessage/tree/master/data
https://github.com/hrwhisper/SpamMessage/tree/master/data
https://github.com/mJackie/SpamMessage/tree/master/Classfier/DataPreprocess
回复 支持 反对

使用道具 举报

 楼主| 发表于 2024-9-17 01:11:40 | 显示全部楼层
https://yunjisms.xyz/
用爬虫爬下,几十万条还是有的
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则