手撕包菜SSBC DHT磁力链一键安装包

说明

1、抛弃django自带的web server，使用更适用于生产环境的Nginx+Gunicorn。
2、增加绑定域名的功能。

更新

[2017.07.05]
在冰剑的增加入库黑名单功能的基础上，修复了爬虫爬一段时间就挂掉的bug，再也不用使用爬虫自动重启脚本了，即可以跳过下面第2个步骤。

安装

系统要求：Centos7纯净版，主机内存最好1G或以上且有swap。
使用方法：解析域名到主机IP上。
提示：本方法还不算是完全的一键安装，适合喜欢折腾的人，如果想一个脚本就全部安装完成的请参考：手撕包菜SSBC改进版之一键部署开心版。

1、安装脚本
使用ssh登录vps运行：

wget --no-check-certificate https://www.moerats.com/usr/down/ssbc/ssbc1.4.sh && sh ssbc1.4.sh

2、定时重启爬虫
下载脚本并给执行权限：

wget --no-check-certificate https://www.moerats.com/usr/down/ssbc/ssbc-reboot.sh && chmod +x ssbc-reboot.sh

增加计划任务：

crontab -e

按i进入编辑模式：

0,30 * * * * sh /root/ssbc-reboot.sh

意思是每小时的0分和30分自动执行ssbc-reboot.sh这个文件，然后按Esc键退出编辑模式，然后按着shift并同时连按2次z，即回到shell界面。

3、上传程序
中文模板下载地址：手撕包菜中文模板2017-02-25.zip

下载模板后解压然后用WinSCP等ftp工具上传到/root/ssbc-master/web/目录，再执行命令：

ln -s /usr/lib/python2.7/site-packages/django/contrib/admin/static/admin /root/ssbc-master/web/static/admin
killall gunicorn
cd /root/ssbc-master/
nohup gunicorn ssbc.wsgi:application -b 127.0.0.1:8000 --reload>/dev/zero 2>&1&

冰剑新增功能：增加入库黑名单机制。下载地址：手撕包菜爬虫增加入库黑名单修复崩溃bug 201707.rar，下载后可直接使用，内附使用说明书。

常见问题及解决

1.必须centos7吗？
非常建议使用centos7，centos6可能会有意想不到的错误
2.如何设置首页关键字？
登录管理员后台，点击Rec keywordss，右上角新增
3.怎么查看入库的文件？
登录管理员后台，点击 Hashs 
4.怎么查看每天入库了多少文件，以便清楚入库效率？
登录管理员后台，点击 Status reports 
5.如何确认web服务器、采集、入库正在运行？
运行 ps -ef|grep python|grep -v grep
结果里面有
gunicorn ssbc.wsgi:application -b 127.0.0.1:8000 --reload 
python simdht_worker.py  
python index_worker.py
即表示正在运行。
——————————————————————————————————————
去除搜索页 右下角广告
[root@localhost ssbc-master]# cd web/static/js
[root@localhost js]# vi ssbc.js   找到如下3行，在前面添加//进行注释，保存
//        document.write('<script src="http://v.6dvip.com/ge/?s=47688"><\/script>');
//            document.writeln("<script language=\"JavaScript\" type=\"text/javascript\" src=\"http://js.6dad.com/js/xiaoxia.js\"></script>");
//           document.writeln("<script language=\"JavaScript\" type=\"text/javascript\" src=\"http://js.ta80.com/js/12115.js\"></script>");
——————————————————————————————————————
如何修改扩展名归类？
workers/metautils.py文件中有如下代码：
def get_category(ext):
    ext = ext + '.'
    cats = {
        u'video': '.avi.mp4.rmvb.m2ts.wmv.mkv.flv.qmv.rm.mov.vob.asf.3gp.mpg.mpeg.m4v.f4v.',
        u'image': '.jpg.bmp.jpeg.png.gif.tiff.',
        u'document': '.pdf.isz.chm.txt.epub.bc!.doc.ppt.',
        u'music': '.mp3.ape.wav.dts.mdf.flac.',
        u'package': '.zip.rar.7z.tar.gz.iso.dmg.pkg.',
        u'software': '.exe.app.msi.apk.'
    }

意思是：扩展名为.exe、.app、.msi、,.apk的文件都属于software类型。
如果你把u'software': '.exe.app.msi.apk.' 改为 u'software': 'app.msi.apk.'，那么exe将会被归为other类型。
所以在这里修改归类设置。
——————————————————————————————————————
如何禁止某些格式/分类的文件入库？
workers/metadata.py文件中有如下代码：
info['extension'] = metautils.get_extension(bigfname).lower()
info['category'] = metautils.get_category(info['extension'])
所以如果你要排除扩展名为.exe的文件，或者类型为software，可以在上面代码后面加上
##########这是增加的过滤-开始############
#按扩张名过滤，禁止扩展名为.exe的入库
if info['extension'] == 'exe':
    return # 直接返回，跳过下面的入库
#按文件类型过滤，禁止类型为software的入库
if info['category'] == 'software':
    return
#禁止类型为other的入库
if info['category'] == 'other':
    return
##########这是增加的过滤-结束############
——————————————————————————————————————
如何重建索引？
第一步：
删除/data目录
第二步：
进入数据库，把search_hash表中所有记录的tagged字段置为0。
UPDATE search_hash SET tagged=0
然后启动sphinx、index_worker.py。
——————————————————————————————————————
MySQL server has gone away提示怎么办？
ssbc 运行一段时间后，大概半个小时，就莫名奇妙停止不爬了。 错误提示如下：
MySQL server has gone away
通过错误提示可以看出，其实是ssbc与mysql(maridb)断开连接了，导致程序异常，当然就插入不了数据了。
有3种解决办法：
方法1是写个脚本，定时重启爬虫。
方法2是修改下代码，当mysql断开连接时，再次重连mysql就可以拉。
方法3是修改Mysql配置，将闲置时间wait_timeout设置长一点。
——————————————————————————————————————
哪里设置爬虫线程？让爬虫爬快/慢点？
在workers/simdht_worker.py里面把MAX_QUEUE_LT、MAX_QUEUE_PT、max_node_qsize设大/小一点。
如何关闭调试模式？设置404页面？
请参考 http://www.githubs.cn/post/19
——————————————————————————————————————
如何在搜索结果页面添加迅雷链接？
在web/views.py文件加入以下代码生成迅雷链接:
import base64
xunleiurl = 'AAmagnet:?xt=urn:btih:' + d['info']['info_hash'] + 'ZZ'
d['xunlei_url'] = 'thunder://' + base64.b64encode(xunleiurl)
可以在模板中用“ {{xunlei_url}} ”调用。位置要放在return render(request, 'info.html', d)的前面。
——————————————————————————————————————
SSBC如何搬家？
数据库用mysqldump导出sql，在新服务器上运行一键包，再导入刚才的sql。
——————————————————————————————————————
提示duplicate id 'xxxx'解决办法
进入数据库，执行语句
update search_hash set tagged=True where id=xxxx;

版权声明：本文为原创文章，版权归 Rat's Blog 所有，转载请注明出处！
本文链接：https://www.moerats.com/archives/176/
如教程需要更新，或者相关链接出现404，可以在文章下面评论留言。

发表评论取消回复

评论 *

私密评论

名称 *

邮箱 *

地址

7 条评论

小宝
January 30th, 2020 at 10:21 pm

这个怎么把爬虫放在其他多台服务器上，而数据库等在另一个

回复
葫芦娃
May 16th, 2019 at 12:26 am

你好我想问一下i为什么安装不了显示这个呢
ssbc-setup.sh: line 51: /etc/nginx/nginx.conf: No such file or directory
ln: failed to create symbolic link ‘/root/ssbc/web/static/admin’: No such file or directory
ssbc-setup.sh: line 117: cd: /root/ssbc: No such file or directory
sed: can't read /root/ssbc/ssbc/settings.py: No such file or directory
确定浏览器能访问网站 http://172.17.53.160 吗?[y/n]y
ssbc-setup.sh: line 125: cd: workers: No such file or directory
ssbc-setup.sh: line 134: cd: /root/ssbc: No such file or directory
usage: manage.py [-?]
{shell,db,runserver,create_user,changepassword,init_db} ...
manage.py: error: invalid choice: 'createsuperuser' (choose from 'shell', 'db', 'runserver', 'create_user', 'changepassword', 'init_db')
setup crontab for ssbc reboot
setup crontab finished

回复
1. Rat's博主
  May 16th, 2019 at 11:40 am
  
  @葫芦娃
  看是不是脚本失效了
  
  回复
zhang
March 13th, 2018 at 02:24 pm

为什么我安装完打不开？

回复
1. Rat's博主
  March 13th, 2018 at 06:43 pm
  
  @zhang
  这个我以前装的时候是可以用的，你先自己折腾下。
  
  回复
noxxxx
September 20th, 2017 at 10:23 am

这个ssbc是原来那个作者自己在用的么？

回复
1. Rat's博主
  September 20th, 2017 at 10:31 am
  
  @noxxxx
  这个不知道，不过应该都差不多吧。
  
  回复