Mour

Security Architect, Machine Learning With Cyber Security.

Results 98 issues of


                                            Mour

网页内容自动抽取与词云展示

最近接到一批数据需要分析，当然常规的就是先用bs4解析处理，提取内容。然而很早之前就听说过了网页内容自动抽取，于是就尝试了下，`CxExtractor`来自[cx-extractor-python](https://github.com/chrislinan/cx-extractor-python) 目前我了解到的网页自动抽取方式有: * 基于行块分布 * 基于文本密度本篇中尝试的方法为基于行块分布的。[CxExtractor](https://github.com/chrislinan/cx-extractor-python/blob/master/CxExtractor.py) ![img](https://raw.githubusercontent.com/chrislinan/cx-extractor-python/master/img/2.png) 读取->提取->过滤即可 ```python import re import chardet import requests class CxExtractor: """cx-extractor implemented in Python""" __text = [] # __threshold = 186 __indexDistribution...

总结

工作

学习

select best from batch algorithms and autoclf introduction

无论是在参加比赛，还是在实际工程中，把数据处理完之后，肯定不会只用一种算法进行测试，不可避免的采用多种算法进行比较。而[autoclf](https://github.com/mylamour/autoclf)就是这次在阿里风险支付大赛进行中，花了两天撸出来的一个简单框架。目录结构为 ``` ├── [4.0K] clf │ │ │ ├── [4.0K] nn │ ├── [4.0K] data │ ├── [4.0K] pipe │ └── [4.0K] saved ``` `clf` 目录下是常见的或者自定义的算法，而`nn` 目录下是自定义的深度学习算法，和`sklearn`接口绑定的，自定义的算法是以类的形式存在的，只需要实现`fit`,`score`,`predict`即可，但是如果自己的`fit`使用了 `sklearn`的训练,就无需再自定义`score`,`predict`了。例如这样:...

enhancement

Machine Learning

阿里三面的一些问题

问题就放着吧，感觉没什么好记录的，不过我准备的一些问题倒没怎么问。非常喜欢三面的哥们。 * 如何应对过拟合 * 安全类检测过程中如何面对数据量不足的情况，类别不均衡的问题 * 有没有了解过one class分类用于现实场景 * 降维的方法有哪些 * word2vec具体原理 * 有没有尝试过异常点检测 * 还问了下神经网络中常见的层以及作用 * 决策树的一些问题 * 反爬虫 * 有没有反作弊模型经验我的问题: * 如何确定隐层的数目

同程面试题

4月11号来自同程的面试题: [neargle](http://blog.neargle.com/) 和张维垚先是根据项目详细询问了webshell检测，然后以及其他的问题。没想到的是问的还问了git的使用，有点意外。 1. nmap 的扫描方式? 怎么判断服务器信息,哪些常用命令? banner之外呢? > 暂时PASS 2. 扫描服务器(CDN背后)得到的端口一定是一台服务器上的吗? > 不知道，这个的话，我今天想想其实可以不在一个目标服务器上的。但一定在当前托管的网站上，要不然lamda服务器，serverless服务器？仍需深入了解 3. 如何获取到托管在服务器背后的真实ip. > 以前在网上看到说是多地ping，其实POC-T的bingc插件或者根据子域名ip，然后扫描整个子域名的网段，也是能获取的。 4. 哪些子域名获取方式. > `dnsdumpstar`, `Sublist3r`, `visualsitemapper`,`layer子域名挖掘机`，`certstream`(https的比较好，缺点是有可能有失效的), `nmap`的dns-enum脚本也可以, `搜索引擎`的site方式。总的来说就是枚举，解析记录，数据库。 5. DMZ以及办公网络安全知识,如何建设办公室网络安全,内网安全?...

学习

问题

sklearn和特征工程

ipynb文件在我的gist[点这里](https://gist.github.com/mylamour/b1700c0b22253dac66498fe4d01fa727)，等到后期整理下，把`bitbucket`上我的机器学习笔记迁移过来, 本篇是 https://www.cnblogs.com/jasonfreak/p/5448385.html 的学习笔记 ```python # Learn from https://www.cnblogs.com/jasonfreak/p/5448385.html # Note And Tutorial # use `notedown features_engine.ipynb --to markdown --strip > xx.md` # notedown installed by `pip install notedown` %matplotlib...

enhancement

Machine Learning

笔记

GridSearchCV With Keras Models And Pipeline

# Create Keras Model ```python from keras.wrappers.scikit_learn import KerasClassifier def create_model(kernel_initializer='he_normal', optimizer='adam', activation='relu', dropout=0.5): inputs = Input(shape=(sequence_length,), dtype='int32') embedding = Embedding(input_dim=vocabulary_size, output_dim=embedding_dim, input_length=sequence_length)(inputs) reshape = Reshape((sequence_length, embedding_dim, 1))(embedding) conv_0 =...

enhancement

Machine Learning

京东面试题

4月3号，愚人节后的两天，也恰是清明的前两天。意外收到来自京东的面试，简历是3月28号投的，未曾想到能会通过筛选，面试官聊了一会，不出意外，并没有通过。自省之余，对其中的5道问题并不能很好的回答，因此予以记录 --- # 一面 1. 一般sql注入怎么发现触点的，从源码阐述sqlmap如何测试注入点的. 2. masscan扫描端口时靠什么检测，为什么这么快? 请详述. 3. 你写过哪些小工具，你为你使用过的工具做过什么修改. 4. 如何提高采用python编写的扫描速度，谈谈对GIL锁的了解. 5. 你觉得你发现的那个漏洞影响比较大. **Other** * 常见的web漏洞有哪些. * 有没有玩过硬件安全，研究程度如何. **Backup** 收货很多，面试官脾气很好，虽不曾相识，但十分感谢。保持学习，以免退步。 --- 二面和三面是一天，周四，4月19号。请了一天假，太阳很热。没想到的是夏初的时候，两盆绿植却要凋零了。熬过了秋冬春，却没赶得上盛夏。不过生命的尽头就是死亡，也没什么可悲哀的。早走晚走都是要走的。 # 二面 1. 反爬虫，如果是你如何进行反爬虫，如何绕过反爬措施。使用无头浏览器被检测到了，如何绕过 2....

学习

问题

Cluster Text Document With Spectral clustering

本来在看K-means (最最基础的聚类算法)和EM算法(具体看统计学习方法，此处就不列推导相关的了)，在学习的过程中发现了Spectral Clustering的效果看起来更好。 ![image](https://user-images.githubusercontent.com/12653147/38567292-5ce51ab4-3d18-11e8-8aaf-9d600e56cbcb.png) 从该图中不难看出其聚类效果并不是很好，未能准确的将中间部分完全分开。于是乎看到了教程中提到的Spectral Clustering的方法，也就是下图中所使用的算法，可以看到已经能够将数据准确的分开了。 ![image](https://user-images.githubusercontent.com/12653147/38567329-7a65e5c8-3d18-11e8-8bbc-cd6ffdcc32a3.png) > 以上两图来自Python Data Science Handbook 5.11 教程关于Spectral Clustering 算法，这篇估计是经典中的[经典](https://arxiv.org/pdf/0711.0189.pdf),但是还没有看。只是尝试了下其用于对已知的webshell进行聚类的效果。因为如果直接在对未知样本进行分类的时候采取多分类，显然会导致精度下降很多，但是当有需求判断这个webshell是哪一种时，这个方法就可以一试。以下代码采用sklearn编写。 ```python import os, sys, re import logging import pickle import numpy as...

enhancement

工作

学习

安全

OWASP Top 10 And Security Developer's Guide

![image](https://user-images.githubusercontent.com/12653147/38121820-270e056c-3404-11e8-80b9-6567dab571ba.png) 这是一份OWASP TOP10变更对比，不过注入始终是NO.1,多出来个XXE,把错误配置，和授权绕过排名提高关注。作为第一次阅读OWASP 的白皮书，除了系统化一下整个概念流程之后，个人觉得比较好的是最后的几个提问,比较值得思考(不要自己看着什么就是是是，要想一想): * What’s Next for Developers * What’s Next for Security Testers * What’s Next for Organizations * What’s Next for Application Managers ![image](https://user-images.githubusercontent.com/12653147/38122994-4253bd6a-340b-11e8-8f39-fe8493c5cae2.png) ![image](https://user-images.githubusercontent.com/12653147/38123022-65b0a53e-340b-11e8-9455-c525ab909f10.png) 而我自己主要作为一个安全研发,和web渗透测试，比较关注前两个问题。...

安全

资源

笔记

进击的安全

![image](https://user-images.githubusercontent.com/12653147/32416876-365ba212-c28b-11e7-9982-69b92e2a8e90.png) 少时常看一兄灰鸽子种马，QQ钓鱼等。2013年拥有自己电脑，11月左右寻找各种工具包，后常深夜修仙，依旧苦苦无果。又因诸事繁杂，时有断续，却未敢停歇。自2016.11月起则专心此道，自忖无名，实当努力。鉴于自身所学繁杂，精通者少，故以此为记载，增删修补，当显凡人之努力，以期所获，更当砥砺前行，上下求索。。若有益于后来者，则幸甚至哉。以下部分来自日志，有所残缺。另有残本两册如下： * [Web安全](https://_._._._.iami.xyz/) * [爬虫](http://spider.iami.xyz/) 2016.12.05: * https://www.zhihu.com/question/48187821 > 吊炸天的一行`js` > * www.jsfuck.com 2017.08.07： * 这一段时间在玩`LAN Turtle`, `L eonardo` ,还不错 2017.09.18: * https://github.com/kevthehermit/PasteHunter > 通过`Yara`规则扫描抓取`Pastbin`上的数据 2017.09.19: * https://github.com/Neo23x0/signature-base/blob/master/iocs...

enhancement

学习

安全