文本处理神器 awk 命令详解

零、awk的基本知识   1、awk命令形式: awk [-F|-f|-v] ‘BEGIN{} // {command1; command2} END{}’ file   2、awk语法解释: [-F|-f|-v] 大参数。-F指定分隔符,-f调用脚本,-v定义变量 var=value '  ' 引用代码块。 BEGIN 初始化代码块。在对每一行进行处理之前,初始化代码...

百度搜索资源平台文章接口解析

百度搜索资源平台作是 SEO 获取百度动态最好的地方,阅读百度搜索资源平台文章也能提升自身对搜索引擎的理解,提升 SEO 水平。 现给出百度搜索资源平台的文章获取接口,有兴趣的同学可以通过该接口将平台文章都下载下来,仔细研读。   文件接口地址 https://ziyuan.baidu.com/college/getarticlelist ...

网站流量分析方法论

一、基础概念说明 流量分析是指通过网站 UV、PV 等流量数据,从中发现访客访问网站的规律和特点,找出目前网站上可能存在的问题和机遇,为进一步修正或重新制定网站运营定策略提供数据支持。 简单来说: 流量降了,找原因,解决问题,阻止流量进一步下降。 流量涨了,找原因,明确为什么涨,有什么可以吸收...

Vimtutor 学习笔记

通过 vim 自带的 vimtutor 学习如何使用 vim,现将所学内容简单整理供自查复习   光标定位动作 h 左移一个字符 j 下移一行 k 上移一行 l 右移一个字符 w 移动到下一个单词开头 e 移动到下一个单词末尾 ^ 或 0 移动到行首 $ 移动到行末 g 移动到文件...

HTTP 切换 HTTPS 的 SEO 注意事项

2018-02-24 更新 在国外找到一篇对 HTTP 升级到 HTTPS 说明得十分详细的文章,非常值得一读,贴出来供大家学习 ALL YOU NEED TO KNOW FOR MOVING TO HTTPS     HTTPS 是基于 tls 和 ssl 加密的HTTP协议,它的安全是显而易见的,包括防窃听、篡改、劫持,使用HTTPS是大势所趋。 HTTPS 发展至...

如何做好内容运营?内容运营的主要工作方向

内容运营部主要工作方向是“以用户喜爱的优质内容为核心,结合多样化的运营手段来获取流量,留存用户,促进变现”。 根据这一方向,主要有如下问题要明确 什么是用户喜爱的优质内容? 优质内容从哪里来?如何产生? 优质内容要怎么更好地呈现给用户? 怎么通过内容变现?   什么是用户喜爱的优质内容? 无...

知乎的 SEO 怎么做的,知乎 SEO 分析

前言 根据爱站查询结果,知乎目前百度权重已达到 10,预估百度来路 IP 约 1354 万,可以说是目前中文网站中 SEO 表现最好的站点之一。 最重要的是,知乎只用了三年时间就完成了这一壮举。15年知乎词条数年增长率为546%,16年176%,17年仍然达到了70%,可以说非常不科学。 以下分别从网站和内容两个方面来分析一...

太外公何中杰生平短述

太外公名为何中杰,原名何鼎甲,出生年月1919年2月2日,家庭出身中农,个人成分为学生。1943年6月入伍,46年6月入党。 早年与太外婆结婚并育有二女,后因抗日战争参加了八路军,一去就是多年。独自抚养二女的太外婆不得已改嫁马家,并生有一子。 太外公应当是解放后才回乡,但具体时间不详。因为子女的关系,太外公回乡...

关键词库建设流程

1. 关键词挖掘 挖掘关键词的方法有很多,目的就是能够收集到更多更全的关键词库。 1.1 先建立业务相关的词根 词根尽量简短,比如家电行业:产品类词根【电视、空调、洗衣机等】功能类词根【制冷、保暖、加温、除湿等】 1.2 挖掘长尾关键词 把这些词根的每一个长尾词都挖掘出来,可以用到百度竞价后台、词库网、5118...

搜索引擎下拉框推荐关键词挖掘

关键词挖掘对 SEO 重要性不言而喻,目前我最常用的挖掘方式是通过百度推广工具的 API,不仅效率高而且关键词的相关信息完整。 通过搜索引擎的下拉框关键词也是一种比较好的渠道,搜索下拉框关键词挖掘相比其他渠道优点在于时效性强,可以及时发现热度上升的关键词,提前布局。 以下给出下拉框关键词挖掘代码,支持...

用 shell 分析网站日志

什么是网站日志 网站是搭建在服务器上的,服务器会记录所有接收处理的请求等信息并保存为网站日志。 通过网站日志可以清楚的得知用户在什么IP、什么时间、用什么浏览器请求了你网站的哪个页面,以及是否访问成功。   日志示例 www.example.com 60.175.221.156 - - [25/Mar/2015:13:24:33 +0800] "GET /pag...

视频网站展示规则研究

播放来源 国内目前主流在线视频播放网站,按市场份额排序分别是爱奇艺、优酷、腾讯视频,其中只有优酷后台提供了较为详细的视频播放来源数据,如下图 以优酷的数据为基础,再结合其他视频网站的情况,可以得知视频发布到这些平台后,主要播放来源为以下四类: 搜索、推荐、站外、用户渠道   搜索 1....

Lubuntu下配置Python开发环境

安装完 Lubuntu 之后必须要做的几件事: 一、更新软件 (如果是通过最新版镜像安装,可无视此步骤) 1.选择速度比较快的源,默认的源速度不一定快。 二、配置终端 1.设置终端背景,前景色,透明度 2.安装zsh 3.设置zsh语法高亮 4.设置nano语法高亮,tabsize(默认是8个空格,但是对Python来说4个才是正确的) ...

搜索引擎语义分析对内容生产的指导意义研究

语义分析是什么 简单地说语义分析是指:通过某种算法用机器对文本进行处理,从而让机器理解文本深层次的含义。 语义分析一直是许多计算机从业者研究的重要课题,也是自然语言理解领域需要解决的根本性问题和追求的目标。 语义分析是指在分析句子的句法结构和每个词词义的基础上,推出能够反映该句子意义的形式化表...

文本文件提取重复内容的 N 种方法

最近利用shell帮公司优化挖掘关键词的流程,用 shell 替代了多个环节的操作,极大提高了工作效率。 shell 在文本处理上确有极大优势,除 awk、grep、sed 三剑客之外,还有很多对文本处理很有帮助的命令。 最近在进行『文本文件提取重复内容』时,就极大体会到了 shell 命令的灵活性。   例子: 有文...

VirtualBox 虚拟 Ubuntu 的一些感想

最近在学习 Shell,公司及家里的电脑目前都是 Windows 系统,进行 Shell 学习主要是用一些模拟 Linux 环境的软件,比如 Banbun、Cygwin Banbun 的功能很强大,集成了Oh My Zsh,命令行补全非常棒,唯一的问题就是速度比较慢,反应迟钝(可能是我的个案),最终还是换成了 Cygwin。 但是 Cygwin,或者说所有 Window...

Shell判断字符串包含关系的几种方法

本人日常工作中经常需要判断字符串的包含关系,以下给出一些shell中判断字符串包含的方法供大家参考。 主要来源于程序员问答网站 stackoverflow 以及 segmentfault。   方法一:利用grep查找 1 strA="long string" 2 strB="string" 3 result=$(echo $strA | grep "${strB}") 4 if [[ "$result" != "" ...