推广搜 军火库【持续更新】

DayNightStudy

共 10222字,需浏览 21分钟

 · 2022-01-12

作者:杨夕

NLP论文学习笔记:https://github.com/km1994/nlp_paper_study

个人介绍:大佬们好,我叫杨夕,该项目主要是本人在研读顶会论文和复现经典论文过程中,所见、所思、所想、所闻,可能存在一些理解错误,希望大佬们多多指正。

NLP 百面百搭 地址:https://github.com/km1994/NLP-Interview-Notes

推荐系统 百面百搭 地址:https://github.com/km1994/RES-Interview-Notes

关注公众号 【关于NLP那些你不知道的事】 加入 【NLP && 推荐学习群】一起学习!!!

一、小白 AI 入门学习

1.1 机器学习入门

  • 【吴恩达机器学习系列课程】 https://www.bilibili.com/video/BV164411b7dx?from=search&seid=18138466354258018449&spm_id_from=333.337.0.0

1.2 NLP 入门

  • 【2021吴恩达深度学习-NLP序列模型】https://www.bilibili.com/video/BV1Co4y1279R?from=search&seid=17563746002586971760&spm_id_from=333.337.0.0

1.3 计算广告 入门

  • 【互联网广告与计算广告学入门】http://web.stanford.edu/class/msande239/

    • Lecture 1: Introduction, Supplementary notes

    • Lecture 2: Marketplace design, In class presentation, Supplementary notes

    • Lecture 3: Sponsored search 1, In class presentation

    • Lecture 4: Sponsored search 2, In class presentation

    • Lecture 5: Display advertising 1, In class presentation

    • Lecture 6: Display advertising 2, In class presentation

    • Lecture 7: Targeting, In class presentation

    • Lecture 8: Recommender systems, In class presentation 1, In class presentation 2

    • Lecture 9: Mobile, video, and other emerging formats, In class presentation 1, In class presentation 2

  • 【刘鹏 – 计算广告学(推荐)】http://study.163.com/course/introduction.htm?courseId=321007

    • 介绍:刘鹏老师目前在360任商业产品首席架构师,在互联网广告领域实战经验丰富。其课程《计算广告学》内容深入浅出,由广告历史模式到新近技术,非常适合刚接触领域的朋友学习。

    • 广告的基本知识

    • 合约广告系统

    • 受众定向

    • 竞价广告系统

    • 搜索广告与广告网络Demand技术

    • 广告交易市场

  • 【百度 – 计算广告学】http://openresearch.baidu.com/courses/1231.jhtml

    • 计算广告学概述

    • 搜索引擎广告原理、技术和工程实践

    • 内容匹配广告与展示广告原理、技术和实践

  • 【王勇睿 – 互联网广告算法与系统实践】http://yuedu.baidu.com/ebook/3e31c551964bcf84b9d57bc0.html

    • 介绍:王老师是淘宝定向广告算法负责人。其课程结合了淘宝的广告实践经验,从广告理论到系统的技术实践,非常值得从业技术人员学习。

    • 互联网广告简介

    • 搜索广告

    • 定向广告

    • 实时广告竞价

    • 广告系统架构及挑战

  • 【UCS -计算广告学入门】http://classes.soe.ucsc.edu/ism293/Spring09/index_archivos/Page456.html

    • Introduction and Overview

    • Information Retrieval (IR) for Computational

    • Marketplace design

    • Machine Learning Techniques

    • Sponsored Search I

    • Sponsored Search II

    • Graphical ads and guaranteed delivery

    • Contextual Advertising I

    • Contextual Advertising II

    • Behavioral Targeting (BT)

二、推广搜论文学习笔记

  • 【NLP 学习笔记】:https://github.com/km1994/RS_paper_study

  • 【推荐系统 学习笔记】:https://github.com/km1994/RS_paper_study

  • 【GCN 学习笔记】:https://github.com/km1994/GCN_study

  • 【计算广告论文及资料列表github repo】 https://github.com/wzhe06/Ad-papers

  • 【推荐系统论文及资料列表github repo】https://github.com/wzhe06/Reco-papers

三、推广搜 面经篇

  • 【NLP百面百搭】 https://github.com/km1994/NLP-Interview-Notes

  • 【推荐系统百面百搭】 https://github.com/km1994/RES-Interview-Notes

  • 待续

四、框架篇

4.1 Pytorch 学习

  • 【PyTorch英文版官方手册】https://pytorch.org/tutorials/

    • 介绍:PyTorch英文版官方手册:https://pytorch.org/tutorials/。对于英文比较好的同学,非常推荐该PyTorch官方文档,一步步带你从入门到精通。该文档详细的介绍了从基础知识到如何使用PyTorch构建深层神经网络,以及PyTorch语法和一些高质量的案例。

  • 【PyTorch中文官方文档】https://pytorch-cn.readthedocs.io/zh/latest/

    • 介绍:PyTorch中文官方文档:https://pytorch-cn.readthedocs.io/zh/latest/。阅读上述英文文档比较困难的同学也不要紧,我们为大家准备了比较官方的PyTorch中文文档,文档非常详细的介绍了各个函数,可作为一份PyTorch的速查宝典。

  • 【偏算法实战的PyTorch代码教程】https://github.com/yunjey/pytorch-tutorial

    • 介绍:这是一个比较偏算法实战的PyTorch代码教程,在github上有很高的star,https://github.com/yunjey/pytorch-tutorial。建议大家在阅读本文档之前,先学习上述两个PyTorch基础教程。

  • 【Pytorch 开源书籍】https://github.com/zergtant/pytorch-handbook

    • 介绍:介绍一本开源书籍:https://github.com/zergtant/pytorch-handbook。这是一本开源的书籍,目标是帮助那些希望和使用PyTorch进行深度学习开发和研究的朋友快速入门。但本文档不是内容不是很全,还在持续更新中。

  • 【《动手学深度学习》pytorch】http://tangshusen.me/Dive-into-DL-PyTorch/#/

  • 【Pytorch模型训练实用教程】https://github.com/km1994/PyTorch_Tutorial

  • 【Pytorch 进阶 NLP 实战】https://github.com/km1994/NLP_pytorch_project

  • 【ark-nlp NLP 工具库】https://github.com/xiangking/ark-nlp

    • 介绍:王翔大佬开源的 军火库,主要是收集和复现学术与工作中常用的NLP模型

4.2 tensorflow 学习

  • 【TensorFlow 官网】https://www.tensorflow.org/tutorials

    • 介绍:官网教程绝对是最香的学习资料

  • 【TensorFlow Examples】https://github.com/aymericdamien/TensorFlow-Examples

    • 介绍:适合初学者的Tensorflow教程和代码示例:https://github.com/aymericdamien/TensorFlow-Examples。该教程不光提供了一些经典的数据集,更是从实现最简单的“Hello World”开始,到机器学习的经典算法,再到神经网络的常用模型,一步步带你从入门到精通,是初学者学习Tensorflow的最佳教程。

  • 【TensorFlow Tutorials】https://github.com/pkmital/tensorflow_tutorials

    • 介绍:从Tensorflow基础知识到有趣的项目应用:https://github.com/pkmital/tensorflow_tutorials。同样是适合新手的教程,从安装到项目实战,教你搭建一个属于自己的神经网络。

  • 【Tensorflow Tutorials using Jupyter Notebook】https://github.com/sjchoi86/Tensorflow-101

    • 介绍:使用Jupyter Notebook用Python语言编写的TensorFlow教程:https://github.com/sjchoi86/Tensorflow-101。本教程是基于Jupyter Notebook开发环境的Tensorflow教程,Jupyter Notebook是一款非常好用的交互式开发工具,不仅支持40多种编程语言,还可以实时运行代码、共享文档、数据可视化、支持markdown等,适用于机器学习、统计建模数据处理、特征提取等多个领域。

  • 【TensorFlow_Exercises】https://github.com/terryum/TensorFlow_Exercises

    • 介绍:Tensorflow代码练习:https://github.com/terryum/TensorFlow_Exercises。一个从易到难的Tensorflow代码练习手册。非常适合学习Tensorflow的小伙伴。

  • 【BERT和ALBERT在下游任务中的应用】https://github.com/km1994/bert-for-task

    • 介绍:Bert 在 NLP 任务中的 实现

4.3 keras 学习

  • 【bert4keras】https://github.com/bojone/bert4keras

    • 介绍:苏神开源的军火库,重新实现的keras版的transformer模型库,致力于用尽可能清爽的代码来实现结合transformer和keras。

五、竞赛篇

5.1 国内竞赛

  • 【科大讯飞开发者大赛】http://challenge.xfyun.cn/

  • 【阿里天池】https://tianchi.aliyun.com/

  • 【biendata】https://www.biendata.xyz/

  • 【datafountain】https://www.datafountain.cn/

  • 【百度飞桨】https://aistudio.baidu.com/

5.2 竞赛公众号

  • 【麻婆豆腐AI】

    • 介绍:会介绍 最近可以参加的一些赛事

  • 【ChallengeHub】

    • 介绍:分享一些 ML/CV/NLP 数据挖掘竞赛经验 和 baseline,竞赛小白强烈推荐

5.3 NLP 竞赛军火库

  • 【NLP人军火库 工具库】https://github.com/TingFree/NLPer-Arsenal

    • 介绍:NLP人军火库,主要收录NLP竞赛策略实现、各任务教程、经验贴、学习资料以及会议时间等

  • 【CHIP2021-Task3-临床术语标准化任务 开源方案】https://github.com/DataArk/CHIP2021-Task3-Top3

    • 评测网站: http://cips-chip.org.cn/2021/eval3

    • 所有的代码都是基于我们开源的ark-nlp实现。本次CHIP2021的临床术语标准化任务是没有A榜的,所以代码调试都是在天池的中文医疗信息处理数据集CBLUE的临床术语标准化任务上完成的

    • ark-nlp地址:https://github.com/xiangking/ark-nlp

    • 中文医疗信息处理数据集CBLUE:https://tianchi.aliyun.com/dataset/dataDetail?dataId=95414

  • 【CHIP2021医学对话临床发现阴阳性判别任务冠军 开源方案】https://github.com/DataArk/CHIP2021-Task1-Top1

    • 名称:CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark

    • 测评任务:CBLUE 1.0是由CHIP会议往届的学术评测比赛和阿里夸克医疗搜索业务的数据集组成,包括医学文本信息抽取(实体识别、关系抽取)、医学术语归一化、医学文本分类、医学句子关系判定和医学QA共5大类任务8个子任务。

    • 任务类型:文本分类、文本相似、命名实体识别、关系抽取和术语标准化(可以看成没有上下文的实体链接任务)

    • 测评链接:https://tianchi.aliyun.com/dataset/dataDetail?dataId=95414

  • 【CBLUE-阿里天池中文医疗NLP打榜Baseline】https://github.com/DataArk/CBLUE-Baseline

  • 【山东大数据竞赛—网格事件智能分类 baseline】 https://github.com/xiangking/ShandongDataCompetition2021-grid-events-classification-baseline

    • 测评任务:基于网格事件数据,对网格中的事件内容进行提取分析,对事件的类别进行划分,具体为根据提供的事件描述,对事件所属政务类型进行划分

    • 任务类型:文本分类

    • 测评链接:http://data.sd.gov.cn/cmpt/cmptDetail.html?id=67

六、语料篇

6.1 NLP 语料

  • 【nlp_chinese_corpus 】https://github.com/brightmart/nlp_chinese_corpus

    • 介绍:大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP

6.2 推荐系统 语料

  • 【MovieLens】https://grouplens.org/datasets/movielens/

    • 介绍:MovieLens数据集由GroupLens研究组在 University of Minnesota — 明尼苏达大学(与我们使用数据集无关)中组织的。MovieLens是电影评分的集合,有各种大小。数据集命名为1M,10M和20M,是因为它们包含1,10和20万个评分。最大的数据集使用约14万用户的数据,并覆盖27,000部电影。除了评分之外,MovieLens数据还包含类似“Western”的流派信息和用户应用的标签,如“over the top”和“Arnold Schwarzenegger”。这些流派标记和标签在构建内容向量方面是有用的。内容向量对项目的信息进行编码,例如颜色,形状,流派或真正的任何其他属性 - 可以是用于基于内容的推荐算法的任何形式。

  • 【Book-Crossings】

    • 介绍:Book-Crossings是由Cai-Nicolas Ziegler根据http://bookcrossing.com的数据编写的图书评分数据集。它包含90000个用户的270000本书的110万个评分。评分范围从1到10,还包括隐性评分。

  • 【Last.fm】http://www2.informatik.uni-freiburg.de/~cziegler/BX/

    • 介绍:Last.fm提供音乐推荐的数据集。对于数据集中的每个用户,包含他们最受欢迎的艺术家的列表以及播放次数。它还包括可用于构建内容向量的用户应用标签。

  • 【Dating Agency】(http://www2.informatik.uni-freiburg.de/~cziegler/BX/)

    • 介绍:该数据集包含2006年4月4日导出的135,359位LibimSeTi用户对168,791个配置文件的17,359,346个匿名评分。

  • 其他:https://zhuanlan.zhihu.com/p/258566760

七、项目篇

7.1 NLP 项目军火库学习

  • 【知识图谱构建 DeepKg】https://github.com/powerycy/DeepKg

    • 介绍:本项目致力于知识图谱的构建,目前正一点一点搭建其方法,也希望能帮助更多的人,

7.2 推荐系统 项目军火库学习

  • 【fun-rec】https://github.com/datawhalechina/fun-rec

    • 介绍:主要是针对具有机器学习基础并想找推荐算法岗位的同学,教程由推荐算法基础、推荐算法入门赛、新闻推荐项目及推荐算法面经组成,形成了一个完整的从基础到实战再到面试的闭环。

  • 【RecSys】https://github.com/qcymkxyc/RecSys

    • 介绍:项亮的《推荐系统实践》的代码实现

7.3 搜索引擎 项目军火库学习

  • 【搜索引擎项目 开源】https://github.com/zuo369301826/Search_Project

    • 项目介绍:模拟百度搜索的方式实现站内搜索引擎,整个项目分为两大部分,HTTP服务器和搜索服务器:HTTP服务器来获取用户的请求,并分析请求以便获取我们所需要的特定信息,之后将信息传给搜索服务器;搜索服务器会根据这些信息进行处理并检索数据,将结果反馈给HTTP服务器,HTTP服务器收到索引结果将其打印到页面上

    • 项目特点:1. 使用到Google提供的 protobuf, gflag, glog 等开源框架来完成开发;2. 搜索服务器利用RPC协议,基于百度开源的高性能RPC框架 sofa-pbrpc 实现;3.搜索原理是以正排索引加倒排索引相结合的方式进行检索;4. HTTP服务器使用epoll模型,提高了并发的响应速度;5. HTTP服务器以CGI的方式调用搜索客户端完成检索功能

  • 【Elastic】https://www.elastic.co/cn/

    • 介绍:Elasticsearch 是一个分布式、RESTful 风格的搜索和数据分析引擎,能够解决不断涌现出的各种用例。作为 Elastic Stack 的核心,它集中存储您的数据,帮助您发现意料之中以及意料之外的情况。

  • 【Nutch】http://nutch.sourceforge.net/docs/zh/about.html

    • 介绍:Nutch 是一个刚刚诞生开放源代码(open-source)的web搜索引擎。在它的主页有中文详细的说明。

  • 【Lucene】http://jakarta.apache.org/lucene/docs/index.html

    • 介绍:Apache Lucene是一个开放源程序的搜寻器引擎,利用它可以轻易地为Java软件加入全文搜寻功能。Lucene的最主要工作是替文件的每一个字作索引,索引让搜寻的效率比传统的逐字比较大大提高,Lucen提供一组解读,过滤,分析文件,编排和使用索引的API,它的强大之处除了高效和简单外,是最重要的是使使用者可以随时应自已需要自订其功能。

  • 【Egothor】http://www.egothor.org/

    • 介绍:Egothor是一个用Java编写的开源而高效的全文本搜索引擎。借助Java的跨平台特性,Egothor能应用于任何环境的应用,既可配置为单独的搜索引擎,又能用于你的应用作为全文检索之用。

  • 【Oxyus】http://oxyus.sourceforge.net/

    • 介绍:是一个纯java写的web搜索引擎。

  • 【BDDBot】http://www.twmacinta.com/bddbot/

    • 介绍:BDDBot是一个简单的易于理解和使用的搜索引擎。它目前在一个文本文件(urls.txt)列出的URL中爬行,将结果保存在一个数据库中。它也支持一个简单的Web服务器,这个服务器接受来自浏览器的查询并返回响应结果。它可以方便地集成到你的Web站点中。

7.4 计算广告 项目军火库学习

  • 【美团DSP广告策略实践】https://tech.meituan.com/2017/05/05/mt-dsp.html

  • 【互联网广告与计算广告学入门】http://web.stanford.edu/class/msande239/

八、公众号篇

  • 关于NLP那些你不知道的事

    • 介绍:关于NLP那些你不知道的事

  • CS的陋室

    • 介绍:叉烧大佬的经验分享帖,遇到问题先翻该公众号,可能会有意想不到的收获。

  • DataArk

    • 介绍:DataArk以数据为驱动、以开源分享为导向,致力于数据挖掘、算法创新和实用工具的开发。

  • 智能推荐系统

    • 介绍:专注于智能推荐系统,这里有最新最全的个性化推荐相关算法和行业应用分享,欢迎关注,和你在推荐的海洋中一起遨游,共同探索未知新世界。

  • DataFunTalk

    • 介绍:专注于大数据、人工智能技术应用的分享与交流。致力于成就百万数据科学家。定期组织技术分享直播,并整理大数据、推荐/搜索算法、广告算法、NLP自然语言处理算法、智能风控、自动驾驶、机器学习/深度学习等技术应用文章。

  • RUC Al Box

    • 介绍:本公众号主要关注使用人工智能技术来解决自然语言处理与社交媒体数据挖掘的研究内容。分享Al前沿,解读热点论文。

  • NewBeeNLP

    • 介绍:会介绍 很多 NLP 优秀笔记

  • 开放知识图谱

    • 介绍:openKG:开放促进互联、链接创造价值

  • WeData365

    • 介绍:学习 【搜索引擎】 的小伙伴一定要关注,因为有很多 【搜索引擎】 干货分享

  • 科学空间

    • 介绍:苏神的公众号,每周四苏神都会开源他的研究笔记。

  • 老刘说NLP

    • 介绍:360人工智能研究院大佬刘焕勇刘大佬的公众号,定期发布语言资源、工程实践、技术总结等内容。

  • 数据拾光者

    • 介绍:学习 【广告】 的小伙伴一定要关注,因为有很多 【广告】 干货分享

  • 泛函的范

    • 介绍:鹅厂大佬的学习笔记分享

  • 计算广告那些事

    • 介绍:学习 【广告】 的小伙伴一定要关注,因为有很多 【广告】 干货分享

  • 药老算法

    • 介绍:学习 【搜索引擎】 的小伙伴一定要关注,因为有很多 【搜索引擎】 干货分享

  • 机器学习算法与自然语言处理

    • 介绍:一个有情怀的公众号。机器学习、自然语言处理、算法等知识集中营、期待与你相遇~

  • 王喆的机器学习笔记

    • 介绍:推荐系统,计算广告,机器学习领域前沿进展

  • AINLP

    • 介绍:关注AI、NLP、机器学习、推荐系统、计算广告等相关技术。公众号可直接对话双语聊天机器人,尝试自动对联、作诗机、藏头诗生成器,调戏夸夸机器人、彩虹屁生成器,使用中英翻译,查询相似词,测试NLP相关工具包。

  • 李rumor

    • 介绍:李rumor 小姐姐 的学习笔记分享

  • 夕小瑶的卖萌屋

    • 介绍:自然语言处理、计算机视觉、信息检索、推荐系统、机器学习

九、学习笔记

  • 科学空间:

    • 地址:https://spaces.ac.cn/

    • 介绍:苏神经验学习笔记分享

  • 魔法学院的Chilia

    • 地址:https://www.zhihu.com/people/wang-zi-han-81-18/posts

    • 方向:推荐系统 | 广告 | 搜索| NLP

  • 水哥

    • 地址:https://www.zhihu.com/people/shui-ge-99

    • 方向:推荐系统

  • JayJay

    • 地址:https://www.zhihu.com/people/lou-jie-9

  • 我想了很多事

    • 地址:https://www.zhihu.com/people/yuan-chao-yi-83



浏览 80
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报