NLP 教程

NLP 笔记

NLP 自然语言处理技术介绍


NLP,英文全称 Natural Language Processing,中文叫自然语言处理,它是人工智能和语言学领域的分支学科。该领域探讨如何处理及运用自然语言;自然语言处理包括多方面和步骤,基本有认知、理解、生成等部分。

主要范畴

  • 文本朗读(Text to speech)
  • 语音合成(Speech synthesis)
  • 语音识别(Speech recognition)
  • 断词/分词(Text segmentation/Word tokenization)
  • 中文自动分词(Chinese word segmentation)
  • 语法分析/剖析(Syntactic analysis/Parsing)
  • 汉语自动句法分析
  • 词汇标示框架(Lexical Markup Framework)
  • n元语法 (n-gram)
  • 词嵌入 (Word2vec)
  • 词性标注(Part-of-speech tagging)
  • 文档分类 (Document classification)
  • 自然语言生成(Natural language generation)
  • 文本分类(Text categorization)
  • 信息检索(Information retrieval)
  • 信息抽取(Information extraction)
  • 文字校对(Text-proofing)
  • 问答系统(Question answering)
  • 给一句人类语言的问句,决定其答案。 典型问题有特定答案 (像是加拿大的首都叫什么?),但也考虑些开放式问句(像是人生的意义是是什么?)
  • 聊天机器人 (ChatBot)
  • 对话系统 (Dialogue system)
  • 机器翻译(Machine translation)
  • 将某种人类语言自动翻译至另一种语言
  • 自动摘要(Automatic summarization)
  • 产生一段文字的大意,通常用于提供已知领域的文章摘要,例如产生报纸上某篇文章之摘要
  • 文字蕴涵(Textual entailment)
  • 命名实体识别(Named entity recognition, NER)
  • 主题模型(Topic Model)
  • 文本情感分析(Sentiment analysis)
  • 语义分析(Semantic analysis)
  • 潜在语义学(Latent Semantic Analysis)
  • 词袋模型(Bag-of-words model)
  • 标签云 (Tag Cloud)
  • 自然语言理解 (Natural Language Understanding)