基本信息
文件名称:大语言模型:LLM结构与与训练PPT教学课件.ppt
文件大小:2.03 MB
总页数:81 页
更新时间:2025-11-13
总字数:约3.22万字
文档摘要
7.2.4LLM分词器在NLP中,tokenizer(分词器)是一个非常重要的工具,它的主要作用是将文本字符串分割成一系列单词或词汇单元(tokens),这些tokens可以是单词、短语、标点符号或其他元素。Tokenizer既可以是软件工具,也可以是嵌入在软件库或框架中的一个功能模块。它是一个用于文本处理的工具,可以在不同的软件环境和编程语言中实现和使用。 1.tokenizer的关键点 (1)基本功能 ·切分文本:将连续的文本分割成独立的token。 ·标准化:例如,将所有文本转换为小写,去除标点符号等。 ·词汇化:将变体的词汇形式(如复数形式、时态变化)映射回基本形式。