LLM（大语言模型）解码时是怎么生成文本的？

来源：博客园 2023-04-25 17:44:39

Part1配置及参数

transformers==4.28.1

源码地址：transformers/configuration_utils.py at v4.28.1 · huggingface/transformers (github.com)

【资料图】

文档地址：Generation (huggingface.co)

对于生成任务而言：text-decoder, text-to-text, speech-to-text, and vision-to-text models，有以下几种生成的方法：

greedy decodingby calling [~generation.GenerationMixin.greedy_search] if num_beams=1anddo_sample=False

contrastive searchby calling [~generation.GenerationMixin.contrastive_search] if penalty_alpha>0.and top_k>1

multinomial samplingby calling [~generation.GenerationMixin.sample] if num_beams=1anddo_sample=True

beam-search decodingby calling [~generation.GenerationMixin.beam_search] if num_beams>1anddo_sample=False

beam-search multinomial samplingby calling [~generation.GenerationMixin.beam_sample] ifnum_beams>1and do_sample=True

diverse beam-search decodingby calling [~generation.GenerationMixin.group_beam_search], ifnum_beams>1and num_beam_groups>1

constrained beam-search decodingby calling [~generation.GenerationMixin.constrained_beam_search], ifconstraints!=Noneor force_words_ids!=None

具体有以下参数可供选择：

（1）控制输出长度的参数

max_length (int, optional, defaults to 20) - 生成的tokens的最大长度。对应于输入提示的长度+max_new_tokens。如果还设置了max_new_tokens，则其作用被max_new_tokens覆盖。

max_new_tokens (int, optional) - 要生成的最大数量的tokens，忽略提示中的tokens数量。

min_length (int, optional, defaults to 0) - 要生成的序列的最小长度。对应于输入提示的长度+min_new_tokens。如果还设置了min_new_tokens，它的作用将被 min_new_tokens覆盖。

min_new_tokens (int, optional) - 要生成的最小数量的tokens，忽略提示中的tokens数量。

early_stopping (bool or str, optional, defaults to False) - 控制基于beam-based的停止条件，比如beam-search。是否在至少生成 num_beams个句子后停止 beam search，默认是False。

max_time(float, optional) - 你允许计算运行的最大时间，以秒为单位。在分配的时间过后，生成仍然会完成当前的传递。

（2）控制输出策略的参数

do_sample (bool, optional, defaults to False) - 是否使用采样，否则使用贪婪解码。

num_beams (int, optional, defaults to 1) - 集束搜索的集束数量。1意味着没有集束搜索。

num_beam_groups (int, optional, defaults to 1) - 将num_beam分成的组数，以确保不同组的beams的多样性。https://arxiv.org/pdf/1610.02424.pdf

penalty_alpha (float, optional) - 平衡模型置信度和对比搜索解码中的退化惩罚的数值。

use_cache (bool, optional, defaults to True) - 模型是否应该使用过去最后的键/值注意力（如果适用于模型）来加速解码。

（3）控制模型输出Logits的参数

temperature（float, optional, defaults to 1.0） - 用于调节下一个标记概率的值。

top_k (int, optional, defaults to 50) - 为top-k过滤而保留的最高概率词汇标记的数量。

top_p (float, optional, defaults to 1.0) - 已知生成各个词的总概率是1（即默认是1.0）如果top_p小于1，则从高到低累加直到top_p，取这前N个词作为候选。

typical_p (float, optional, defaults to 1.0) - 局部典型性度量：在给定已生成的部分文本的情况下，预测下一个目标标记的条件概率与预测下一个随机标记的预期条件概率的相似程度。如果设置为float < 1，则保留概率加起来等于typical_p或更高的最小的本地典型tokens集以供生成。https://arxiv.org/pdf/2202.00666.pdf

epsilon_cutoff (float, optional, defaults to 0.0) - 如果设置为严格介于0和1之间的浮点数，只有条件概率大于epsilon_cutoff的标记才会被采样。在论文中，建议的值在3e-4到 9e-4之间，取决于模型的大小。https://arxiv.org/abs/2210.15191

eta_cutoff (float, optional, defaults to 0.0) - Eta采样是局部典型采样和ε采样的混合体。如果设置为严格介于0和1之间的浮点数，只有当一个token大于eta_cutoff或 sqrt(eta_cutoff) * exp(- entropy(softmax(next_token_logits)))时才会被考虑。后者直观地是预期的下一个令牌概率，以sqrt（eta_cutoff）为尺度。在论文中，建议值从3e-4到2e-3不等，取决于模型的大小。https://arxiv.org/abs/2210.15191

diversity_penalty (float, optional, defaults to 0.0) - 如果一个beam在某一特定时间产生一个与其他组的任何beam相同的标记，这个值将从beam的分数中减去。请注意，多样性惩罚只有在group-beam-search被启用时才有效。

repetition_penalty (float, optional, defaults to 1.0) - 重复处罚的参数。1.0意味着没有惩罚。https://arxiv.org/pdf/1909.05858.pdf

encoder_repetition_penalty (float, optional, defaults to 1.0) - encoder_repetition_penalty的参数。对不在原始输入中的序列进行指数式惩罚。 1.0意味着没有惩罚。

length_penalty (float, optional, defaults to 1.0) - 对长度的指数惩罚，用于beam-based的生成。它作为指数应用于序列的长度，反过来用于划分序列的分数。由于分数是序列的对数能性（即负数），length_penalty > 0.0会促进更长的序列，而length_penalty < 0.0会鼓励更短的序列。

no_repeat_ngram_size (int, optional, defaults to 0) - 如果设置为int > 0，所有该尺寸的 ngrams只能出现一次。

bad_words_ids(List[List[int]], optional) - 不允许生成的标记ID的列表。为了获得不应该出现在生成的文本中的词的标记ID，使用tokenizer(bad_words, add_prefix_space=True, add_special_tokens=False).input_ids。

force_words_ids(List[List[int]] or List[List[List[int]]], optional) - 必须生成的 token ids列表。如果给定的是List[List[int]]，这将被视为一个必须包含的简单单词列表，与bad_words_ids相反。如果给定的是List[List[List[int]]]，这将触发一个 disjunctive约束，即可以允许每个词的不同形式。https://github.com/huggingface/transformers/issues/14081

renormalize_logits (bool, optional, defaults to False) - 在应用所有的logits处理器或 warpers（包括自定义的）之后，是否重新规范化logits。强烈建议将这个标志设置为 "True"，因为搜索算法认为分数对数是正常化的，但一些对数处理器或翘曲器会破坏正常化。

constraints (List[Constraint], optional) - 自定义约束，可以添加到生成中，以确保输出将包含使用Constraint对象定义的某些标记，以最合理的方式。

forced_bos_token_id (int, optional, defaults to model.config.forced_bos_token_id) - 强制作为解码器_start_token_id之后第一个生成的令牌的id。对于像mBART这样的多语言模型，第一个生成的标记需要是目标语言的标记，这很有用。

forced_eos_token_id (Union[int, List[int]], optional, defaults to model.config.forced_eos_token_id) - 当达到max_length时，强制作为最后生成的令牌的id。可以选择使用一个列表来设置多个序列结束的标记。

remove_invalid_values (bool, optional, defaults to model.config.remove_invalid_values) - 是否删除模型可能的nan和inf输出以防止生成方法崩溃。注意，使用remove_invalid_values会减慢生成速度。

exponential_decay_length_penalty (tuple(int, float), optional) - 这个Tuple在生成一定数量的标记后，增加一个指数级增长的长度惩罚。该元组应包括： (start_index, decay_factor) 其中start_index表示惩罚开始的位置， decay_factor表示指数衰减的系数。

suppress_tokens (List[int], optional) - 在生成时将被抑制的tokens列表。 SupressTokens日志处理器将把它们的日志probs设置为-inf，这样它们就不会被采样了。

forced_decoder_ids (List[List[int]], optional) - 一对整数的列表，表示从生成索引到token索引的映射，在采样前会被强制执行。例如，[[1, 123]]意味着第二个生成的token将总是索引为token的令牌。

（4）定义generate输出变量的参数

num_return_sequences(int, optional, defaults to 1) - 批次中每个元素独立计算的返回序列的数量。

output_attentions (bool, optional, defaults to False) - 是否返回所有注意力层的注意力张量。更多细节请参见返回的张量下的注意力。

output_hidden_states (bool, optional, defaults to False) - 是否要返回所有层的隐藏状态。更多细节请参见返回张量下的hidden_states。

output_scores (bool, optional, defaults to False) - 是否返回预测的分数。更多细节请参见返回张量下的分数。

return_dict_in_generate (bool, optional, defaults to False) - 是否返回ModelOutput而不是普通元组。

synced_gpus (bool, optional, defaults to False) - 是否继续运行while循环直到max_length（ZeRO第三阶段需要）。

（5）可在生成时使用的特殊参数

pad_token_id (int, optional) - 填充token的ID。

bos_token_id (int, optional) - 序列开始标记的id。

eos_token_id (Union[int, List[int]], optional) - 序列结束标记的id。可以选择使用一个列表来设置多个序列结束标记。

（6）编码器-解码器模型独有的生成参数

encoder_no_repeat_ngram_size (int, optional, defaults to 0) - 如果设置为int > 0，所有出现在encoder_input_ids中的该大小的ngrams都不能出现在decoder_input_ids中。

decoder_start_token_id (int, optional) - 如果一个编码器-解码器模型以不同于bos的 token开始解码，则这就是该token的id。

Part2配置基本使用1使用预训练模型定义的生成参数

我们可以这么使用、保存预训练模型已经定义好的参数：

fromtransformersimportAutoTokenizer,AutoModelForCausalLM,TextGenerationPipeline,GenerationConfigmodel_name_or_path="uer/gpt2-chinese-cluecorpussmall"tokenizer=AutoTokenizer.from_pretrained(model_name_or_path)model=AutoModelForCausalLM.from_pretrained(model_name_or_path)generation_config=model.generation_configgeneration_config_dict=generation_config.to_dict()generation_config_dict["num_beams"]=2generation_config=GenerationConfig.from_dict(generation_config_dict)print(generation_config)generation_config.save_pretrained("./")"""{"_from_model_config":true,"bos_token_id":50256,"eos_token_id":50256,"num_beams":2,"transformers_version":"4.28.1"}"""

需要注意的是，如果参数是默认的值得话，则不会显示出来。另外，GenerationConfig类里面有许多可用的方法，具体可以去看看源代码。

2一般使用方法

在定义好config之后，我们可以这么使用：

fromtransformersimportAutoModelForSeq2SeqLM,AutoTokenizer,GenerationConfigtokenizer=AutoTokenizer.from_pretrained("t5-small")model=AutoModelForSeq2SeqLM.from_pretrained("t5-small")translation_generation_config=GenerationConfig(num_beams=4,early_stopping=True,decoder_start_token_id=0,eos_token_id=model.config.eos_token_id,pad_token=model.config.pad_token_id,)translation_generation_config.save_pretrained("t5-small","translation_generation_config.json",push_to_hub=True)#Youcouldthenusethenamedgenerationconfigfiletoparameterizegeneration#可以加载我们自己本地保存的generation_configgeneration_config=GenerationConfig.from_pretrained("t5-small","translation_generation_config.json")inputs=tokenizer("translateEnglishtoFrench:Configurationfilesareeasytouse!",return_tensors="pt")outputs=model.generate(**inputs,generation_config=generation_config)print(tokenizer.batch_decode(outputs,skip_special_tokens=True))

Part3生成结果

使用transformers库的生成模型生成结果有三种方式，暂时不要在意参数：

3pipeline

指定为text-generation

fromtransformersimportpipelinegenerator=pipeline("text-generation",model="uer/gpt2-chinese-cluecorpussmall",)text_inputs=["昨天已经过去，"]generator(text_inputs,max_length=100)

4TextGenerationPipeline

fromtransformersimportAutoTokenizer,AutoModelForCausalLM,TextGenerationPipelinetokenizer=AutoTokenizer.from_pretrained("uer/gpt2-chinese-cluecorpussmall")model=AutoModelForCausalLM.from_pretrained("uer/gpt2-chinese-cluecorpussmall")text_generator=TextGenerationPipeline(model,tokenizer)text_inputs=["昨天已经过去，"]text_generator(text_inputs,max_length=100)

5model.generate()

fromtransformersimportAutoTokenizer,AutoModelForCausalLMimporttorch,ostokenizer=AutoTokenizer.from_pretrained("uer/gpt2-chinese-cluecorpussmall")model=AutoModelForCausalLM.from_pretrained("uer/gpt2-chinese-cluecorpussmall")device="cuda"iftorch.cuda.is_available()else"cpu"model=model.to(device)texts=["昨天已经过去，"]#用batch输入的时候一定要设置paddingencoding=tokenizer(texts,return_tensors="pt",padding=True).to(device)model.eval()withtorch.no_grad():generated_ids=model.generate(**encoding,max_length=100)generated_texts=tokenizer.batch_decode(generated_ids,skip_special_tokens=True)fortextingenerated_texts:print(text)

我们捋一捋它们之间的关系：最基础的还是model.generate()，而TextGenerationPipeline在_forward里面调用了model.generate()，pipeline实际上是对TextGenerationPipeline的进一步封装：

"text-generation":{"impl":TextGenerationPipeline,"tf":TFAutoModelForCausalLMifis_tf_available()elseNone,"pt":AutoModelForCausalLMifis_torch_available()elseNone,"default":{"model":{"pt":"gpt2","tf":"gpt2"}},},

6流式打印

在介绍不同的生成方法之前，先介绍下流式打印。使用过ChatGPT的玩家都知道，在生成结果的时候，它是一部分一部分的返回生成的文本并展示的，transformers该版本也有这个功能，我们接下来看。

fromtransformersimportAutoModelForCausalLM,AutoTokenizer,TextStreamertokenizer=AutoTokenizer.from_pretrained("uer/gpt2-chinese-cluecorpussmall")model=AutoModelForCausalLM.from_pretrained("uer/gpt2-chinese-cluecorpussmall")input_text="昨天已经过去，"inputs=tokenizer([input_text],return_tensors="pt",add_special_tokens=False)streamer=TextStreamer(tokenizer)#Despitereturningtheusualoutput,thestreamerwillalsoprintthegeneratedtexttostdout._=model.generate(**inputs,streamer=streamer,max_new_tokens=86)

如果想要一次性返回结果再打印，则是这样的：

fromtransformersimportAutoModelForCausalLM,AutoTokenizer,TextIteratorStreamerfromthreadingimportThreadtokenizer=AutoTokenizer.from_pretrained("uer/gpt2-chinese-cluecorpussmall")model=AutoModelForCausalLM.from_pretrained("uer/gpt2-chinese-cluecorpussmall")input_text="昨天已经过去，"inputs=tokenizer([input_text],return_tensors="pt",add_special_tokens=False)streamer=TextIteratorStreamer(tokenizer)#Runthegenerationinaseparatethread,sothatwecanfetchthegeneratedtextinanon-blockingway.generation_kwargs=dict(inputs,streamer=streamer,max_new_tokens=100)thread=Thread(target=model.generate,kwargs=generation_kwargs)thread.start()generated_text=""fornew_textinstreamer:generated_text+=new_textgenerated_text

Part4多种生成方式

接下来将以之前训练好的观点评论生成的GPT来生成不同的结果，我们每次都使用三种方式对比看看结果。

7Greedy Search

generate默认使用贪婪的搜索解码，所以你不需要传递任何参数来启用它。这意味着参数num_beams被设置为1，do_sample=False。

img

如图上所属，每次选择概率值最高的词。贪心搜索的主要缺点是它错过了隐藏在低概率词后面的高概率词，比如has=0.9不会被选择到。

fromtransformersimportAutoTokenizer,AutoModelForCausalLM,TextGenerationPipeline,pipelinetokenizer=AutoTokenizer.from_pretrained("./gpt2-chinese")model=AutoModelForCausalLM.from_pretrained("./gpt2-chinese")fromdatasetsimportload_datasetdata_file="./ChnSentiCorp_htl_all.csv"dataset=load_dataset("csv",data_files=data_file)dataset=dataset.filter(lambdax:x["review"]isnotNone)dataset=dataset["train"].train_test_split(0.2,seed=123)importrandomexample=random.choice(dataset["train"])text=example["review"]input_text=text[:10]print(input_text)#greedysearchmodel.eval()withtorch.no_grad():encoding=tokenizer(input_text,return_tensors="pt",padding=False,add_special_tokens=False,return_token_type_ids=False,return_attention_mask=False,)generated_ids=model.generate(**encoding,max_length=100,eos_token_id=0,pad_token_id=0,num_beams=1,do_sample=False)generated_texts=tokenizer.batch_decode(generated_ids,skip_special_tokens=True)print(generated_texts)text_generator=TextGenerationPipeline(model,tokenizer)print(text_generator(input_text,max_length=100,eos_token_id=0,num_beams=1,do_sample=False,pad_token_id=0))generator=pipeline("text-generation",model=model,tokenizer=tokenizer)generation_config={"max_length":100,"eos_token_id":0,"pad_token_id":0,"num_beams":1,"do_sample":False,}print(generator(input_text,**generation_config))"""虽然说是4星级，不过["虽然说是4星级，不过感觉和3星没什么两样，只是服务水准差了点而已"][{"generated_text":"虽然说是4星级，不过感觉和3星没什么两样，只是服务水准差了点而已"}][{"generated_text":"虽然说是4星级，不过感觉和3星没什么两样，只是服务水准差了点而已"}]"""

答案是一致的，和我们之前的推测一样，但需要注意的是model.gneerate()对单条预测的时候我们在tokenizer的时候设置padding为False了，如果设置为True，则得不到相同的结果。

8Contrastive search

对比搜索解码策略是在2022年的论文A Contrastive Framework for Neural Text Generation https://arxiv.org/abs/2202.06417中提出的。它展示了生成非重复但连贯的长输出的优越结果。要了解对比性搜索的工作原理，请查看这篇博文https://huggingface.co/blog/introducing-csearch。启用和控制对比性搜索行为的两个主要参数是punice_alpha和top_k：

fromtransformersimportAutoTokenizer,AutoModelForCausalLM,TextGenerationPipeline,pipelinetokenizer=AutoTokenizer.from_pretrained("./gpt2-chinese")model=AutoModelForCausalLM.from_pretrained("./gpt2-chinese")fromdatasetsimportload_datasetdata_file="./ChnSentiCorp_htl_all.csv"dataset=load_dataset("csv",data_files=data_file)dataset=dataset.filter(lambdax:x["review"]isnotNone)dataset=dataset["train"].train_test_split(0.2,seed=123)importrandomexample=random.choice(dataset["train"])#text=dataset["train"][0]text=example["review"]input_text=text[:10]print(input_text)#greedysearchmodel.eval()withtorch.no_grad():encoding=tokenizer(input_text,return_tensors="pt",padding=False,add_special_tokens=False,return_token_type_ids=False,return_attention_mask=False,)generated_ids=model.generate(**encoding,max_length=100,eos_token_id=0,pad_token_id=0,do_sample=False,num_beams=1,penalty_alpha=0.6,top_k=4)generated_texts=tokenizer.batch_decode(generated_ids,skip_special_tokens=True)print(generated_texts)text_generator=TextGenerationPipeline(model,tokenizer)print(text_generator(input_text,max_length=100,eos_token_id=0,num_beams=1,do_sample=False,pad_token_id=0,penalty_alpha=0.6,top_k=4))generator=pipeline("text-generation",model=model,tokenizer=tokenizer)generation_config={"max_length":100,"eos_token_id":0,"pad_token_id":0,"num_beams":1,"do_sample":False,#"penalty_alpha":0.6,#"top_k":4,}print(generator(input_text,**generation_config))"""["极差！停车收十元钱！穷则思变！房间潮湿得不得了，晚上居然停了一个多小时，上网一会有信号一会没有。电视遥控器不管用，打电话给客房中心，得到的回复居然是坏的房间在维修，不知道"][{"generated_text":"极差！停车收十元钱！穷则思变！房间潮湿得不得了，晚上居然停了一个多小时，上网一会有信号一会没有。电视遥控器不管用，打电话给客房中心，得到的回复居然是坏的房间在维修，不知道"}][{"generated_text":"极差！停车收十元钱！穷则思变！房间设施差就一个招待所，最多三星级！"}]"""

可以对比和贪婪解码看一下结果。

9Multinomial sampling

与总是选择概率最高的标记作为下一个标记的贪婪搜索相反，多项式抽样（也称为祖先抽样）根据模型给出的整个词汇的概率分布来随机选择下一个标记。每个概率不为零的符号都有机会被选中，从而减少了重复的风险。

fromtransformersimportAutoTokenizer,AutoModelForCausalLM,TextGenerationPipeline,pipelinetokenizer=AutoTokenizer.from_pretrained("./gpt2-chinese")model=AutoModelForCausalLM.from_pretrained("./gpt2-chinese")fromdatasetsimportload_datasetdata_file="./ChnSentiCorp_htl_all.csv"dataset=load_dataset("csv",data_files=data_file)dataset=dataset.filter(lambdax:x["review"]isnotNone)dataset=dataset["train"].train_test_split(0.2,seed=123)importrandomexample=random.choice(dataset["train"])#text=dataset["train"][0]text=example["review"]input_text=text[:10]print(input_text)#greedysearchmodel.eval()withtorch.no_grad():encoding=tokenizer(input_text,return_tensors="pt",padding=False,add_special_tokens=False,return_token_type_ids=False,return_attention_mask=False,)generated_ids=model.generate(**encoding,max_length=100,eos_token_id=0,pad_token_id=0,do_sample=True,num_beams=1,)generated_texts=tokenizer.batch_decode(generated_ids,skip_special_tokens=True)print(generated_texts)text_generator=TextGenerationPipeline(model,tokenizer)print(text_generator(input_text,max_length=100,eos_token_id=0,num_beams=1,do_sample=True,pad_token_id=0,))generator=pipeline("text-generation",model=model,tokenizer=tokenizer)generation_config={"max_length":100,"eos_token_id":0,"pad_token_id":0,"num_beams":1,"do_sample":True,}print(generator(input_text,**generation_config))"""["房间：建筑风格比较独特，但不显现空间特色。地理位置不是很好，离九华山比较远，出租车还比较难找。门童服务蛮好，门口迎宾也很热情。房间设施：住9楼标房，朝西，马路上的喧嚣比较"][{"generated_text":"房间：建筑风格比较独特，墙壁由黑色为主，给人一种温馨的感觉，房间内少点什么装饰，总体还算可以。交通：订一辆出租车，一天之内送完了，一天后再打车，车子要走到春熙路，十分方便"}][{"generated_text":"房间：建筑风格比较独特，比较特别的是窗外的自然环境，很漂亮，房间内的设施也不错，有独立的阳台，所谓的山景房看风景也能看到大草坪和远处的大海。服务：因为我和的朋友预定的是山"}]"""

10Beam-search decoding

与贪婪搜索不同的是，集束搜索解码在每个时间步骤中保留几个假设，并最终选择对整个序列具有最高概率的假设。这具有识别高概率序列的优势，这些序列从较低概率的初始标记开始，会被贪婪搜索所忽略。

要启用这种解码策略，需要指定num_beams（又称要跟踪的假说数量）大于1。集束搜索通过在每个时间步保留最可能的 num_beams个词，并从中最终选择出概率最高的序列来降低丢失潜在的高概率序列的风险。以 num_beams=2为例:

img

最终得到：the dog has (0.4+0.9) > the nice woman (0.5+0.4)。

缺点：虽然结果比贪心搜索更流畅，但输出中仍然包含重复。

fromtransformersimportAutoTokenizer,AutoModelForCausalLM,TextGenerationPipeline,pipelinetokenizer=AutoTokenizer.from_pretrained("./gpt2-chinese")model=AutoModelForCausalLM.from_pretrained("./gpt2-chinese")fromdatasetsimportload_datasetdata_file="./ChnSentiCorp_htl_all.csv"dataset=load_dataset("csv",data_files=data_file)dataset=dataset.filter(lambdax:x["review"]isnotNone)dataset=dataset["train"].train_test_split(0.2,seed=123)importrandomexample=random.choice(dataset["train"])#text=dataset["train"][0]text=example["review"]input_text=text[:10]print(input_text)#greedysearchmodel.eval()withtorch.no_grad():encoding=tokenizer(input_text,return_tensors="pt",padding=False,add_special_tokens=False,return_token_type_ids=False,return_attention_mask=False,)generated_ids=model.generate(**encoding,max_length=100,eos_token_id=0,pad_token_id=0,do_sample=False,num_beams=4,)generated_texts=tokenizer.batch_decode(generated_ids,skip_special_tokens=True)print(generated_texts)text_generator=TextGenerationPipeline(model,tokenizer)print(text_generator(input_text,max_length=100,eos_token_id=0,num_beams=4,do_sample=False,pad_token_id=0,))generator=pipeline("text-generation",model=model,tokenizer=tokenizer)generation_config={"max_length":100,"eos_token_id":0,"pad_token_id":0,"num_beams":4,"do_sample":False,}print(generator(input_text,**generation_config))"""酒店的整体服务意识相["酒店的整体服务意识相当好，对于未按照预订时间到达的客户，还能够保留预订，但是沟通技巧不是很好，还有对于未按预订时间到达的客户，还要给携程的工作带来很大麻烦。"][{"generated_text":"酒店的整体服务意识相当好，对于未按照预订时间到达的客户，还能够保留预订，但是沟通技巧不是很好，还有对于未按预订时间到达的客户，还要给携程的工作带来很大麻烦。"}][{"generated_text":"酒店的整体服务意识相当好，对于未按照预订时间到达的客户，还能够保留预订，但是沟通技巧不是很好，还有对于未按预订时间到达的客户，还要给携程的工作带来很大麻烦。"}]"""

11Beam-search multinomial sampling

顾名思义，这种解码策略结合了集束搜索和多指标采样。你需要指定num_beams大于1，并设置do_sample=True来使用这种解码策略。

fromtransformersimportAutoTokenizer,AutoModelForCausalLM,TextGenerationPipeline,pipelinetokenizer=AutoTokenizer.from_pretrained("./gpt2-chinese")model=AutoModelForCausalLM.from_pretrained("./gpt2-chinese")fromdatasetsimportload_datasetdata_file="./ChnSentiCorp_htl_all.csv"dataset=load_dataset("csv",data_files=data_file)dataset=dataset.filter(lambdax:x["review"]isnotNone)dataset=dataset["train"].train_test_split(0.2,seed=123)importrandomexample=random.choice(dataset["train"])#text=dataset["train"][0]text=example["review"]input_text=text[:10]print(input_text)#greedysearchmodel.eval()withtorch.no_grad():encoding=tokenizer(input_text,return_tensors="pt",padding=False,add_special_tokens=False,return_token_type_ids=False,return_attention_mask=False,)generated_ids=model.generate(**encoding,max_length=100,eos_token_id=0,pad_token_id=0,do_sample=True,num_beams=4,)generated_texts=tokenizer.batch_decode(generated_ids,skip_special_tokens=True)print(generated_texts)text_generator=TextGenerationPipeline(model,tokenizer)print(text_generator(input_text,max_length=100,eos_token_id=0,num_beams=4,do_sample=True,pad_token_id=0,))generator=pipeline("text-generation",model=model,tokenizer=tokenizer)generation_config={"max_length":100,"eos_token_id":0,"pad_token_id":0,"num_beams":4,"do_sample":True,}print(generator(input_text,**generation_config))"""["酒店在肇庆闹市区，但交通非常方便，酒店服务员态度非常好，酒店硬件条件还可以，就是房间隔音效果非常不好，隔壁的电视声音、走廊人说话声等清清楚楚，住在一楼还能听到隔壁房间的电"][{"generated_text":"酒店在肇庆闹市区，但交通非常方便，酒店服务态度很好，房间干净整洁，下次去肇庆还会选择该酒店。"}][{"generated_text":"酒店在肇庆闹市区，但交通非常方便，酒店环境不错，房间比较干净，服务员态度也很好，总的来说是一家不错的酒店。"}]"""

12Diverse beam search decoding

多样化集束搜索解码策略是对集束搜索策略的扩展，可以生成更多样化的集束序列供人们选择。要了解它的工作原理，请参考《多样化集束搜索》https://arxiv.org/pdf/1610.02424.pdf：从神经序列模型解码多样化的解决方案。这种方法有两个主要参数：num_beams和num_beam_groups。组的选择是为了确保它们与其他组相比有足够的区别，并在每个组内使用常规集束搜索。

fromtransformersimportAutoTokenizer,AutoModelForCausalLM,TextGenerationPipeline,pipelinetokenizer=AutoTokenizer.from_pretrained("./gpt2-chinese")model=AutoModelForCausalLM.from_pretrained("./gpt2-chinese")fromdatasetsimportload_datasetdata_file="./ChnSentiCorp_htl_all.csv"dataset=load_dataset("csv",data_files=data_file)dataset=dataset.filter(lambdax:x["review"]isnotNone)dataset=dataset["train"].train_test_split(0.2,seed=123)importrandomexample=random.choice(dataset["train"])#text=dataset["train"][0]text=example["review"]input_text=text[:10]print(input_text)#greedysearchmodel.eval()withtorch.no_grad():encoding=tokenizer(input_text,return_tensors="pt",padding=False,add_special_tokens=False,return_token_type_ids=False,return_attention_mask=False,)generated_ids=model.generate(**encoding,max_length=100,eos_token_id=0,pad_token_id=0,do_sample=False,num_beams=4,num_beam_groups=4,)generated_texts=tokenizer.batch_decode(generated_ids,skip_special_tokens=True)print(generated_texts)text_generator=TextGenerationPipeline(model,tokenizer)print(text_generator(input_text,max_length=100,eos_token_id=0,num_beams=4,do_sample=False,pad_token_id=0,num_beam_groups=4,))generator=pipeline("text-generation",model=model,tokenizer=tokenizer)generation_config={"max_length":100,"eos_token_id":0,"pad_token_id":0,"num_beams":4,"do_sample":False,"num_beam_groups":4,}print(generator(input_text,**generation_config))"""住过如此之多的如家酒["住过如此之多的如家酒店，这一家是最差的，服务差，房间老旧，而且价格还不低。下次不会再住了。"][{"generated_text":"住过如此之多的如家酒店，这一家是最差的，服务差，房间老旧，而且价格还不低。下次不会再住了。"}][{"generated_text":"住过如此之多的如家酒店，这一家是最差的，服务差，房间老旧，而且价格还不低。下次不会再住了。"}]"""

Part5补充13常用的一些参数：

no_repeat_ngram_size：限制任意 N-gram不会出现两次。但是， n-gram惩罚使用时必须谨慎，如一篇关于纽约这个城市的文章就不应使用 2-gram惩罚，否则，城市名称在整个文本中将只出现一次！

num_return_sequences ：选择返回句子的数量，记得确保 num_return_sequences <= num_beams

top_p

top_k

temperature

repetition_penalty

14采样

img

采样意味着根据当前条件概率分布随机选择输出词，使用采样方法时文本生成本身不再是确定性的。对单词序列进行采样时的大问题: 模型通常会产生不连贯的乱码。可以设置top_k=0关闭采样。缓解这一问题的一个技巧是通过降低所谓的 softmax的“温度”使分布更陡峭。而降低“温度”，本质上是增加高概率单词的似然并降低低概率单词的似然。

将温度应用到于我们的例子中后，结果如下图所示。

img

时刻单词的条件分布变得更加陡峭，几乎没有机会选择单词 “car” 了。虽然温度可以使分布的随机性降低，但极限条件下，当“温度”设置为 0 时，温度缩放采样就退化成贪心解码了，因此会遇到与贪心解码相同的问题。

15Top-K采样

在 Top-K采样中，概率最大的 K个词会被选出，然后这 K个词的概率会被重新归一化，最后就在这重新被归一化概率后的 K个词中采样。 GPT2 采用了这种采样方案，这也是它在故事生成这样的任务上取得成功的原因之一。

img

假设：top_k=6

输入：the， the的下一个词从概率最大的top6里面采样到car，the car的下一个词从概率最大的top6里面采样。可以看到后面一些奇怪的词就可以被忽略掉。

16Top-P采样

在 Top-p中，采样不只是在最有可能的 K个单词中进行，而是在累积概率超过概率 p的最小单词集中进行。然后在这组词中重新分配概率质量。这样，词集的大小 (又名集合中的词数) 可以根据下一个词的概率分布动态增加和减少。好吧，说的很啰嗦，一图胜千言。

img

假设 p=0.92 ， Top-p采样对单词概率进行降序排列并累加，然后选择概率和首次超过 p=0.92 的单词集作为采样池，可以看出，在单词比较不可预测时，它保留了更多的候选词。而当单词似乎更容易预测时，只保留了几个候选词。

一般而言，结合top_k和top_p会有不错的效果。

Part6参考

Text generation strategies (huggingface.co)
transformers/configuration_utils.py at v4.28.1 · huggingface/transformers · GitHub
transformers/text_generation.py at v4.28.1 · huggingface/transformers · GitHub
基于 transformers 的 generate() 方法实现多样化文本生成：参数含义和算法原理解读_transformers generate_木尧大兄弟的博客-CSDN博客
https://zhuanlan.zhihu.com/p/624636122
文中部分文字和图摘自上述文章。

标签：

LLM（大语言模型）解码时是怎么生成文本的？

推荐阅读

河南又一4A级旅游景区揭牌！仰韶仙门山正式开园迎宾！<

荣获“河南省省长质量奖”，仰韶交出“高质量”答卷！<

奇迹！绝杀！女足亚洲杯逆转夺冠！<

中国政府与阿根廷共和国政府签署共建“一带一路”谅解备忘录<

中华人民共和国和阿根廷共和国关于深化中阿全面战略伙伴关系的联合声明（全文）<

最近更新

LLM（大语言模型）解码时是怎么生成文本的？

滚动：就市论市丨“光 锂”等赛道股全线重挫 “锂”亏还能追“光”吗？

澄海玩具_关于澄海玩具介绍

Steam中国玩家数第二！PS港服、国服玩家仅3.6% 前沿资讯

Live11在RAM中运行的Windows11LiveDisk可供下载 当前最新

富士胶片Instax Mini 12在推出

每日动态!山东舰怒杀回马枪，台方发布其最新画面，距台岛最南端约120海里

4月25日利华益异辛醇价格暂稳

苹果手机丢失怎么定位找回

徐小明：跌速快风险大

热门：中山公用股东户数增加397户，户均持股22.03万元

13度穿什么衣服_13度穿什么衣服合适|环球精选

财产保全的执行时间是多久

点外卖竟然是警察来送餐？警察：外卖员被我抓了！ 每日视讯

新北当铺被扫射51枪案再有8人被逮捕，幕后主使已潜逃吉隆坡

世界快讯:杜润旺遗憾不是尽头而是开始 巴特勒56分字母哥26+10+12热火逆转雄鹿(今日/头条)

麦捷科技:公司BAW滤波器目前可用在4G/5G的发射端模组方案|全球微动态

全球热头条丨特斯拉面向其他部分非特斯拉新能源车辆试点开放充电网络

【环球新要闻】2023年保荐代表人考试《投资银行业务》章节练习题精选0425_保荐代表人考试

中旗新材:公司可转债于2023年4月25日上市 环球新要闻

全球热门:2019年至今水费未交，补交了水费3000元后，又说偷水，部分水没有过表

多地将用数字人民币发工资 许多网友好奇是什么体验？|每日热点

环球视点！一季度国内旅游人次收入同比大幅增长

特一药业（002728）：该股换手率大于8%（04-25）_今日播报

保护知识产权特别报道|说说保护知识产权的那些事儿

Snapchat 将 My AI 开放给所有用户免费使用 却招致大量一星差评-全球快资讯

朔城区四中第五届校园读书周开幕|每日精选

巨婴何时能长大？家长雨天抱儿子被喷，网友：是妈妈的好“大”儿

23年中级会计报名入口：全国会计资格评价网-天天百事通

世界观速讯丨银行股异动拉升 中信银行涨超5%

热点

公共

2022年春节全国国内旅游出游2.51亿人次 旅游收入2891.98亿元

海报丨祝愿奥运健儿像虎一样充满力量、创造佳绩

海报丨中国人民再次展现出积极向上的精神和力量

【每日一习话】更好构筑中国精神、中国价值、中国力量

第一观察·瞬间｜更团结！这张冬奥大合影弥足珍贵

滚动

滚动：就市论市丨“光锂”等赛道股全线重挫 “锂”亏还能追“光”吗？

Live11在RAM中运行的Windows11LiveDisk可供下载当前最新

点外卖竟然是警察来送餐？警察：外卖员被我抓了！每日视讯

世界快讯:杜润旺遗憾不是尽头而是开始巴特勒56分字母哥26+10+12热火逆转雄鹿(今日/头条)

中旗新材:公司可转债于2023年4月25日上市环球新要闻

多地将用数字人民币发工资许多网友好奇是什么体验？|每日热点

Snapchat 将 My AI 开放给所有用户免费使用却招致大量一星差评-全球快资讯

世界观速讯丨银行股异动拉升中信银行涨超5%

2022年春节全国国内旅游出游2.51亿人次旅游收入2891.98亿元