Design & Branding

可爱的中文分词科普信息图

by 程序员Left

可爱的中文分词科普信息图
一张可爱的横版手绘剪贴簿风格中文科普信息图,背景为暖米色纸张,带有圆角边框、马卡龙色涂鸦、胶带贴纸、小星星,充满课堂笔记本的氛围。顶部中央有醒目的手写体中文标题:“什么是分词?”,其中后半部分为珊瑚粉色,其余部分为深棕色。左上方有一只 Q 版柴犬老师角色,身穿淡黄色衬衫,系着蓝色领带,正面向前方,手持教鞭向上,旁边的对话气泡写着:“今天来学习分词 (Tokenization)!”。右上方有一个可爱的蓝色方形 Token 吉祥物,上面标有“TOKEN”,正微笑着,脸颊红润,长着细小的四肢,手里拿着放大镜;旁边有一个对话气泡写着:“我是 Token!被切得越合理,模型越聪明!”。在右边缘附近,添加一张悬挂的小记事卡,上面写着“知识点 收藏夹”,并配有一个爱心图标。在标题下方,放置一个圆角虚线文本框,包含定义:“分词是将人类可读的文本切分成 Token 的过程。”,其中“Token”一词用蓝色高亮显示。下方添加一行说明文字:“下面以 “程序员Left” 和 “人工智能” 为例,看看不同的分词方式:”,其中“程序员Left”用浅蓝色高亮,“人工智能”用粉色高亮。下半部分包含 4 个从左到右排列的圆角马卡龙色面板,每个面板都有编号徽章和标题。面板 1 为薄荷绿,标题为“1 词级分词”,副标题为“按完整语义划分文本”,包含 3 个 Token 气泡:“程序员”、“Left”、“人工智能”。在此面板底部,展示柴犬老师竖起大拇指,对话气泡写着:“语义完整,容易理解!”。面板 2 为淡黄色,标题为“2 字符级分词”,副标题为“逐字切分文本”,包含 9 个排列成行的圆形 Token 气泡:“程”、“序”、“员”、“L”、“e”、“f”、“t”、“人”、“工”、“智”、“能”——以紧凑的网格形式呈现示例中的单个字符。底部展示蓝色 Token 吉祥物手持铅笔,对话气泡写着:“粒度最细,但序列会很长~”。面板 3 为淡粉色,标题为“3 子词分词”,副标题为“按词根以及前后缀划分”,包含 5 个 Token 气泡:“程序”、“员”、“Left”、“人工”、“智能”。底部展示柴犬老师正在思考,一只爪子放在嘴边,头顶上方有一个问号,对话气泡写着:“折中方案,效果 often 很好!”。面板 4 为淡蓝色,标题为“4 字节级分词”,副标题为“将字词转为字节编码,根据转换后的内容进行组合和划分”,展示 14 个圆形小代码气泡:“E7”、“A8”、“8B”、“...”、“66”、“74”、“E4”、“BA”、“BA”、“E8”、“83”、“BD”、“...”像编码字节一样排列成多行。底部再次展示微笑的蓝色 Token 吉祥物,对话气泡写着:“适合处理任意文本!”,旁边有一个微小的灯泡涂鸦。在最底部,放置一个圆角横幅备注,写着:“不同分词方式各有优势,实际应用中会根据任务和数据选择合适的方案哦!”。四个面板使用柔和的马卡龙绿、黄、粉、蓝色,搭配深棕色手写字体、细腻的阴影、圆润的形状和可爱的表情。整体构图平衡、简洁且友好,如同精美的社交媒体科普海报。
可爱的中文分词科普信息图 | NeXra AI