Hero Circle Shape
Hero Moon Shape
Hero Right Shape
比特派最新下载地址|token中文意思

比特派最新下载地址|token中文意思

  • 作者: 比特派最新下载地址
  • 2024-03-14 02:30:56

在机器学习领域“token”到底是什么意思? - 知乎

在机器学习领域“token”到底是什么意思? - 知乎首发于AIGC 相关知识切换模式写文章登录/注册在机器学习领域“token”到底是什么意思?7号床​信息技术行业 CEOToken 词元在机器学习领域、NLP领域、文生图等领域,机器读懂词汇和语句是通过 Token 来进行的。尽管在许多领域中都有“Token”这个字符被使用,在不同领域被翻译成代币、象征、标志、表示、信物、标记等等意思。但是在人工智能 AIGC 领域,通常是指“词元”,它是语言类模型中用数字来表示单词的最小语义单位。在提示词文本发送给神经网络之前,Tokenizer 将组合词、句子、段落、文章这类型的长文本分解为最小单位的 Token 词元,然后再通过 Embedding 的方式把 token 转化为向量表示的数据结构,最后输入给神经网络。比如图中这句话“This is a input text.” 首先被 Tokenizer 转化成最小词元,其中[CLS][SEP]为一句话的起始与结束符号,然后再通过 Embedding 的方式转化为向量。(CLS:classification 告知系统这是句子级别的分类的开始、SEP:separator 告知系统结束本句或分割下一句)一句话“This is a input text.” 首先被 Tokenizer 转化成最小词元,然后再通过 Embedding 的方式转化为向量Token 是最小单位的“词元”,或者说单词的“片段”,就是不可再拆分的最小语义单位,比如 “waterfall”,会被拆成2个 token:water、fall。另外,标点符号也会被分解为 token,因为标点符号也影响了对全文的语义理解。比如“I don‘t know.”可以分解为5个Token,他们是:“ I ”、“don”、“ ‘t” 、“know”、“.”。在 Stable Diffusion 中默认的提示词输入最大量为不超过75个,这里的75指的就是Token 数,而不是75个单词。所以,经常会发生你输入的单词数字没有到达75个时,Token 就已经超过75个了。因为标点符号、复合词等等都会被解读为 Token(当然,现在无需担心在 Stable Diffusion WebUI 的提示词输入框中输入超过75个 Token 的问题,因为它可以通过分段输入的方式来进行了,但是75个 token 这一个概念大家应该明白)。Stable Diffusion WebUI 的提示词输入框初步限定为 75 个 token一大堆提示词,或一句话最终都被拆解为哪些 token 呢?大家可以通过 AUTOMATIC1111 提供的 Stable Diffusion WebUI 扩展插件 tokenizer 来查看,建议安装。(https://github.com/AUTOMATIC1111/stable-diffusion-webui-tokenizer),这个扩展插件可以直接在 Extensions 标签下搜索安装。我将一直本着让非专业人士也能看懂的讲解,尽量以比喻和通俗易懂的图表等方式来描述技术术语的原则。这同样是本着 AI 将人类知识壁垒大幅度降低门槛好让更多的普通人都能够涉足专业领域的宗旨,比如 Stable Diffusion 模型让一个从没有学过 PS 却有着超强艺术细胞和创造力的广场舞大妈都能绘出顶级的 CG 作品,而他们却因为年轻时的某些原因错过了走入专业领域的机会,或许是出身、或许是经济条件、或许是其他的命运所致。查询资料、分析、组织、撰写…工作不易,请多多支持我。转载请注明出处,将万分感谢。编辑于 2023-11-23 11:14・IP 属地北京tokenNLP​赞同 48​​5 条评论​分享​喜欢​收藏​申请转载​文章被以下专栏收录AIGC 相关知识用普通人能看懂的文字来解读AIGC领域的相关技术Stable DiffusionAIGC之Stable Diffus

在中文 NLP 等论文中,应该如何翻译 token 这个词? - 知乎

在中文 NLP 等论文中,应该如何翻译 token 这个词? - 知乎首页知乎知学堂发现等你来答​切换模式登录/注册机器学习自然语言处理在中文 NLP 等论文中,应该如何翻译 token 这个词?想问一下,在中文 NLP 等论文中,应该如何翻译 token 这个词? 现在有几种翻译方式:词例、词块。想问下有没有什么更好的翻译方法。显示全部 ​关注者187被浏览399,262关注问题​写回答​邀请回答​好问题 22​3 条评论​分享​38 个回答默认排序邱锡鹏​复旦大学 计算机科学技术学院教授​ 关注token一直没有很好的翻译,经常翻译为“标记”“词”“令牌”等,但都是在特殊语境中的翻译。上述翻译都是大众化的词,脱离了上下文,这些翻译都很难准确的表示token的含义。因此个人觉得翻译为一个相对比较生僻的词,更能体现其特殊含义。建议作如下翻译:token 词元 tokenization 词元化 tokenizer 词元分析器但在具体上下文中可以有特定的翻译。=====更新:看了下面的评论,感觉翻译成“词符”也挺好的。在认证相关的上下文时可以翻译为“令符”。编辑于 2021-06-22 18:28​赞同 398​​56 条评论​分享​收藏​喜欢收起​知乎用户​​机器学习等 5 个话题下的优秀答主在语言学特定语境下,一般会将 word type 和 word token 做比对,这时候,翻译为 词形 和 词例 比较合适。word type指的是词表中互不相同的单词形态,而word token则是指文本中具体出现的单词。很多NLP论文中说token的时候,大致是指的文本序列中具体出现的那些词,即word token。发布于 2022-01-15 13:02​赞同 103​​4 条评论​分享​收藏​喜欢

TOKEN中文(简体)翻译:剑桥词典

TOKEN中文(简体)翻译:剑桥词典

词典

翻译

语法

同义词词典

+Plus

剑桥词典+Plus

Shop

剑桥词典+Plus

我的主页

+Plus 帮助

退出

剑桥词典+Plus

我的主页

+Plus 帮助

退出

登录

/

注册

中文 (简体)

查找

查找

英语-中文(简体)

token 在英语-中文(简体)词典中的翻译

tokennoun [ C ] uk

Your browser doesn't support HTML5 audio

/ˈtəʊ.kən/ us

Your browser doesn't support HTML5 audio

/ˈtoʊ.kən/

token noun [C]

(SYMBOL)

Add to word list

Add to word list

C1 something that you do, or a thing that you give someone, that expresses your feelings or intentions, although it might have little practical effect

标志;表示;象征

As a token of our gratitude for all that you have done, we would like you to accept this small gift.

为了表示我们对你们所做的一切的感谢,希望你们接受我们这份小小的礼物。

It doesn't have to be a big present - it's just a token.

礼物不必大——只是为了表示一下。

token noun [C]

(PAPER WORTH MONEY)

UK (US gift certificate) a piece of paper with a particular amount of money printed on it that can be exchanged in a shop for goods of that value

礼券,代金券

a £20 book/gift/record token

一张价值20英镑的书券/礼券/唱片券

token noun [C]

(DISC)

C1 a round metal or plastic disc that is used instead of money in some machines

(某些机器中用以代替纸币的)代币,专用辅币

tokenadjective [ before noun ] uk

Your browser doesn't support HTML5 audio

/ˈtəʊ.kən/ us

Your browser doesn't support HTML5 audio

/ˈtoʊ.kən/

Token actions are done to show that you are doing something, even if the results are limited in their effect.

有标志性的;有象征意义的

The troops in front of us either surrendered or offered only token (= not much) resistance.

我们前面的军队要么投降,要么只作了象征性的抵抗。

They were the only country to argue for even token recognition of the Baltic states' independence.

他们是唯一为波罗的海沿岸国家争取哪怕是象征性承认的国家。

disapproving used to refer to something that is done to prevent other people complaining, although it is not sincerely meant and has no real effect

装点门面的;装样子的

The truth is that they appoint no more than a token number of women to managerial jobs.

事实上他们只装装样子,任命了一些女性担任管理工作。

(token在剑桥英语-中文(简体)词典的翻译 © Cambridge University Press)

C1,C1

token的翻译

中文(繁体)

標誌, 表示, 象徵…

查看更多内容

西班牙语

señal, vale, ficha…

查看更多内容

葡萄牙语

símbolo, cupom, ficha…

查看更多内容

更多语言

in Marathi

土耳其语

法语

日语

in Dutch

in Tamil

in Hindi

in Gujarati

丹麦语

in Swedish

马来语

德语

挪威语

in Urdu

in Ukrainian

俄语

in Telugu

in Bengali

捷克语

印尼语

泰语

越南语

波兰语

प्रतीक, तुमच्या भावना किंवा हेतू व्यक्त करण्यासाठी तुम्ही जे काही करता किंवा जी गोष्ट तुम्ही एखाद्याला देता, त्याचा थोडासा व्यावहारिक परिणामही होऊ शकतो.…

查看更多内容

hatıra, yadigâr, işaret…

查看更多内容

marque [feminine], jeton [masculine], bon-cadeau [masculine]…

查看更多内容

印(しるし), メダル, トークン…

查看更多内容

aandenken, bon…

查看更多内容

நீங்கள் செய்யும் ஏதாவது, அல்லது நீங்கள் ஒருவருக்கு கொடுக்கும் ஒரு விஷயம், உங்கள் உணர்வுகள் அல்லது நோக்கங்களை வெளிப்படுத்துகிறது…

查看更多内容

टोकन, निशानी, प्रतीक…

查看更多内容

પ્રતીક, સ્મરણચિન્હ, ટોકન…

查看更多内容

tegn, værdikupon…

查看更多内容

tecken, bevis, presentkort…

查看更多内容

tanda, token…

查看更多内容

das Zeichen, der Gutschein…

查看更多内容

tegn [neuter], sjetong [masculine], gavekort [neuter]…

查看更多内容

علامت, یادگار, نشان…

查看更多内容

знак, жетон…

查看更多内容

знак, символ (благодарности и т. д.), жетон…

查看更多内容

గుర్తు / ఆచరణాత్మకంగా తక్కువ ప్రభావాన్ని చూపినప్పటికీ మీరు చేసేది లేదా మీరు ఎవరికైనా ఇచ్చే వస్తువు మీ భావాలను లేదా ఉద్దేశాలను వ్యక్తపరుస్తుంది, కొన్ని యంత్రాలలో డబ్బుకు బదులుగా ఉపయోగించే ఒక గుండ్రని లోహంపు లేదా ప్లాస్టిక్ డిస్క్…

查看更多内容

স্মারক বস্তু, একটি বৃত্তাকার ধাতু বা প্লাস্টিকের ডিস্ক যা কিছু মেশিনে অর্থের পরিবর্তে ব্যবহৃত হয়…

查看更多内容

symbol, znak, žeton…

查看更多内容

tanda, kupon…

查看更多内容

สิ่งที่ใช้เป็นสัญลักษณ์, เหรียญพลาสติกหรือโลหะที่ใช้แทนเงิน…

查看更多内容

dấu hiệu, nhãn khi giá hàng hóa…

查看更多内容

dowód, znak, żeton…

查看更多内容

需要一个翻译器吗?

获得快速、免费的翻译!

翻译器工具

token的发音是什么?

在英语词典中查看 token 的释义

浏览

toiletries

toiletry bag

toilsome

toke

token

tokenism

tokenistic

tokenization

tokenize

token更多的中文(简体)翻译

全部

book token

gift token

non-fungible token

nonfungible token, at non-fungible token

non fungible token, at non-fungible token

by the same token idiom

查看全部意思»

惯用语

by the same token idiom

“每日一词”

white chocolate

a sweet, cream-coloured food made from cocoa butter, sugar, and milk, that is usually sold in a block

关于这个

博客

Renowned and celebrated (Words meaning ‘famous’)

March 13, 2024

查看更多

新词

inverse vaccine

March 11, 2024

查看更多

已添加至 list

回到页面顶端

内容

英语-中文(简体)翻译

©剑桥大学出版社与评估2024

学习

学习

学习

新词

帮助

纸质书出版

Word of the Year 2021

Word of the Year 2022

Word of the Year 2023

开发

开发

开发

词典API

双击查看

搜索Widgets

执照数据

关于

关于

关于

无障碍阅读

剑桥英语教学

剑桥大学出版社与评估

授权管理

Cookies与隐私保护

语料库

使用条款

京ICP备14002226号-2

©剑桥大学出版社与评估2024

剑桥词典+Plus

我的主页

+Plus 帮助

退出

词典

定义

清晰解释自然的书面和口头英语

英语

学习词典

基础英式英语

基础美式英语

翻译

点击箭头改变翻译方向。

双语词典

英语-中文(简体)

Chinese (Simplified)–English

英语-中文(繁体)

Chinese (Traditional)–English

英语-荷兰语

荷兰语-英语

英语-法语

法语-英语

英语-德语

德语-英语

英语-印尼语

印尼语-英语

英语-意大利语

意大利语-英语

英语-日语

日语-英语

英语-挪威语

挪威语-英语

英语-波兰语

波兰语-英语

英语-葡萄牙语

葡萄牙语-英语

英语-西班牙语

西班牙语-英语

English–Swedish

Swedish–English

半双语词典

英语-阿拉伯语

英语-孟加拉语

英语-加泰罗尼亚语

英语-捷克语

英语-丹麦语

English–Gujarati

英语-印地语

英语-韩语

英语-马来语

英语-马拉地语

英语-俄语

English–Tamil

English–Telugu

英语-泰语

英语-土耳其语

英语-乌克兰语

English–Urdu

英语-越南语

翻译

语法

同义词词典

Pronunciation

剑桥词典+Plus

Shop

剑桥词典+Plus

我的主页

+Plus 帮助

退出

登录 /

注册

中文 (简体)  

Change

English (UK)

English (US)

Español

Русский

Português

Deutsch

Français

Italiano

中文 (简体)

正體中文 (繁體)

Polski

한국어

Türkçe

日本語

Tiếng Việt

हिंदी

தமிழ்

తెలుగు

关注我们

选择一本词典

最近的词和建议

定义

清晰解释自然的书面和口头英语

英语

学习词典

基础英式英语

基础美式英语

语法与同义词词典

对自然书面和口头英语用法的解释

英语语法

同义词词典

Pronunciation

British and American pronunciations with audio

English Pronunciation

翻译

点击箭头改变翻译方向。

双语词典

英语-中文(简体)

Chinese (Simplified)–English

英语-中文(繁体)

Chinese (Traditional)–English

英语-荷兰语

荷兰语-英语

英语-法语

法语-英语

英语-德语

德语-英语

英语-印尼语

印尼语-英语

英语-意大利语

意大利语-英语

英语-日语

日语-英语

英语-挪威语

挪威语-英语

英语-波兰语

波兰语-英语

英语-葡萄牙语

葡萄牙语-英语

英语-西班牙语

西班牙语-英语

English–Swedish

Swedish–English

半双语词典

英语-阿拉伯语

英语-孟加拉语

英语-加泰罗尼亚语

英语-捷克语

英语-丹麦语

English–Gujarati

英语-印地语

英语-韩语

英语-马来语

英语-马拉地语

英语-俄语

English–Tamil

English–Telugu

英语-泰语

英语-土耳其语

英语-乌克兰语

English–Urdu

英语-越南语

词典+Plus

词汇表

选择语言

中文 (简体)  

English (UK)

English (US)

Español

Русский

Português

Deutsch

Français

Italiano

正體中文 (繁體)

Polski

한국어

Türkçe

日本語

Tiếng Việt

हिंदी

தமிழ்

తెలుగు

内容

英语-中文(简体) 

 

Noun 

token (SYMBOL)

token (PAPER WORTH MONEY)

token (DISC)

Adjective

Translations

语法

所有翻译

我的词汇表

把token添加到下面的一个词汇表中,或者创建一个新词汇表。

更多词汇表

前往词汇表

对该例句有想法吗?

例句中的单词与输入词条不匹配。

该例句含有令人反感的内容。

取消

提交

例句中的单词与输入词条不匹配。

该例句含有令人反感的内容。

取消

提交

token是什么意思_token的翻译_音标_读音_用法_例句_爱词霸在线词典

n是什么意思_token的翻译_音标_读音_用法_例句_爱词霸在线词典首页翻译背单词写作校对词霸下载用户反馈专栏平台登录token是什么意思_token用英语怎么说_token的翻译_token翻译成_token的中文意思_token怎么读,token的读音,token的用法,token的例句翻译人工翻译试试人工翻译翻译全文简明柯林斯牛津tokenCET4/CET6/考研/IELTS英 [ˈtəʊkən]美 [ˈtoʊkən]释义n.代币; 象征; 记号adj.作为对某事的保证的; 象征性的; 作为标志的点击 人工翻译,了解更多 人工释义词态变化复数: tokens;实用场景例句全部代币象征记号象征性的a parking token停车专用辅币牛津词典a £20 book/record/gift token价值20英镑的书券 / 唱片券 / 礼物券牛津词典Collect six tokens for a free T-shirt.收集到六张礼券可以换一件T恤衫。牛津词典Please accept this small gift as a token of our gratitude.区区薄礼,以表谢忱,请笑纳。牛津词典The penalty for failure will be high. But, by the same token, the rewards for success will be great.失败就要付出沉重的代价,同样,成功就会获得很大的回报。牛津词典The government has only made a token gesture towards helping the unemployed.政府只不过是做做样子表示了一下对失业者的帮助。牛津词典There was one token woman on the committee (= a woman who is included in the group to make it look as if women are always included, although that is not true) .委员会中有一位装点门面的女性委员。牛津词典The government agreed to send a small token force to the area.政府同意派遣一小支象征性的部队到那一地区。牛津词典a one-day token strike一天的象征性罢工牛津词典We charge only a token fee for use of the facilities.我们对使用这些设施只收取象征性的费用。牛津词典The announcement was welcomed as a step in the right direction, but was widely seen as a token gesture...该公告被认为是向正确方向迈进的一步,因而受到欢迎,但也被普遍看作是一种象征性的姿态。柯林斯高阶英语词典Miners have staged a two-hour token stoppage to demand better pay and conditions…矿工们举行了两小时的象征性停工,以要求提高工资和改善工作条件。柯林斯高阶英语词典…£10 book tokens…价值 10 英镑的购书券柯林斯高阶英语词典Here is the fifth token towards our offer. You need six of these tokens.这是第 5 张礼券,你需要 6 张才能享受我们的特价。柯林斯高阶英语词典Some of the older telephones still only accept tokens.一些较老式的电话机仍然只收代币。柯林斯高阶英语词典He kept sending gifts and assured her that they were merely small tokens of his appreciation…他不断送她礼物,并向她保证说这些只是为了略表谢意。柯林斯高阶英语词典As a token of goodwill, I'm going to write another letter.为了证明我的善意,我打算再写一封信。柯林斯高阶英语词典If you give up exercise, your muscles shrink and fat increases. By the same token, if you expend more energy you will lose fat.停止锻炼会使肌肉萎缩、脂肪增加。同样,如果花更多的精力锻炼,就会减掉脂肪。柯林斯高阶英语词典I know thee, Hester, for I behold the token.我可认识你, 海丝特, 因为我看见了那个标记.期刊摘选Black is a token of mourning.黑色是居丧的象征.《现代英汉综合大词典》You slip the token into the slot at the turnstile.你在入口处那儿把辅币塞进投币孔.期刊摘选The timid but tolerant toll man offered some timely tips as a token of tribute.那个怯懦但宽容的收费员提供了一些很及时的消息以表示他的敬意.期刊摘选Further Content Taxonomy Fields have Views and Token support and can be used with Rules.内容分类字段支持Views和Token,也可以与Rules结合使用.期刊摘选Miss Li gave her sachet to Mr. Zheng as a token of love.李小姐把随身配带的香囊送给郑公子当定情信物.期刊摘选Because it is not easily forged, commonly used for making trademarks or portfolio, card security token.由于它不易伪造, 被广泛的用于制作商标或有价证券 、 身份证的防伪标记.期刊摘选Cantou all women are Hongfen skull token , since Dunru Buddhism , Fahao extinction Masters.参透了所有女人都是红粉骷髅的道理, 自此遁入空门, 法号灭绝大师.期刊摘选By this token, the negligible management for employee became very important any more.因此, 曾经不起眼的员工管理变得越发具有战略意义.期刊摘选收起实用场景例句真题例句全部四级Many of its 800 stores are likely to close following the company’s decision to call in administrators after an attempt to sell the business for a token £1 failed.出自-2015年12月听力原文Many of its 800 stores are likely to close following the company's decision to call in administrators after an attempt to sell the business for a token £1 failed.2015年12月四级真题(第一套)听力 Section A收起真题例句英英释义Noun1. an individual instance of a type of symbol;"the word`error' contains three tokens of `r'"2. a metal or plastic disk that can be used (as a substitute for coins) in slot machines3. something of sentimental valueAdjective1. insignificantly small; a matter of form only (`tokenish' is informal);"the fee was nominal""a token gesture of resistance""a tokenish gesture"收起英英释义词组搭配by the same (或 that 或 this) tokenin the same way or for the same reason同样地,由于同样原因there was little evidence to substantiate the gossip and, by the same token, there was little to disprove it.没有什么证据来证实这则小道消息,同样也没有证据来反驳它。by the same tokenIn like manner; similarly.以相同的方式;相似地in token ofAs an indication of作为…的标志a ring given in token of love.一只象征爱情而给的戒指收起词组搭配同义词辨析symbol, badge, sign, signal, mark, token, attribute, emblem这些名词均含"标志,象征,符号"之意。symbol: 指作象征或表达某种深邃意蕴的特殊事物。badge: 一般指金属证章或写有姓名的带状标志物。sign: 普通用词,指人们公认事物的记号,也可指某种情况的征兆。 signal: 指为某一目的而有意发出的信号。mark: 普通用词,含义广泛。既可指方便于辨认而有意做的标记,又可指自然形成的标记或有别于他事物的特征。token: 语气庄重,指礼品、纪念物等作为表示友谊、爱情等的象征或标志。 attribute: 指人或物及其地位、属性的象征。emblem: 指选定象征一个国家、民族或家庭等的图案或实物。同义词n.凭证couponcheckcertificatevoucherticketn.标记;证据,证物symptomevidenceproofcluesignmarkindicationn.纪念品souvenirmementokeepsakeremembrancerelictrophy其他释义couponsignevidencecluememoryremembrancevoucheremblemticketsymptommarkcertificatemementosignaltrophycheckrelicsouvenirproofkeepsakefavorindication行业词典金融代币   辅币   凭证   释义词态变化实用场景例句真题例句英英释义词组搭配同义词辨析同义词行

TOKEN中文(繁體)翻譯:劍橋詞典

TOKEN中文(繁體)翻譯:劍橋詞典

詞典

翻譯

文法

同義詞詞典

+Plus

劍橋詞典+Plus

Shop

劍橋詞典+Plus

我的主頁

+Plus 幫助

退出

劍橋詞典+Plus

我的主頁

+Plus 幫助

退出

登錄

/

註冊

正體中文 (繁體)

查找

查找

英語-中文(繁體)

token 在英語-中文(繁體)詞典中的翻譯

tokennoun [ C ] uk

Your browser doesn't support HTML5 audio

/ˈtəʊ.kən/ us

Your browser doesn't support HTML5 audio

/ˈtoʊ.kən/

token noun [C]

(SYMBOL)

Add to word list

Add to word list

C1 something that you do, or a thing that you give someone, that expresses your feelings or intentions, although it might have little practical effect

標誌;表示;象徵

As a token of our gratitude for all that you have done, we would like you to accept this small gift.

為了表示我們對你們所做的一切的感謝,希望你們接受我們這份小小的禮物。

It doesn't have to be a big present - it's just a token.

禮物不必大——只是為了表示一下。

token noun [C]

(PAPER WORTH MONEY)

UK (US gift certificate) a piece of paper with a particular amount of money printed on it that can be exchanged in a shop for goods of that value

禮券,代金券

a £20 book/gift/record token

一張價值20英鎊的書券/禮券/唱片券

token noun [C]

(DISC)

C1 a round metal or plastic disc that is used instead of money in some machines

(某些機器中用以代替紙幣的)代幣,專用輔幣

tokenadjective [ before noun ] uk

Your browser doesn't support HTML5 audio

/ˈtəʊ.kən/ us

Your browser doesn't support HTML5 audio

/ˈtoʊ.kən/

Token actions are done to show that you are doing something, even if the results are limited in their effect.

有標誌性的;有象徵意義的

The troops in front of us either surrendered or offered only token (= not much) resistance.

我們前面的軍隊要麼投降,要麼只作了象徵性的抵抗。

They were the only country to argue for even token recognition of the Baltic states' independence.

他們是唯一為波羅的海沿岸國家爭取哪怕是象徵性承認的國家。

disapproving used to refer to something that is done to prevent other people complaining, although it is not sincerely meant and has no real effect

裝點門面的;裝樣子的

The truth is that they appoint no more than a token number of women to managerial jobs.

事實上他們只裝裝樣子,任命了一些女性擔任管理工作。

(token在劍橋英語-中文(繁體)詞典的翻譯 © Cambridge University Press)

C1,C1

token的翻譯

中文(簡體)

标志, 表示, 象征…

查看更多內容

西班牙語

señal, vale, ficha…

查看更多內容

葡萄牙語

símbolo, cupom, ficha…

查看更多內容

更多語言

in Marathi

土耳其語

法語

日語

in Dutch

in Tamil

in Hindi

in Gujarati

丹麥語

in Swedish

馬來西亞語

德語

挪威語

in Urdu

in Ukrainian

俄語

in Telugu

in Bengali

捷克語

印尼語

泰語

越南語

波蘭語

प्रतीक, तुमच्या भावना किंवा हेतू व्यक्त करण्यासाठी तुम्ही जे काही करता किंवा जी गोष्ट तुम्ही एखाद्याला देता, त्याचा थोडासा व्यावहारिक परिणामही होऊ शकतो.…

查看更多內容

hatıra, yadigâr, işaret…

查看更多內容

marque [feminine], jeton [masculine], bon-cadeau [masculine]…

查看更多內容

印(しるし), メダル, トークン…

查看更多內容

aandenken, bon…

查看更多內容

நீங்கள் செய்யும் ஏதாவது, அல்லது நீங்கள் ஒருவருக்கு கொடுக்கும் ஒரு விஷயம், உங்கள் உணர்வுகள் அல்லது நோக்கங்களை வெளிப்படுத்துகிறது…

查看更多內容

टोकन, निशानी, प्रतीक…

查看更多內容

પ્રતીક, સ્મરણચિન્હ, ટોકન…

查看更多內容

tegn, værdikupon…

查看更多內容

tecken, bevis, presentkort…

查看更多內容

tanda, token…

查看更多內容

das Zeichen, der Gutschein…

查看更多內容

tegn [neuter], sjetong [masculine], gavekort [neuter]…

查看更多內容

علامت, یادگار, نشان…

查看更多內容

знак, жетон…

查看更多內容

знак, символ (благодарности и т. д.), жетон…

查看更多內容

గుర్తు / ఆచరణాత్మకంగా తక్కువ ప్రభావాన్ని చూపినప్పటికీ మీరు చేసేది లేదా మీరు ఎవరికైనా ఇచ్చే వస్తువు మీ భావాలను లేదా ఉద్దేశాలను వ్యక్తపరుస్తుంది, కొన్ని యంత్రాలలో డబ్బుకు బదులుగా ఉపయోగించే ఒక గుండ్రని లోహంపు లేదా ప్లాస్టిక్ డిస్క్…

查看更多內容

স্মারক বস্তু, একটি বৃত্তাকার ধাতু বা প্লাস্টিকের ডিস্ক যা কিছু মেশিনে অর্থের পরিবর্তে ব্যবহৃত হয়…

查看更多內容

symbol, znak, žeton…

查看更多內容

tanda, kupon…

查看更多內容

สิ่งที่ใช้เป็นสัญลักษณ์, เหรียญพลาสติกหรือโลหะที่ใช้แทนเงิน…

查看更多內容

dấu hiệu, nhãn khi giá hàng hóa…

查看更多內容

dowód, znak, żeton…

查看更多內容

需要一個翻譯器嗎?

獲得快速、免費的翻譯!

翻譯器工具

token的發音是什麼?

在英語詞典中查看 token 的釋義

瀏覽

toiletries

toiletry bag

toilsome

toke

token

tokenism

tokenistic

tokenization

tokenize

token更多的中文(繁體)翻譯

全部

book token

gift token

non-fungible token

nonfungible token, at non-fungible token

non fungible token, at non-fungible token

by the same token idiom

查看全部意思»

慣用語

by the same token idiom

「每日一詞」

white chocolate

a sweet, cream-coloured food made from cocoa butter, sugar, and milk, that is usually sold in a block

關於這個

部落格

Renowned and celebrated (Words meaning ‘famous’)

March 13, 2024

查看更多

新詞

inverse vaccine

March 11, 2024

查看更多

已添加至 list

回到頁面頂端

內容

英語-中文(繁體)翻譯

©劍橋大學出版社與評估2024

學習

學習

學習

新詞

幫助

紙本出版

Word of the Year 2021

Word of the Year 2022

Word of the Year 2023

開發

開發

開發

詞典API

連按兩下查看

搜尋Widgets

執照資料

關於

關於

關於

無障礙閱讀

劍橋英語教學

劍橋大學出版社與評估

授權管理

Cookies與隱私保護

語料庫

使用條款

京ICP备14002226号-2

©劍橋大學出版社與評估2024

劍橋詞典+Plus

我的主頁

+Plus 幫助

退出

詞典

定義

清晰解釋自然的書面和口頭英語

英語

學習詞典

基礎英式英語

基礎美式英語

翻譯

點選箭頭改變翻譯方向。

雙語詞典

英語-中文(簡體)

Chinese (Simplified)–English

英語-中文(繁體)

Chinese (Traditional)–English

英語-荷蘭文

荷蘭語-英語

英語-法語

法語-英語

英語-德語

德語-英語

英語-印尼語

印尼語-英語

英語-義大利語

義大利語-英語

英語-日語

日語-英語

英語-挪威語

挪威語-英語

英語-波蘭語

波蘭語-英語

英語-葡萄牙語

葡萄牙語-英語

英語-西班牙語

西班牙語-英語

English–Swedish

Swedish–English

半雙語詞典

英語-阿拉伯語

英語-孟加拉文

英語-加泰羅尼亞語

英語-捷克語

英語-丹麥語

English–Gujarati

英語-印地語

英語-韓語

英語-馬來語

英語-馬拉地語

英語-俄語

English–Tamil

English–Telugu

英語-泰語

英語-土耳其語

英語-烏克蘭文

English–Urdu

英語-越南語

翻譯

文法

同義詞詞典

Pronunciation

劍橋詞典+Plus

Shop

劍橋詞典+Plus

我的主頁

+Plus 幫助

退出

登錄 /

註冊

正體中文 (繁體)  

Change

English (UK)

English (US)

Español

Русский

Português

Deutsch

Français

Italiano

中文 (简体)

正體中文 (繁體)

Polski

한국어

Türkçe

日本語

Tiếng Việt

हिंदी

தமிழ்

తెలుగు

關注我們!

選擇一本詞典

最近的詞和建議

定義

清晰解釋自然的書面和口頭英語

英語

學習詞典

基礎英式英語

基礎美式英語

文法與同義詞詞典

對自然書面和口頭英語用法的解釋

英語文法

同義詞詞典

Pronunciation

British and American pronunciations with audio

English Pronunciation

翻譯

點選箭頭改變翻譯方向。

雙語詞典

英語-中文(簡體)

Chinese (Simplified)–English

英語-中文(繁體)

Chinese (Traditional)–English

英語-荷蘭文

荷蘭語-英語

英語-法語

法語-英語

英語-德語

德語-英語

英語-印尼語

印尼語-英語

英語-義大利語

義大利語-英語

英語-日語

日語-英語

英語-挪威語

挪威語-英語

英語-波蘭語

波蘭語-英語

英語-葡萄牙語

葡萄牙語-英語

英語-西班牙語

西班牙語-英語

English–Swedish

Swedish–English

半雙語詞典

英語-阿拉伯語

英語-孟加拉文

英語-加泰羅尼亞語

英語-捷克語

英語-丹麥語

English–Gujarati

英語-印地語

英語-韓語

英語-馬來語

英語-馬拉地語

英語-俄語

English–Tamil

English–Telugu

英語-泰語

英語-土耳其語

英語-烏克蘭文

English–Urdu

英語-越南語

詞典+Plus

詞彙表

選擇語言

正體中文 (繁體)  

English (UK)

English (US)

Español

Русский

Português

Deutsch

Français

Italiano

中文 (简体)

Polski

한국어

Türkçe

日本語

Tiếng Việt

हिंदी

தமிழ்

తెలుగు

內容

英語-中文(繁體) 

 

Noun 

token (SYMBOL)

token (PAPER WORTH MONEY)

token (DISC)

Adjective

Translations

文法

所有翻譯

我的詞彙表

把token添加到下面的一個詞彙表中,或者創建一個新詞彙表。

更多詞彙表

前往詞彙表

對該例句有想法嗎?

例句中的單詞與輸入詞條不匹配。

該例句含有令人反感的內容。

取消

提交

例句中的單詞與輸入詞條不匹配。

該例句含有令人反感的內容。

取消

提交

NLP领域中的token和tokenization到底指的是什么? - 知乎

NLP领域中的token和tokenization到底指的是什么? - 知乎首页知乎知学堂发现等你来答​切换模式登录/注册机器学习自然语言处理语言学NLP领域中的token和tokenization到底指的是什么?这是一个非常简单的基本概念问题,但作为小白,真的不太清晰显示全部 ​关注者268被浏览714,309关注问题​写回答​邀请回答​好问题 22​添加评论​分享​27 个回答默认排序Glan格蓝​武汉大学 工学硕士​ 关注前面都讲了是指什么,我来浅答一下目前大模型时代分词是怎么做的☺️,主要内容为WordPiece,Byte-Pair Encoding (BPE),Byte-level BPE(BBPE)分词方法的原理以及其代码实现,全篇阅读可能需要45分钟,建议收藏~Tokenization(分词) 在自然语言处理(NLP)的任务中是最基本的一步,把文本内容处理为最小基本单元即token(标记,令牌,词元,没有准确的翻译)用于后续的处理,如何把文本处理成token呢?有一系列的方法,基本思想是构建一个词表通过词表一一映射进行分词,但如何构建合适的词表呢?以下以分词粒度为角度进行介绍:1.word(词)粒度在英文语系中,word(词)级别分词实现很简单,因为有天然的分隔符。在中文里面word(词)粒度,需要一些分词工具比如jieba,以下是中文和英文的例子:中文句子:我喜欢看电影和读书。

分词结果:我 | 喜欢 | 看 | 电影 | 和 | 读书。

英文句子:I enjoy watching movies and reading books.

分词结果:I | enjoy | watching | movies | and | reading | books.word(词)粒度的优点有:语义明确:以词为单位进行分词可以更好地保留每个词的语义,使得文本在后续处理中能够更准确地表达含义。上下文理解:以词为粒度进行分词有助于保留词语之间的关联性和上下文信息,从而在语义分析和理解时能够更好地捕捉句子的意图。缺点:长尾效应和稀有词问题: 词表可能变得巨大,包含很多不常见的词汇,增加存储和训练成本,稀有词的训练数据有限,难以获得准确的表示。OOV(Out-of-Vocabulary): 词粒度分词模型只能使用词表中的词来进行处理,无法处理词表之外的词汇,这就是所谓的OOV问题。形态关系和词缀关系: 无法捕捉同一词的不同形态,也无法有效学习词缀在不同词汇之间的共通性,限制了模型的语言理解能力,比如love和loves在word(词)粒度的词表中将会是两个词。2.char(字符)粒度以字符为单位进行分词,即将文本拆分成一个个单独的字符作为最小基本单元,这种字符粒度的分词方法适用于多种语言,无论是英文、中文还是其他不同语言,都能够一致地使用字符粒度进行处理,因为英文就26个字母以及其他的一些符号,中文常见字就6000个左右。中文句子:我喜欢看电影和读书。

分词结果:我 | 喜 | 欢 | 看 | 电 | 影 | 和 | 读 | 书 | 。

英文句子:I enjoy watching movies and reading books.

分词结果:I | | e | n | j | o | y | | w | a | t | c | h | i | n | g | | m | o | v | i | e | s | | a | n | d | | r | e | a | d | i | n | g | | b | o | o | k | s | .char(字符)粒度的优点有:统一处理方式:字符粒度分词方法适用于不同语言,无需针对每种语言设计不同的分词规则或工具,具有通用性。解决OOV问题:由于字符粒度分词可以处理任何字符,无需维护词表,因此可以很好地处理一些新创词汇、专有名词等问题。缺点:语义信息不明确:字符粒度分词无法直接表达词的语义,可能导致在一些语义分析任务中效果较差。处理效率低:由于文本被拆分为字符,处理的粒度较小,增加后续处理的计算成本和时间。3.subword(子词)粒度在很多情况下,既不希望将文本切分成单独的词(太大),也不想将其切分成单个字符(太小),而是希望得到介于词和字符之间的子词单元。这就引入了 subword(子词)粒度的分词方法。在BERT时代,WordPiece 分词方法被广泛应用[1],比如 BERT、DistilBERT等。WordPiece 分词方法是 subword(子词)粒度的一种方法。3.1 WordPieceWordPiece核心思想是将单词拆分成多个前缀符号(比如BERT中的##)最小单元,再通过子词合并规则将最小单元进行合并为子词级别。例如对于单词"word",拆分如下:w ##o ##r ##d然后通过合并规则进行合并,从而循环迭代构建出一个词表,以下是核心步骤:计算初始词表:通过训练语料获得或者最初的英文中26个字母加上各种符号以及常见中文字符,这些作为初始词表。计算合并分数:对训练语料拆分的多个子词单元通过合拼规则计算合并分数。合并分数最高的子词对:选择分数最高的子词对,将它们合并成一个新的子词单元,并更新词表。重复合并步骤:不断重复步骤 2 和步骤 3,直到达到预定的词表大小、合并次数,或者直到不再有有意义的合并(即,进一步合并不会显著提高词表的效益)。分词:使用最终得到的词汇表对文本进行分词。简单举例[1]:我们有以下的训练语料中的样例,括号中第2位为在训练语料中出现的频率:("hug", 10), ("pug", 5), ("pun", 12), ("bun", 4), ("hugs", 5)我们对其进行拆分为带前缀的形式:("h" "##u" "##g", 10), ("p" "##u" "##g", 5), ("p" "##u" "##n", 12), ("b" "##u" "##n", 4), ("h" "##u" "##g" "##s", 5)所以这些样例的初始词表将会是:["b", "h", "p", "##g", "##n", "##s", "##u"]接下来重要的一步进行计算合并分数,也称作互信息(信息论中衡量两个变量之间的关联程度[2]),简单来说就是以下公式来计算score=(freq_of_pair)/(freq_of_first_element×freq_of_second_element)

分数 = 合并pair候选的频率 / (第一个元素的频率 × 第二个元素的频率)对于上述样例中这个pair("##u", "##g")出现的频率是最高的20次,但是"##u"出现的频率是36次, "##g"出现的频率是20次,所以这个pair("##u", "##g")的分数是(20)/(36*20) = 1/36,同理计算这个pair("##g", "##s")的分数为(5)/(20*5) = 1/20,所以最先合并的pair是("##g", "##s")→("##gs")。此时词表和拆分后的的频率将变成以下:Vocabulary: ["b", "h", "p", "##g", "##n", "##s", "##u", "##gs"]

Corpus: ("h" "##u" "##g", 10), ("p" "##u" "##g", 5), ("p" "##u" "##n", 12), ("b" "##u" "##n", 4), ("h" "##u" "##gs", 5)重复上述的操作,直到达到你想要的词表的大小Vocabulary: ["b", "h", "p", "##g", "##n", "##s", "##u", "##gs", "hu", "hug"]

Corpus: ("hug", 10), ("p" "##u" "##g", 5), ("p" "##u" "##n", 12), ("b" "##u" "##n", 4), ("hu" "##gs", 5)代码实现:用一些包含中英文的文本作为训练语料,因为英文有天然的分隔符,所以在这个例子中,中文已经进行了分词:sentences = [

"我",

"喜欢",

"吃",

"苹果",

"他",

"不",

"喜欢",

"吃",

"苹果派",

"I like to eat apples",

"She has a cute cat",

"you are very cute",

"give you a hug",

]统计每个词出现的频率并初始化初始词表:from collections import defaultdict

# 构建频率统计

def build_stats(sentences):

stats = defaultdict(int)

for sentence in sentences:

symbols = sentence.split()

for symbol in symbols:

stats[symbol] += 1

return stats

stats = build_stats(sentences)

print("stats:", stats)

alphabet = []

for word in stats.keys():

if word[0] not in alphabet:

alphabet.append(word[0])

for letter in word[1:]:

if f"##{letter}" not in alphabet:

alphabet.append(f"##{letter}")

alphabet.sort()

# 初始词表

vocab = alphabet.copy()

print("alphabet:", alphabet)

# 结果

stats: defaultdict(, {'我': 1, '喜欢': 2, '吃': 2, '苹果': 1, '他': 1, '不': 1, '苹果派': 1, 'I': 1, 'like': 1, 'to': 1, 'eat': 1, 'apples': 1, 'She': 1, 'has': 1, 'a': 2, 'cute': 2, 'cat': 1, 'you': 2, 'are': 1, 'very': 1, 'give': 1, 'hug': 1})

# 初始词表

alphabet: ['##a', '##e', '##g', '##h', '##i', '##k', '##l', '##o', '##p', '##r', '##s', '##t', '##u', '##v', '##y', '##果', '##欢', '##派', 'I', 'S', 'a', 'c', 'e', 'g', 'h', 'l', 't', 'v', 'y', '不', '他', '吃', '喜', '我', '苹']根据初始词表拆分每个词:splits = {

word: [c if i == 0 else f"##{c}" for i, c in enumerate(word)]

for word in stats.keys()

}

print("splits:", splits)

# 结果

splits: {'我': ['我'], '喜欢': ['喜', '##欢'], '吃': ['吃'], '苹果': ['苹', '##果'], '他': ['他'], '不': ['不'], '苹果派': ['苹', '##果', '##派'], 'I': ['I'], 'like': ['l', '##i', '##k', '##e'], 'to': ['t', '##o'], 'eat': ['e', '##a', '##t'], 'apples': ['a', '##p', '##p', '##l', '##e', '##s'], 'She': ['S', '##h', '##e'], 'has': ['h', '##a', '##s'], 'a': ['a'], 'cute': ['c', '##u', '##t', '##e'], 'cat': ['c', '##a', '##t'], 'you': ['y', '##o', '##u'], 'are': ['a', '##r', '##e'], 'very': ['v', '##e', '##r', '##y'], 'give': ['g', '##i', '##v', '##e'], 'hug': ['h', '##u', '##g']}根据上述提到的计算互信息的分数公式进行计算:def compute_pair_scores(splits):

letter_freqs = defaultdict(int)

pair_freqs = defaultdict(int)

for word, freq in stats.items():

split = splits[word]

if len(split) == 1:

letter_freqs[split[0]] += freq

continue

for i in range(len(split) - 1):

pair = (split[i], split[i + 1])

letter_freqs[split[i]] += freq

pair_freqs[pair] += freq

letter_freqs[split[-1]] += freq

scores = {

pair: freq / (letter_freqs[pair[0]] * letter_freqs[pair[1]])

for pair, freq in pair_freqs.items()

}

return scores

pair_scores = compute_pair_scores(splits)

for i, key in enumerate(pair_scores.keys()):

print(f"{key}: {pair_scores[key]}")

if i >= 5:

break一些结果:('喜', '##欢'): 0.5

('苹', '##果'): 0.5

('##果', '##派'): 0.5

('l', '##i'): 0.5

('##i', '##k'): 0.5

('##k', '##e'): 0.125我们需要的是将分数最高的进行合并然后开始循环迭代,看一看分数最高的pair(子词对):best_pair = ""

max_score = None

for pair, score in pair_scores.items():

if max_score is None or max_score < score:

best_pair = pair

max_score = score

print(best_pair, max_score)

# 结果

('S', '##h') 1.0结果为('S', '##h') 1.0,所以最先合成的就是('S', '##h')→'##Sh',合并的函数如下:def merge_pair(a, b, splits):

for word in stats:

split = splits[word]

if len(split) == 1:

continue

i = 0

while i < len(split) - 1:

if split[i] == a and split[i + 1] == b:

merge = a + b[2:] if b.startswith("##") else a + b

split = split[:i] + [merge] + split[i + 2 :]

else:

i += 1

splits[word] = split

return splits最后就是一直进行循环迭代,直到vocab达到了我们想要的数量vocab_size = 50

while len(vocab) < vocab_size:

scores = compute_pair_scores(splits)

best_pair, max_score = "", None

for pair, score in scores.items():

if max_score is None or max_score < score:

best_pair = pair

max_score = score

splits = merge_pair(*best_pair, splits)

new_token = (

best_pair[0] + best_pair[1][2:]

if best_pair[1].startswith("##")

else best_pair[0] + best_pair[1]

)

vocab.append(new_token)

print("vocab:", vocab)

# 结果

vocab: ['##a', '##e', '##g', '##h', '##i', '##k', '##l', '##o', '##p', '##r', '##s', '##t', '##u', '##v', '##y', '##果', '##欢', '##派', 'I', 'S', 'a', 'c', 'e', 'g', 'h', 'l', 't', 'v', 'y', '不', '他', '吃', '喜', '我', '苹', 'Sh', '喜欢', '苹果', '苹果派', 'li', 'lik', 'gi', 'giv', '##pl', '##ppl', '##ry', 'to', 'yo', 'ea', 'eat']上述就是WordPiece分词方法的代码实现,一般来说最后会在词表中加上一些特殊词汇,以及英文中26个字母加上各种符号以及常见中文字符,不过如果训练语料比较大以及词表比较大那这些应该也是已经包括了,只需要添加特殊词汇:all_vocab = vocab + ["[PAD]", "[UNK]", "[CLS]", "[SEP]", "[MASK]"] + other_alphabet在大语言模型时代,最常用的分词方法是Byte-Pair Encoding (BPE)和Byte-level BPE(BBPE),Byte-Pair Encoding (BPE)最初是一种文本压缩算法在15年被引入到NLP用于分词[3],在训练 GPT 时被 OpenAI 用于tokenization,后续好多模型GPT,RoBERTa等都采用了这种分词方法。Byte-level BPE(BBPE)是于19年在BPE的基础上提出以Byte-level(字节)为粒度的分词方法[4],目前 GPT2,BLOOM,Llama,Falcon等采用的是该分词方法。3.2 Byte-Pair Encoding (BPE)Byte-Pair Encoding (BPE)核心思想是逐步合并出现频率最高的子词对而不是像Wordpiece计算合并分数,从而构建出一个词汇表,以下是核心步骤:计算初始词表:通过训练语料获得或者最初的英文中26个字母加上各种符号以及常见中文字符,这些作为初始词表。构建频率统计:统计所有子词单元对(两个连续的子词)在文本中的出现频率。合并频率最高的子词对:选择出现频率最高的子词对,将它们合并成一个新的子词单元,并更新词汇表。重复合并步骤:不断重复步骤 2 和步骤 3,直到达到预定的词汇表大小、合并次数,或者直到不再有有意义的合并(即,进一步合并不会显著提高词汇表的效益)。分词:使用最终得到的词汇表对文本进行分词。简单的代码实现[5]:用一些包含中英文的文本作为训练语料和上面相同,因为英文有天然的分隔符,所以在这个例子中,中文已经进行了分词:sentences = [

"我",

"喜欢",

"吃",

"苹果",

"他",

"不",

"喜欢",

"吃",

"苹果派",

"I like to eat apples",

"She has a cute cat",

"you are very cute",

"give you a hug",

]统计每个词出现的频率并初始化初始词表:# 构建频率统计

def build_stats(sentences):

stats = defaultdict(int)

for sentence in sentences:

symbols = sentence.split()

for symbol in symbols:

stats[symbol] += 1

return stats

stats = build_stats(sentences)

print("stats:", stats)

alphabet = []

for word in stats.keys():

for letter in word:

if letter not in alphabet:

alphabet.append(letter)

alphabet.sort()

# 初始词表

vocab = alphabet.copy()

print("alphabet:", alphabet)

# 结果

stats: defaultdict(, {'我': 1, '喜欢': 2, '吃': 2, '苹果': 1, '他': 1, '不': 1, '苹果派': 1, 'I': 1, 'like': 1, 'to': 1, 'eat': 1, 'apples': 1, 'She': 1, 'has': 1, 'a': 2, 'cute': 2, 'cat': 1, 'you': 2, 'are': 1, 'very': 1, 'give': 1, 'hug': 1})

# 初始词表

alphabet: ['I', 'S', 'a', 'c', 'e', 'g', 'h', 'i', 'k', 'l', 'o', 'p', 'r', 's', 't', 'u', 'v', 'y', '不', '他', '吃', '喜', '我', '果', '欢', '派', '苹']根据初始词表拆分每个词,计算左右pair(子词对)出现的频率splits = {word: [c for c in word] for word in stats.keys()}

print("splits:", splits)

def compute_pair_freqs(splits):

pair_freqs = defaultdict(int)

for word, freq in stats.items():

split = splits[word]

if len(split) == 1:

continue

for i in range(len(split) - 1):

pair = (split[i], split[i + 1])

pair_freqs[pair] += freq

return pair_freqs

pair_freqs = compute_pair_freqs(splits)

for i, key in enumerate(pair_freqs.keys()):

print(f"{key}: {pair_freqs[key]}")

if i >= 5:

break

# 结果

splits: {'我': ['我'], '喜欢': ['喜', '欢'], '吃': ['吃'], '苹果': ['苹', '果'], '他': ['他'], '不': ['不'], '苹果派': ['苹', '果', '派'], 'I': ['I'], 'like': ['l', 'i', 'k', 'e'], 'to': ['t', 'o'], 'eat': ['e', 'a', 't'], 'apples': ['a', 'p', 'p', 'l', 'e', 's'], 'She': ['S', 'h', 'e'], 'has': ['h', 'a', 's'], 'a': ['a'], 'cute': ['c', 'u', 't', 'e'], 'cat': ['c', 'a', 't'], 'you': ['y', 'o', 'u'], 'are': ['a', 'r', 'e'], 'very': ['v', 'e', 'r', 'y'], 'give': ['g', 'i', 'v', 'e'], 'hug': ['h', 'u', 'g']}

('喜', '欢'): 2

('苹', '果'): 2

('果', '派'): 1

('l', 'i'): 1

('i', 'k'): 1

('k', 'e'): 1然后开始循环迭代找到出现频率最高的pair(子词对):best_pair = ""

max_freq = None

for pair, freq in pair_freqs.items():

if max_freq is None or max_freq < freq:

best_pair = pair

max_freq = freq

print(best_pair, max_freq)结果为【('喜', '欢') 2】,所以最先合成的就是('喜', '欢')→'喜欢',然后合并的函数如下:def merge_pair(a, b, splits):

for word in stats:

split = splits[word]

if len(split) == 1:

continue

i = 0

while i < len(split) - 1:

if split[i] == a and split[i + 1] == b:

split = split[:i] + [a + b] + split[i + 2 :]

else:

i += 1

splits[word] = split

return splits最后就是一直进行循环直到vocab达到了我们想要的数量:# 假设我们想要的词典为50

merges = {}

vocab_size = 50

while len(vocab) < vocab_size:

pair_freqs = compute_pair_freqs(splits)

best_pair = ""

max_freq = None

for pair, freq in pair_freqs.items():

if max_freq is None or max_freq < freq:

best_pair = pair

max_freq = freq

splits = merge_pair(*best_pair, splits)

merges[best_pair] = best_pair[0] + best_pair[1]

vocab.append(best_pair[0] + best_pair[1])

print("merges:", merges)

print("vocab:", vocab)

# 结果

merges: {('喜', '欢'): '喜欢', ('苹', '果'): '苹果', ('a', 't'): 'at', ('c', 'u'): 'cu', ('cu', 't'): 'cut', ('cut', 'e'): 'cute', ('y', 'o'): 'yo', ('yo', 'u'): 'you', ('v', 'e'): 've', ('苹果', '派'): '苹果派', ('l', 'i'): 'li', ('li', 'k'): 'lik', ('lik', 'e'): 'like', ('t', 'o'): 'to', ('e', 'at'): 'eat', ('a', 'p'): 'ap', ('ap', 'p'): 'app', ('app', 'l'): 'appl', ('appl', 'e'): 'apple', ('apple', 's'): 'apples', ('S', 'h'): 'Sh', ('Sh', 'e'): 'She', ('h', 'a'): 'ha'}

vocab: ['I', 'S', 'a', 'c', 'e', 'g', 'h', 'i', 'k', 'l', 'o', 'p', 'r', 's', 't', 'u', 'v', 'y', '不', '他', '吃', '喜', '我', '果', '欢', '派', '苹', '喜欢', '苹果', 'at', 'cu', 'cut', 'cute', 'yo', 'you', 've', '苹果派', 'li', 'lik', 'like', 'to', 'eat', 'ap', 'app', 'appl', 'apple', 'apples', 'Sh', 'She', 'ha']再加上一些特殊词汇和其他词汇:all_vocab = vocab + ["[PAD]", "[UNK]", "[BOS]", "[EOS]"] + other_alphabet上述就是BPE的代码实现,BPE理论上还是会出现OOV的,当词汇表的大小受限时,一些较少频繁出现的子词和没有在训练过程中见过的子词,就会无法进入词汇表出现OOV,而Byte-level BPE(BBPE)理论上是不会出现这个情况的。3.3 Byte-level BPE(BBPE)基础知识:Unicode: Unicode 是一种字符集,旨在涵盖地球上几乎所有的书写系统和字符。它为每个字符分配了一个唯一的代码点(code point)用于标识字符。Unicode 不关注字符在计算机内部的具体表示方式,而只是提供了一种字符到代码点的映射。Unicode 的出现解决了字符集的碎片化问题,使得不同的语言和字符能够在一个共同的标准下共存。然而,Unicode 并没有规定如何在计算机内存中存储和传输这些字符。UTF-8: UTF-8(Unicode Transformation Format-8)是一种变长的字符编码方案,它将 Unicode 中的代码点转换为字节序列。UTF-8 的一个重要特点是它是向后兼容 ASCII 的,这意味着标准的 ASCII 字符在 UTF-8 中使用相同的字节表示,从而确保现有的 ASCII 文本可以无缝地与 UTF-8 共存。在 UTF-8 编码中,字符的表示长度可以是1到4个字节,不同范围的 Unicode 代码点使用不同长度的字节序列表示,这样可以高效地表示整个 Unicode 字符集。UTF-8 的编码规则是:单字节字符(ASCII 范围内的字符)使用一个字节表示,保持与 ASCII 编码的兼容性。带有更高代码点的字符使用多个字节表示。UTF-8 使用特定的字节序列来指示一个字符所需的字节数,以及字符的实际数据。例如,英文字母 "A" 的 Unicode 代码点是U+0041,在 UTF-8 中表示为 0x41(与 ASCII 编码相同);而中文汉字 "你" 的 Unicode 代码点是U+4F60,在 UTF-8 中表示为0xE4 0xBD 0xA0三个字节的序列。所以简单的来说:Unicode 是字符集,为每个字符分配唯一的代码点。UTF-8 是一种基于 Unicode 的字符编码方式,用于在计算机中存储和传输字符。Byte(字节):计算机存储和数据处理时,字节是最小的单位。一个字节包含8个(Bit)二进制位,每个位可以是0或1,每位的不同排列和组合可以表示不同的数据,所以一个字节能表示的范围是256个。言归正传:Byte-level BPE(BBPE)和Byte-Pair Encoding (BPE)区别就是BPE是最小词汇是字符级别,而BBPE是字节级别的,通过UTF-8的编码方式这一个字节的256的范围,理论上可以表示这个世界上的所有字符。所以实现的步骤和BPE就是实现的粒度不一样,其他的都是一样的。初始词表:构建初始词表,包含一个字节的所有表示(256)。构建频率统计:统计所有子词单元对(两个连续的子词)在文本中的出现频率。合并频率最高的子词对:选择出现频率最高的子词对,将它们合并成一个新的子词单元,并更新词汇表。重复合并步骤:不断重复步骤 2 和步骤 3,直到达到预定的词汇表大小、合并次数,或者直到不再有有意义的合并(即,进一步合并不会显著提高词汇表的效益)。分词:使用最终得到的词汇表对文本进行分词。简单代码实现,不做赘述,读者朋友们可以自己实现一下from collections import defaultdict

sentences = [

"我",

"喜欢",

"吃",

"苹果",

"他",

"不",

"喜欢",

"吃",

"苹果派",

"I like to eat apples",

"She has a cute cat",

"you are very cute",

"give you a hug",

]

# 构建初始词汇表,包含一个字节的256个表示

initial_vocab = [bytes([byte]) for byte in range(256)]

vocab = initial_vocab.copy()

print("initial_vocab:", initial_vocab)

# 构建频率统计

def build_stats(sentences):

stats = defaultdict(int)

for sentence in sentences:

symbols = sentence.split()

for symbol in symbols:

stats[symbol.encode("utf-8")] += 1

return stats

stats = build_stats(sentences)

splits = {word: [byte for byte in word] for word in stats.keys()}

def compute_pair_freqs(splits):

pair_freqs = defaultdict(int)

for word, freq in stats.items():

split = splits[word]

if len(split) == 1:

continue

for i in range(len(split) - 1):

pair = (split[i], split[i + 1])

pair_freqs[pair] += freq

return pair_freqs

pair_freqs = compute_pair_freqs(splits)

def merge_pair(pair, splits):

merged_byte = bytes(pair)

for word in stats:

split = splits[word]

if len(split) == 1:

continue

i = 0

while i < len(split) - 1:

if split[i:i+2] == pair: # 检查分割中是否有这对字节

split = split[:i] + [merged_byte] + split[i + 2 :]

else:

i += 1

splits[word] = split

return splits

vocab_size = 50

while len(vocab) < vocab_size:

pair_freqs = compute_pair_freqs(splits)

best_pair = ()

max_freq = None

for pair, freq in pair_freqs.items():

if max_freq is None or max_freq < freq:

best_pair = pair

max_freq = freq

splits = merge_pair(best_pair, splits)

merged_byte = bytes(best_pair)

print("vocab:", vocab)着重解释一下为什么Byte-level BPE(BBPE)不会出现OOV问题,初始的词表里有256个表示如下:[b'\x00', b'\x01', b'\x02', b'\x03', b'\x04', b'\x05', b'\x06', b'\x07', b'\x08', b'\t', b'\n', b'\x0b', b'\x0c', b'\r', b'\x0e', b'\x0f', b'\x10', b'\x11', b'\x12', b'\x13', b'\x14', b'\x15', b'\x16', b'\x17', b'\x18', b'\x19', b'\x1a', b'\x1b', b'\x1c', b'\x1d', b'\x1e', b'\x1f', b' ', b'!', b'"', b'#', b'$', b'%', b'&', b"'", b'(', b')', b'*', b'+', b',', b'-', b'.', b'/', b'0', b'1', b'2', b'3', b'4', b'5', b'6', b'7', b'8', b'9', b':', b';', b'<', b'=', b'>', b'?', b'@', b'A', b'B', b'C', b'D', b'E', b'F', b'G', b'H', b'I', b'J', b'K', b'L', b'M', b'N', b'O', b'P', b'Q', b'R', b'S', b'T', b'U', b'V', b'W', b'X', b'Y', b'Z', b'[', b'\\', b']', b'^', b'_', b'`', b'a', b'b', b'c', b'd', b'e', b'f', b'g', b'h', b'i', b'j', b'k', b'l', b'm', b'n', b'o', b'p', b'q', b'r', b's', b't', b'u', b'v', b'w', b'x', b'y', b'z', b'{', b'|', b'}', b'~', b'\x7f', b'\x80', b'\x81', b'\x82', b'\x83', b'\x84', b'\x85', b'\x86', b'\x87', b'\x88', b'\x89', b'\x8a', b'\x8b', b'\x8c', b'\x8d', b'\x8e', b'\x8f', b'\x90', b'\x91', b'\x92', b'\x93', b'\x94', b'\x95', b'\x96', b'\x97', b'\x98', b'\x99', b'\x9a', b'\x9b', b'\x9c', b'\x9d', b'\x9e', b'\x9f', b'\xa0', b'\xa1', b'\xa2', b'\xa3', b'\xa4', b'\xa5', b'\xa6', b'\xa7', b'\xa8', b'\xa9', b'\xaa', b'\xab', b'\xac', b'\xad', b'\xae', b'\xaf', b'\xb0', b'\xb1', b'\xb2', b'\xb3', b'\xb4', b'\xb5', b'\xb6', b'\xb7', b'\xb8', b'\xb9', b'\xba', b'\xbb', b'\xbc', b'\xbd', b'\xbe', b'\xbf', b'\xc0', b'\xc1', b'\xc2', b'\xc3', b'\xc4', b'\xc5', b'\xc6', b'\xc7', b'\xc8', b'\xc9', b'\xca', b'\xcb', b'\xcc', b'\xcd', b'\xce', b'\xcf', b'\xd0', b'\xd1', b'\xd2', b'\xd3', b'\xd4', b'\xd5', b'\xd6', b'\xd7', b'\xd8', b'\xd9', b'\xda', b'\xdb', b'\xdc', b'\xdd', b'\xde', b'\xdf', b'\xe0', b'\xe1', b'\xe2', b'\xe3', b'\xe4', b'\xe5', b'\xe6', b'\xe7', b'\xe8', b'\xe9', b'\xea', b'\xeb', b'\xec', b'\xed', b'\xee', b'\xef', b'\xf0', b'\xf1', b'\xf2', b'\xf3', b'\xf4', b'\xf5', b'\xf6', b'\xf7', b'\xf8', b'\xf9', b'\xfa', b'\xfb', b'\xfc', b'\xfd', b'\xfe', b'\xff']通过上述的方式其实是在一直根据训练语料循环迭代合成子词或者词,最后形成词表,比如“苹果”通过UTF-8进行编码后为“\xe8\x8b\xb9\xe6\x9e\x9c”,如果词表里面有,那“苹果”就通过词表映射成了1个表示,准确来说是1个token;如果词表里没有,那就用256中的“\xe8+\x8b+\xb9+\xe6+\x9e+\x9c”来表示“苹果”这个词,那就是6个token。在先前的各种分词方法中,如果词典里没有”苹果“这个词,也没有”苹“,”果“这样的子词的话,那就变成了[UNK]。所以在现在的大模型中,以Byte-level BPE(BBPE)这种方式进行分词是不会出现OOV,但词表中如果没有word级别的词的话,一些中英文就会分词分的很细碎,比如Llama在中文上就会把一些词分成多个token其实就是UTF-8后的中文编码,对编码效率以及语义会有影响,于是出现了一些扩充Llama中文词表的工作。上述分词算法在工程上实现一般使用sentencpiece工具包[6],谷歌在这个包中实现了上述的一系列算法,扩充Llama中文词表的工作也都是在此上面实现的。后续我也会写一篇文章进行详细的讲解。欢迎关注~其他文章:参考^ab[1] https://huggingface.co/learn/nlp-course/chapter6/6?fw=pt^[3] https://zh.wikipedia.org/zh-hans/%E4%BA%92%E4%BF%A1%E6%81%AF^[3] https://arxiv.org/abs/1508.07909^[4] https://arxiv.org/abs/1909.03341^[5] https://huggingface.co/learn/nlp-course/chapter6/5?fw=pt^[6] https://github.com/google/sentencepiece编辑于 2023-09-02 18:19​赞同 308​​8 条评论​分享​收藏​喜欢收起​OpenLLMAI​浙江大学 工学硕士​ 关注简而言之:token可以理解为最小语义单元,翻译的话个人喜欢叫词元(当然翻译成令牌、词都行),可以是word/char/subword。tokenization是指分词,目的是将输入文本分成一个个词元,保证各个词元拥有相对完整和独立的语义,以供后续任务(比如学习embedding或者作为高级模型的输入)使用。原文:0.序章笔者在上一篇文章中对最近折腾大模型的过程进行了反思,痛定思痛,决定除了工作部分以外不再浪费太多时间去跑更大规模的模型,同时决心开一些新坑来倒逼输入并与大家交流讨论,暂时的想法是在OpenLLM下面做两个系列:LLM基础组件和LLM炼丹术。注:从4.11开始,不知不觉居然写到OpenLLM 008了,这十几天累成狗了,最快乐的时候居然是忙里偷闲写这些东西的时候,amazing!LLM基础组件tokenization&tokenizers:分词算法与分词器位置编码attention机制基础架构与attention mask归一化激活函数行为思路分词算法与分词器作为LLM(大语言模型)的基础组件,作用相当于文本与模型的桥梁。因此作为LLM基础组件系列的开篇,本文将对主流的分词算法和分词器进行全面的梳理和介绍。updates2023/04/30,资料阅读+整理,完成大纲;2023/05/01,主流subword算法伪代码;bert分词代码解读;2023/05/02,+byte-level BPE、优缺点、示例、总结等,主体内容基本算是写完了;剩余的代码实现示例和具体模型的分词器示例后续有空再补(看优先级和精力);2023/05/03,XX;1.分词算法tokenization算法大致经历了从word/char到subword的进化,这一章首先介绍不同的分词粒度,然后对主流的三大subword分词算法进行介绍,配合代码和实例,希望可以对subword算法有一个比较全面的梳理。0.文本应该分成什么粒度?分词的目的是将输入文本分成一个个词元,保证各个词元拥有相对完整和独立的语义,以供后续任务(比如学习embedding或者作为高级模型的输入)使用。首先,最自然的粒度当然是词粒度。词,作为语言最自然的基本单元,在英文等语言中有着天然的空格分隔,但是对于中文等语言可能需要额外的分词算法来进行处理(比如中文的jieba分词)。不过,我们总归是有办法获得各种各样的词的,这并不是一个致命的问题。真正影响词粒度分词算法应用问题主要有:1)词粒度的词表由于长尾效应可能会非常大,包含很多的稀有词,存储和训练的成本都很高,并且稀有词往往很难学好;2)OOV问题,对于词表之外的词无能为力;3)无法处理单词的形态关系和词缀关系:同一个词的不同形态,语义相近,完全当做不同的单词不仅增加了训练成本,而且无法很好的捕捉这些单词之间的关系;同时,也无法学习词缀在不同单词之间的泛化。那么,一个很自然的想法就是使用字符粒度的词表,这样OOV问题迎刃而解了,但是字符粒度太细了,会造成新的问题:1)无法承载丰富的语义;2)序列长度增长,带来计算成本的增长。所以,如何结合word和char粒度各自的优势呢?subword分词应运而生,顾名思义,粒度介于char和Word之间,基本思想为常用词应该保持原状,生僻词应该拆分成子词以共享token压缩空间,所以可以较好的平衡词表大小与语义表达能力,比如OOV问题可以通过subword的组合来解决。目前有三种主流的Subword分词算法,分别是Byte Pair Encoding (BPE), WordPiece和Unigram Language Model。总结一下,文本的分词粒度:word:优点:词的边界和含义得到保留;缺点:1)词表大,稀有词学不好;2)OOV;3)无法处理单词形态关系和词缀关系;char:优点:词表极小,比如26个英文字母几乎可以组合出所有词,5000多个中文常用字基本也能组合出足够的词汇;缺点:1)无法承载丰富的语义;2)序列长度大幅增长;subword:可以较好的平衡词表大小与语义表达能力;1.BPEBPE最早其实是一种数据压缩算法,基本思想是将经常一起出现的数据对替换为不在数据串中的其他字符,后续可以通过一个merge表来恢复原始数据。在2015年,由论文[1508.07909] Neural Machine Translation of Rare Words with Subword Units引入NLP领域。核心思想:从一个基础小词表开始,通过不断合并最高频的连续token对来产生新的token。具体做法:输入:训练语料;词表大小V1.准备基础词表:比如英文中26个字母加上各种符号;2.基于基础词表将语料拆分为最小单元;3.在语料上统计单词内相邻单元对的频率,选择频率最高的单元对进行合并;4.重复第3步直到达到预先设定的subword词表大小或下一个最高频率为1;输出:BPE算法得到的subword词表下面是一个BPE的训练示例:优势与劣势:优势:可以有效地平衡词汇表大小和编码步数(编码句子所需的token数量,与词表大小和粒度有关)。劣势:基于贪婪和确定的符号替换,不能提供带概率的多个分词结果(这是相对于ULM而言的);decode的时候面临歧义问题。BPE的劣势:代码实现:refs:[1508.07909] Neural Machine Translation of Rare Words with Subword Units理解NLP最重要的编码方式 — Byte Pair Encoding (BPE),这一篇就够了 - 硅谷谷主的文章 - 知乎https://zhuanlan.zhihu.com/p/424631681 2.Byte-level BPE2019年12月:《Neural Machine Translation with Byte-Level Subwords》,论文提出了一种新的subword算法,称之为BBPE,即Byte-level BPE。核心思想:将BPE的思想从字符级别扩展到子节级别。具体做法:摘要:几乎所有现有的机器翻译模型都建立在基于字符的词汇表之上:characters, subwords or words(只是字符的粒度不同)。 然而,来自噪声文本或字符丰富的语言(如日语和中文)的稀有字符可能会不必要地占用词汇槽并限制其紧凑性。 在字节级别表示文本并使用 256 字节集作为词汇表是解决此问题的潜在方法。 然而,高昂的计算成本阻碍了它在实践中的广泛部署或使用。 在本文中,我们研究了字节级子词,具体为字节级 BPE (BBPE),它比字符词汇表更紧凑,没有词汇表外的标记,但比仅使用纯字节更有效。 我们声称上下文化 BBPE 嵌入是必要的,这可以通过卷积层或循环层来实现。 我们的实验表明,BBPE 具有与 BPE 相当的性能,而其大小仅为 BPE 的 1/8。 在多语言设置中,BBPE 最大限度地共享多种语言的词汇并实现更好的翻译质量。 此外,我们表明 BBPE 可以在具有非重叠字符集的语言之间实现可迁移的模型。我们考虑文本的UTF8编码,它将每个Unicode字符编码成1到4个字节。这允许我们将句子建模为字节序列,而不是字符序列。虽然有覆盖150多种语言的138K Unicode字符,但我们可以将任何语言的句子表示为UTF-8字节序列(只需要256个可能的字节中的248个)。文本的字节序列表示通常比字符序列表示长得多(高达4倍),这使得按原样使用字节(只使用256的子节集)在计算上要求很高。作为另一种选择,我们考虑将字节序列分割成可变长度的n-gram(字节级“subwords”)。具体地说,我们学习关于字节级表示的BPE词汇,该表示用字节n-gram扩展了UTF-8字节集,称之为BBPE。图一展示了BBPE与BPE的对比。不同的词表对序列长度的影响:词表粒度由细到粗,分词序列的对比:我们可以验证一下上图中的部分编码,可以看到是一致的:https://www.browserling.com/tools/utf8-encode优势与劣势:优势:1)效果与BPE相当,但词表大为减小;2)可以在多语言之间通过字节级别的子词实现更好的共享;3)即使字符集不重叠,也可以通过子节层面的共享来实现良好的迁移。劣势:1)编码序列时,长度可能会略长于BPE,计算成本更高;2)由byte解码时可能会遇到歧义,需要通过上下文信息和动态规划来进行解码。refs:Neural Machine Translation with Byte-Level Subwordshttps://arxiv.org/abs/1909.03341 浅谈Byte-Level BPE - CaesarEX的文章 - 知乎https://zhuanlan.zhihu.com/p/146114164 tokenizers小结 - 马东什么的文章 - 知乎https://zhuanlan.zhihu.com/p/360290118 3.WordPieceWordPiece出自《JAPANESE AND KOREAN VOICE SEARCH》,并用于解决日语和韩语的语音问题。核心思想:与BPE类似,也是从一个基础小词表出发,通过不断合并来产生最终的词表。主要的差别在于,BPE按频率来选择合并的token对,而wordpiece按token间的互信息来进行合并。注:互信息,在分词领域有时也被称为凝固度、内聚度,可以反映一个词内部的两个部分结合的紧密程度。具体做法:除了合并对象的选择以外,基本同BPE;输入:训练语料;词表大小V1.准备基础词表:比如英文中26个字母加上各种符号;2.基于基础词表将语料拆分为最小单元;3.基于第2步数据训练语言模型,可以是unigram语言模型,通过极大似然进行估计即可;4.从所有可能得token对中选择,选择合并后可以最大程度地增加训练数据概率的token对进行合并,具体的score=(freq_of_pair)/(freq_of_first_element×freq_of_second_element),当然你也可以取个log,就变成了互信息,选择最高的单元对进行合并;5.重复第4步直到达到预先设定的subword词表大小或概率增量低于某一阈值;输出:wordpiece算法得到的subword词表优势与劣势:优势:可以较好的平衡词表大小和OOV问题;劣势:可能会产生一些不太合理的子词或者说错误的切分;对拼写错误非常敏感;对前缀的支持不够好;复合词错误的切分:前缀的错误处理:一种解决方案是:将复合词拆开;将前缀也拆开;代码实现:refs:japanese and korean voice searchhttps://static.googleusercontent.com/media/research.google.com/zh-CN//pubs/archive/37842.pdf4.ULMULM出自《 Subword Regularization: Improving Neural Network Translation Models with Multiple Subword Candidates 》。核心思想:初始化一个大词表,然后通过unigram 语言模型计算删除不同subword造成的损失来代表subword的重要性,保留loss较大或者说重要性较高的subword。具体做法:输入:训练语料;词表大小V1.准备基础词表:初始化一个很大的词表,比如所有字符+高频ngram,也可以通过BPE算法初始化;2.针对当前词表,用EM算法估计每个子词在语料上的概率;3.计算删除每个subword后对总loss的影响,作为该subword的loss;4.将子词按照loss大小进行排序,保留前x%的子词;注意,单字符不能被丢弃,以免OOV;5.重复步骤2到4,直到词表大小减少到设定值;输出:ULM算法得到的subword词表可见,ULM会倾向于保留那些以较高频率出现在很多句子的分词结果中的子词,因为这些子词如果被删除,其损失会很大。优势与劣势:优势:1)使用的训练算法可以利用所有可能的分词结果,这是通过data sampling算法实现的;2)提出一种基于语言模型的分词算法,这种语言模型可以给多种分词结果赋予概率,从而可以学到其中的噪声;3)使用时也可以给出带概率的多个分词结果。劣势:1)效果与初始词表息息相关,初始的大词表要足够好,比如可以通过BPE来初始化;2)略显复杂。代码实现:refs:Subword Regularization: Improving Neural Network Translation Models with Multiple Subword Candidates https://arxiv.org/abs/1804.10959 NLP三大Subword模型详解:BPE、WordPiece、ULM - 阿北的文章 - 知乎https://zhuanlan.zhihu.com/p/1916484215.SentencePieceSentencePiece,有些文章将其看作一种分词方法,有的地方将其视为一个分词工具包。个人更倾向于后者,但是将其看作一种分词算法也未尝不可(因为不仅是分词算法的集成,还做了很多优化)。官方介绍:SentencePiece is an unsupervised text tokenizer and detokenizer mainly for Neural Network-based text generation systems where the vocabulary size is predetermined prior to the neural model training. SentencePiece implements subword units (e.g., byte-pair-encoding (BPE) [Sennrich et al.]) and unigram language model [Kudo.]) with the extension of direct training from raw sentences. SentencePiece allows us to make a purely end-to-end system that does not depend on language-specific pre/postprocessing.https://github.com/google/sentencepiece 主要特性多分词粒度:支持BPE、ULM子词算法,也支持char, word分词;多语言:以unicode方式编码字符,将所有的输入(英文、中文等不同语言)都转化为unicode字符,解决了多语言编码方式不同的问题;编解码的可逆性:之前几种分词算法对空格的处理略显粗暴,有时是无法还原的。Sentencepiece显式地将空白作为基本标记来处理,用一个元符号 “▁”( U+2581 )转义空白,这样就可以实现简单且可逆的编解码;无须Pre-tokenization:Sentencepiece可以直接从raw text/setences进行训练,无须Pre-tokenization;Fast and lightweight;编解码的可逆性:Decode(Encode(Normalized(text)))= Normalized(text)一个中文转Unicode的示例:https://tool.chinaz.com/tools/unicode.aspx refs:https://github.com/google/sentencepiecesentencepiece原理与实践https://www.zhihu.com/tardis/zm/art/159200073?source_id=1003 6.主流subword算法的对比wordpiece和BPE的对比wordpiece和BPE的对比:都是走的合并的思路,将语料拆分成最小单元(英文中26个字母加上各种符号,这些作为初始词表)然后进行合并,词表从小到大;核心区别就在于wordpiece是按token间的互信息来进行合并而BPE是按照token一同出现的频率来合并的。wordpiece和ULM的对比:wordpiece和ULM的对比:都使用语言模型来挑选子词;区别在于前者词表由小到大,而后者词表由大到小,先初始化一个大词表,根据评估准则不断丢弃词表,直到满足限定条件。ULM算法考虑了句子的不同分词可能,因而能够输出带概率的多个分词结果。三种subword分词算法的关系7.tokenizers库优先级靠后2.分词器1.BERT的分词器BERT的分词器由两个部分组成:BasicTokenizer:转成 unicode:Python3,输入为str时,可以省略这一步_clean_text:去除各种奇怪字符_tokenize_chinese_chars:中文按字拆开whitespace_tokenize:空格分词_run_strip_accents:去掉变音符号_run_split_on_punc:标点分词再次空格分词:whitespace_tokenize(" ".join(split_tokens)),先用空格join再按空白分词,可以去掉连续空格WordpieceTokenizer:贪心最大匹配:用双指针实现;核心代码:tokenize(self, text):2.T5的分词器3.GPT的分词器4.LLaMA的分词器5.GLM的分词器总结下面对主流模型使用的分词器进行总结(待完善):参考资料深入理解NLP Subword算法:BPE、WordPiece、ULM - Luke的文章 - 知乎https://zhuanlan.zhihu.com/p/86965595NLP三大Subword模型详解:BPE、WordPiece、ULM - 阿北的文章 - 知乎https://zhuanlan.zhihu.com/p/191648421NLP中的subword算法及实现 - 微胖界李现的文章 - 知乎https://zhuanlan.zhihu.com/p/112444056NLP BERT GPT等模型中 tokenizer 类别说明详解https://cloud.tencent.com/developer/article/1865689BERT 客制化分词器和 WWM 的实现 - 满甲的文章 - 知乎https://zhuanlan.zhihu.com/p/268515387bert第三篇:tokenizerhttps://blog.csdn.net/iterate7/article/details/108959082BERT 是如何分词的https://blog.csdn.net/u010099080/article/details/102587954同:BERT 是如何分词的 - Alan Lee的文章 - 知乎https://zhuanlan.zhihu.com/p/132361501Bert系列伴生的新分词器https://dxzmpk.github.io/2020/04/29/Bert%E7%B3%BB%E5%88%97%E4%BC%B4%E7%94%9F%E7%9A%84%E6%96%B0%E5%88%86%E8%AF%8D%E5%99%A8/Tokenizers: How machines readhttps://blog.floydhub.com/tokenization-nlp/【HugBert11】聚沙成塔:关于tokenization(词元化)的解疑释惑 - 套牌神仙的文章 - 知乎https://zhuanlan.zhihu.com/p/371300063japanese and korean voice searchhttps://static.googleusercontent.com/media/research.google.com/zh-CN//pubs/archive/37842.pdf[1508.07909] Neural Machine Translation of Rare Words with Subword Units 3-3 Transformers Tokenizer API 的使用https://www.zhihu.com/tardis/zm/art/390821442?source_id=1003关于transformers库中不同模型的Tokenizer - 莫冉的文章 - 知乎https://zhuanlan.zhihu.com/p/121787628NLP领域中的token和tokenization到底指的是什么? - 知乎https://www.zhihu.com/question/64984731NLP中的Tokenization - 薛定谔没养猫的文章 - 知乎https://zhuanlan.zhihu.com/p/444774532大模型中的分词器tokenizer:BPE、WordPiece、Unigram LM、SentencePiece - 眼睛里进砖头了的文章 - 知乎https://zhuanlan.zhihu.com/p/620508648浅谈Byte-Level BPE - CaesarEX的文章 - 知乎https://zhuanlan.zhihu.com/p/146114164 理解NLP最重要的编码方式 — Byte Pair Encoding (BPE),这一篇就够了 - 硅谷谷主的文章 - 知乎https://zhuanlan.zhihu.com/p/424631681 Neural Machine Translation with Byte-Level Subwordshttps://arxiv.org/abs/1909.03341 tokenizers小结 - 马东什么的文章 - 知乎https://zhuanlan.zhihu.com/p/360290118 互信息https://zh.wikipedia.org/wiki/%E4%BA%92%E4%BF%A1%E6%81%AFPython unicodedata.normalize 将Unicode文本标准化https://blog.csdn.net/weixin_43866211/article/details/98384017Weaknesses of WordPiece Tokenizationhttps://medium.com/@rickbattle/weaknesses-of-wordpiece-tokenization-eb20e37fec99 Subwordhttps://paddlepedia.readthedocs.io/en/latest/tutorials/pretrain_model/subword.html sentencepiece原理与实践https://www.zhihu.com/tardis/zm/art/159200073?source_id=1003 抱抱脸:https://huggingface.co/docs/transformers/tokenizer_summaryhttps://huggingface.co/learn/nlp-course/zh-CN/chapter2/4?fw=tfhttps://huggingface.co/learn/nlp-course/chapter6/7?fw=pthttps://huggingface.co/learn/nlp-course/chapter6/5?fw=pt编辑于 2023-05-03 00:20​赞同 153​​7 条评论​分享​收藏​喜欢

区块链Token是什么意思? - 知乎

区块链Token是什么意思? - 知乎首页知乎知学堂发现等你来答​切换模式登录/注册区块链(Blockchain)许子敬token区块链Token是什么意思?求具体解释显示全部 ​关注者54被浏览48,768关注问题​写回答​邀请回答​好问题​1 条评论​分享​30 个回答默认排序巴比特​已认证账号​ 关注答主在推上逛了一圈,关于Token,TokenInsight COO,也就是Wayne讲的非常好,建议大家看一下,我仅做搬运工,主要的内容包括Token 到底有什么意义?一个协议的 Token 价值到底在什么地方?协议到底需要不需要 Token?为什么有些协议很棒,但是币越来越不行?Token 到底有什么意义?其实这个问题说简单也简单,说难也挺难回答的。我记得几年前瑞士金融的一个监管部门最早发过一个关于 Token 的分类,把 Token 分成了:证券型 Token,Security效用型 Token,Utility支付型 Token,Payment发展到今天,当然所有的 Token 依然可以套用上面这个分类标准进行分类,但是实际上社区可能更加偏好于将 Token 分类成:治理型 - 用于项目治理投票的 Token效用型 - 作为项目运转的关键元素,具有分红、质押、收益等权利储藏型 - 如比特币,慢慢被作为一种另类投资资产/大类商品所有权 - 随着 DAO 的风靡,越来越多的协议开始强调协议的社区所有,去中心化的重要标志之一便是把关于项目的所有决策、收益等权利都赋予 Token 持有人把 Token 强行做分类分析等意义不大,在这样一个信息爆炸的行业,信息、创新不断涌现的情况下,找出共同点,抓取市场情况/协议行为的特征值可能更能描绘出未来的发展路线。所以我这里就不尝试做出一个所谓的分类标准,而转为只是将一些共同点/特征值提取出来分享。今天有社区的朋友问:”生产力和生产资料的代币化是否真的能够提高生产效率?” ”区块链技术是否是一次人类社会激励模式的变革?”首先还是之前说的那句老话,这个问题真的太大了,很难回答。“生产力” 和 “生产资料” 应该都是马克思主义经济学的概念,而这两个概念有些过度抽象。我个人觉得如果非要套用这些概念,Token 应该只是和分配体系有关,而和生产力和生产资料无关。生产力和生产资料的提高更多的在于科学技术的提升,而分配体系影响激励体系,激励体系进一步影响对生产力和生产资料的使用,从而间接但很大程度地影响效率。但是区块链技术可能的确能够影响生产资料,而且是现在以及未来社会的最重要生产资料之一:数据。数据保存的时间范围以及历史数据的获取是最直观的例子。区块链账本技术的历史数据保存和唯一性改变了数据这个生产资料的性质,然后进一步影响上层对数据的使用加工。但是我一直觉得“永久存储”这个概念不应该过多被强调,没有什么是永久的,太阳也有自己的寿命,连爱情也都不是永久的 。回过头来说 Token 改变了分配机制,包括生产资料的分配和在生产资料基础上加工后产生的回报的分配机制。所以 Web3 强调的是所有权,这个所有权包括任何一个个体产生的内容以及在内容基础之上的收益所有权。你写了一首歌,以 NFT 的形式存在你的账号中,资产本身就是一个凭证所以确定了这首歌的所有权。在此基础之上的商业行为就更好确定收益也该给你。所以在这个基础之上,我们再看任何一个协议/项目的 Token 价值所在:Token 是否深刻影响着生产资料的分配?Token 是否深刻影响着生产资料基础之上获得收益的分配?Token 的价格/价值来源上面我提的两点,最终决定的是一个项目/协议的链上价值。在下面我又把 Token 的价格表现(直接用了价格,而不是价值)分成了三个组成部分:链上 - 就是 Token 的经济设计和激励设计链下 - 包括比如赛道、团队等信息(如这团队靠谱这样的判断状态)市场情绪 - 短期内对价格影响最大的因素链上状态链上状态包含了大家常说的 Token 经济学模型设计。我们其实可以把决定项目关键参数等大量的投票治理机制都归类到生产资料的分配逻辑中去,而协议的分红或者回购销毁则都属于在生产资料之上产生收益的分配机制。这两点共同组成了 Token 的经济学模型最重要的部分,而这些机制最终形成成熟的项目链上基本面数据。具体的投票可能包含以下几个方面:对协议的控制 - 决定协议的核心参数对协议的控制 - 决定协议的部署方向对协议资产的控制 - 协议拥有资产的支配权利如 GameFi/DAO 组织协议中的 NFT 资产,以及所谓的国库存储资产的如何使用,一般都会通过投票决定,这些都属于一个协议的生产资料分配方式。如 Uniswap 拥有大量的属于国库资产的 Uni,Maker 中借贷抵押清算等关键数据的决策,Ribbon 属于协议的资产等。生产资料本应是最重要的元素,但是实际上生产资料能够对 Token 的价格在中短期内能够带来的价格影响在大部分情况下都十分有限。更重要的是,这些生产资料的决定一般来说对于普通用户影响十分有限,甚至导致非常多的普通用户根本不在乎这些投票决策。另外一个治理投票对 Token 价格(显得)没有多大影响的原因在于,大量的项目都处于早期阶段,这些项目本质上压根就没有什么东西好决策的。为了让社区感觉 Token 有价值,只能强行给 Token 赋能,让用户感觉持有 Token 真的能够左右协议未来的发展,Token 真的有价值。但是实际上协议未来的发展连项目方可能都没想明白怎么干,又怎么可能交给用户呢?除了通过生产资料带来的治理给 Token 赋能之外,在生产资料的基础上产生的收益分配则是看起来更加实际可行的选择。一般来说成熟成功的协议都会有 Token 的现金流收入,如果没有也会说自己未来会有(更多的情况)。用户在协议基础上参与摩擦产生的手续费,或者是协议本身的收益都是这些资金的源头。项目一般采用:回购/销毁:“实打实”地减少项目 Token 的流通盘分红:持有赚取收益现在主流的项目还会将两者结合起来,通过锁定 Token 的流动性,获取协议分红的权利,同时协议的收入还会对项目 Token 进行回购。这类最典型的项目包括 CRV,SUSHI,ALPHA。CRV 通过锁定 CRV 能够获取协议的收益,同时还能加强参与 Cruve 流动性提供的收益。SUSHI 锁定后获得 xSUSHI,xSUSHI 代表了平台收益的索取权利。ALPHA 也是一样锁定后获得 xALPHA,xALPHA 拥有协议收益的分红权,并且还拥有其他业务产生的收益:Alpha Launchpad 等。这样的做法是目前非常可行,并且也证明有效。但是基本是所有项目都来模仿这些做法,很多时候直接抄并不行的原因在于:回购的 Token 是哪儿的?如果本来就没参与流通,那回购也是个寂寞赚取的收益很多时候也是以 Token 的形式给用户 - 饮鸩止渴既然说到这里,就多说两句为什么现在很多之前所谓的 DeFi 蓝筹项目死气沉沉的,其中以 Uniswap 为典型代表。Uniswap 其实并没有任何回购、分红等机制。没有这些机制的原因可能更多的是在于监管风险。因为一旦涉及到回购或者分红就可能会被列入证券的范畴。这些 DeFi 蓝筹,或者说「古典 DeFi」不行了的很大原因肯定是市场热度不在了。大家对于这些项目的认知都基本清晰,如果没有特别明确显著的持有收益,大量用户是不太愿意继续持有的,更何况持有意味着机会成本。这个圈子变化的那么快,那么多机会都在外面,何必要将资金被占用在这些已经没有那么性感的项目上呢?这个就是后面要讲的,现阶段对于资产价格影响最大的还是市场情绪。不过话说回来,如果项目有稳定的营收,并且能够稍微给 Token 一些赋能,故事总归是会回来的,只是时间长短罢了。另外一个原因在于,古典的 DeFi 项目强调的都是 TVL,协议锁仓值,或者协议锁仓值与市值的比值。锁仓其实是一个非常泛的概念,甚至有时候根本无法准确的体现出一个协议中包含的价值到底是多少:锁仓可能有投资人贡献的大量资产锁仓有大量非流动性资产,如协议自己的 Token而锁仓值/市值,本质上资金的利用率。不同的协议很难放在一起对比,所以这个比值也经不起细细推敲。同样的资金量,交易所的营收肯定要比钱包/ DeFi 协议好很多。交易所中的资金首先都是交易所管理,用户的所有行为基本都必须要对这些资金通过交易所的服务来流转/交易,任何摩擦都是交易所的收入。但是钱包,去中心化钱包来说,用户使用资产更多的是和其他协议进行交互,实际上并没有和钱包本身有过多的交互,因而这样的交互产生的摩擦/流转,收入基本上落入了 ETH 矿工(交易手续费)和各个协议中去。这里再说一下,未来钱包这个的中间键至关重要。而且方向上一定是要增加用户资产和钱包本身的互动,将用户的资产摩擦交易行为都放在内部,这样才能够提升单个用户的价值,增加营收。这其中最可观的一个业务方向之一可能就是 Web2.0 很火的推荐业务。你想像一下,你去银行 APP 买理财,你是一个一个理财产品看一遍,还是直接买对方推荐的产品。链下状态这部分的价值其实是最难让普通用户捕获的。核心原因在于信息的不透明性。这部分信息包括项目的团队,未来的发展计划,团队的状态,工作模式、流程、效率等。这些内容一般来说都会在早期投资(私募)阶段体现出来,而且更多的是通过聊天沟通的形式。一般投资人很看掌握这些消息。一个优秀的团队往往能够决定一个协议的价值下限。当市场很差,甚至项目出了问题时,团队的不同往往决定了投资人和项目的不同命运。当然在公开市场上,这些基本信息的适当营销行为也能够增强普通用户对于项目的了解和信心。市场情绪承认市场情绪对 Token 价格的影响最大是一件既痛苦又兴奋的事情。痛苦的地方在于,如果市场情绪是最大的推动力,那么也就意味着币这玩意儿没什么基本面,或者压根不靠基本面。说好听点叫做市场情绪,说难听点其实就是『泡沫』+『价格操纵』。回想一下 DeFi 刚刚获得时候,市场上的文章都是 DeFi 乐高、相比传统金融的更高效、蓝筹有无限潜力。后来 dYdX 又开始说去中心化衍生品是一个巨大赛道,甚至是行业未来。MEME 就不用说了,一个让人着迷让人疯狂的玩意。再到 NFT、Loot、碎片化、SocialFi、DAO、Web3。而兴奋的地方在于,既然还是要靠讲故事,要么这个行业完全就是个骗子行业,要么真的就是处于很早期的阶段。前面是不是骗子真的就是见仁见智的事情了,但是如果你在看这个文字,那大概率你不会觉得这是个骗子行业。那剩下的另外一个可能性就是让人兴奋的一件事情了。最后说两句前几天 Tencent 出了一个两位程序员的事情,其实从某种程度上我能够部分体会那种想法。我们可能每个人,大多数都还是普通人,都不得不面对一个现实:我们都只能平平无奇,庸庸碌碌的过完没有多大意义的一生。就好像“长期来看,我们都会死去”一样,意识到这一点,工作、生活最终都是为了那点口粮,以及现在大多数人追求的物质上的快乐奔波,值得吗?是否有什么真正有意义的事情让自己去做呢?大多数年轻人可能不光是心理上是躺平的状态,实际上也是一个躺平的状态。说到这里我其实想到的是那些所谓“画大饼”的想法,我其实一直不觉得“画大饼”有什么错。为什么一个人有理想有抱负,我们都知道不应该嘲笑而应该尊重。但是一个公司有理想有抱负就是骗人的,是画大饼是为了剥削员工想出来的手段呢?如果可以,哪个少年不梦想着改变世界?一个人总要相信点什么。我喜欢这个行业和很多喜欢这个行业的人一样,因为它足够新,足够开放,有足够的机会让你去做你喜欢做的事情。懒惰在很多行业可能真的不能成为没有一番作为的借口,但是在 Crypto 行业,虽然运气的成分更大。但是懒惰大概率是能够成为做的不好的借口,这一点对于个人或者公司都一样。编辑于 2021-12-22 15:49​赞同 17​​添加评论​分享​收藏​喜欢收起​Starteos.ioEOS超级节点​ 关注区块链代币(英文名称:Token)涵盖的范围较广;其代表着不同形式的数字资产。如果把区块链比喻成发动机,那么区块链代币(英文名称:Token)就是燃料。区块链是一个底层技术,分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式,是一种分布式实时更新的账本。就好像区块链是大家的手机,而区块链代币(token)是其中一个App。它有很多作用:用于价值交换,投票以及充当数字资产。价值交换:这是我们现在看到的最常见的作用,以以太坊(ETH)为例,区块链项目发行后,创始团队想要项目增值,就必须不断完善及优化相关技术,而每个使用该区块链网络服务的用户,则需要向以太坊矿工支付一定费用,以激励其继续参与整个网络的维护(比如:记账)投票权——区块链代币可以进行投票,赋予其使用该区块链网络服务的用户参与区块链系统决策过程的权利(比如:投票设置交易费用、投票给固定的节点,这些节点作为权益人的代理去行使记账的权利、投票同意对网络应用各种升级等)。另一种资产(货币-目前不被国家认可)——如果你拥有人民币、房地产、股票,贵金属等,则代表了这是你的资产,那么你拥有区块链代币,则代表了拥有这个标记数字化化资产的权利。每种代币都基于某个底层的区块链。代币可以在数字货币交易平台进行交易,用以换成你所需要的法定货币,比如:人民币。而且其中的交易信息会被记录在被称为区块链的安全分布式数据库当中。发布于 2019-12-10 16:16​赞同 3​​添加评论​分享​收藏​喜欢

TOKEN在剑桥英语词典中的解释及翻译

TOKEN在剑桥英语词典中的解释及翻译

词典

翻译

语法

同义词词典

+Plus

剑桥词典+Plus

Shop

剑桥词典+Plus

我的主页

+Plus 帮助

退出

剑桥词典+Plus

我的主页

+Plus 帮助

退出

登录

/

注册

中文 (简体)

查找

查找

英语

token 在英语中的意思

tokennoun [ C ] uk

Your browser doesn't support HTML5 audio

/ˈtəʊ.kən/ us

Your browser doesn't support HTML5 audio

/ˈtoʊ.kən/

token noun [C]

(SYMBOL)

Add to word list

Add to word list

C1 something that you do, or a thing that you give someone, that expresses your feelings or intentions, although it might have little practical effect: As a token of our gratitude for all that you have done, we would like you to accept this small gift. It doesn't have to be a big present - it's just a token.

“SMART 词汇”:相关单词和短语

Signs, signals and symbols

acid test

beacon

breadcrumb

challenge flag

cryptanalyst

iconographic

iconographically

iconography

indicator

lagging indicator

leading indicator

obelus

octothorpe

pilcrow

prime

prompt

signboard

SOS

the all-clear

torch

查看更多结果»

你还可以在这些话题中找到相关的词、词组和同义词:

Showing and demonstrating

Presents and gifts

token noun [C]

(WORTH MONEY)

UK (US gift certificate) a piece of paper, a card, or an electronic document with a particular amount of money shown on it that can be exchanged in a shop or online for goods of that value: a £20 record token He always bought me tokens for a department store for my birthday. 也请参见

book token

gift token

C1 UK (US gift certificate) a round metal or plastic disc that can be used instead of money : Metal tokens are used instead of cash in some slot machines in casinos. First they had to queue up to receive a small plastic token, which they could then exchange for food.

 

PhotoMelon/iStock/Getty Images Plus/GettyImages

更多范例减少例句The tokens can be swapped for T shirts, key rings, and other prizes.

“SMART 词汇”:相关单词和短语

Payment methods

anti-kickback

ATM card

automatic withdrawal

bad cheque

baksheesh

bribe

chip

commission

liquid

meal ticket

monetization

monetize

money-back

monometallic

Monopoly money

payoff

per calendar month

pocket

severance

whip-round

查看更多结果»

token noun [C]

(COMPUTING)

computing

  specialized a piece of data that is used to represent and replace another one, in order to prevent private information being seen by someone who is not allowed to do so: When we receive the transaction securely, we tokenize it and send back a token to the merchant so they never have to see a card number for settlement. 也请参见

non-fungible token相关词语

tokenize

tokenization

更多范例减少例句The system then automatically generates an authentication token and includes the token in the outbound transaction. The client software decrypts the stored encrypted token.This is a secure encryption device for digital token generation.

“SMART 词汇”:相关单词和短语

Computer concepts

2FA

2SV

3-D printing

adaptive learning

additive manufacturing

haptics

HCI

hex

hexadecimal

hill climbing

infection

protocol

simulation

telematic

telematics

telerobotics

teraflop

tether

texture

word processing

查看更多结果»

你还可以在这些话题中找到相关的词、词组和同义词:

Codes & decoding

token noun [C]

(LANGUAGE)

language

  specialized a unit of language that is used in a particular text : The participants produced 1,564 linguistic tokens, of which 1,021 (65%) were marked for plural. Types are the distinct words in a text, whereas tokens are all the words, including repeats.

更多范例减少例句A sample of language cannot contain more distinct words (types) than the total words it contains (tokens).The lexical diversity of a text or its type-token ratio (TTR) is calculated by dividing the number of unique words (types) in a text by the total number of words (tokens).

“SMART 词汇”:相关单词和短语

Linguistic terms & linguistic style

accentual

affricate

allophone

allophony

anaphor

contextualize

easy read

emphatic

entailment

etymological

etymologically

inflected language

parataxis

pathetic fallacy

philological

philologically

polysemy

portmanteau word

stylistics

tautology

查看更多结果»

也请参见

by the same token

tokenadjective [ before noun ] uk

Your browser doesn't support HTML5 audio

/ˈtəʊ.kən/ us

Your browser doesn't support HTML5 audio

/ˈtoʊ.kən/

used to describe an action, an amount, etc. that is intended to represent something or to show that you are doing something, even if is very small or has a small effect: The troops in front of us either surrendered or offered only token (= not much) resistance. The company was bought by the government for a token 1p a share.

disapproving used to refer to something that is done to in order to appear to support, help, or represent a particular group of people, but that does not help that group of people in a lasting or important way: The truth is that they appoint no more than a token number of women to managerial jobs. When just one woman is on a company's board she may be dismissed as the token female. I felt like a token Black person on the committee. 相关词语

tokenism

tokenistic

tokenize

tokenization

更多范例减少例句He lives with his parents and pays them a token rent of £50 a month.They were the only country to argue for even token recognition of the Baltic states' independence.It is easy to do token things to educate people, but to write a book and distribute it to so many schools makes a real impression.The newspaper hires a token Conservative columnist to give the appearance of balance.

“SMART 词汇”:相关单词和短语

Typifying, illustrating and exemplifying

analogy

archetypal

archetypically

be someone all over idiom

betoken

characterize

instance

instantiate

mirror

Mr

Mrs

stereotype

sum

sum (something/someone) up

summation

symbolic

symbolization

symptom

territory

translate

查看更多结果»

(token在剑桥高级学习词典和同义词词典中的解释 © Cambridge University Press)

token | 美式英语词典

tokennoun [ C ] us

Your browser doesn't support HTML5 audio

/ˈtoʊ·kən/

token noun [C]

(SYMBOL)

Add to word list

Add to word list

something you give to someone or do for someone to express your feelings or intentions: It isn’t a big present – it’s just a token of thanks for your help.

token noun [C]

(DISK)

a round, metal or plastic disk which is used instead of money in some machines: subway tokens

tokenadjective [ not gradable ] us

Your browser doesn't support HTML5 audio

/ˈtoʊ·kən/

token adjective [not gradable]

(SYMBOL)

small or limited but having a symbolic importance: a token fee a token gesture of goodwill

(token在剑桥学术词典中的解释 © Cambridge University Press)

token | 商务英语

tokennoun [ C ] uk

Your browser doesn't support HTML5 audio

/ˈtəʊkən/ us

Your browser doesn't support HTML5 audio

Add to word list

Add to word list

MONEY a round piece of metal or plastic that is used instead of money in some machines, for example, to get food or drink out of a vending machine, use a car park, etc: You'll need some tokens for the coffee machine.

MARKETING a piece of paper that is given when you buy a particular product, which can be exchanged for something when you have collected enough of them: There is a promotion on the cereal box offering a free toy for every 10 tokens you collect.

formal an action that you take or a thing that you give that is a symbol of your feelings about something, even though it may not be very big or valuable: a token of sth Please accept this gift as a token of our gratitude.

也请参见

book token

gift token

tokenadjective [ before noun ] uk

Your browser doesn't support HTML5 audio

/ˈtəʊkən/ us

Your browser doesn't support HTML5 audio

disapproving done or existing only to show that you are following rules or doing what is expected, even though the results are limited: The wording of the advertisement was merely a token gesture towards equal opportunities. She was appointed as the token woman on the board

used to describe a payment that is very small: a token sum/payment There is a token charge for membership of the staff club.

(token在剑桥商务英语词典中的解释 © Cambridge University Press)

token的发音是什么?

 

C1,C1

token的翻译

中文(繁体)

標誌, 表示, 象徵…

查看更多内容

中文(简体)

标志, 表示, 象征…

查看更多内容

西班牙语

señal, vale, ficha…

查看更多内容

葡萄牙语

símbolo, cupom, ficha…

查看更多内容

更多语言

in Marathi

土耳其语

法语

日语

in Dutch

in Tamil

in Hindi

in Gujarati

丹麦语

in Swedish

马来语

德语

挪威语

in Urdu

in Ukrainian

俄语

in Telugu

in Bengali

捷克语

印尼语

泰语

越南语

波兰语

प्रतीक, तुमच्या भावना किंवा हेतू व्यक्त करण्यासाठी तुम्ही जे काही करता किंवा जी गोष्ट तुम्ही एखाद्याला देता, त्याचा थोडासा व्यावहारिक परिणामही होऊ शकतो.…

查看更多内容

hatıra, yadigâr, işaret…

查看更多内容

marque [feminine], jeton [masculine], bon-cadeau [masculine]…

查看更多内容

印(しるし), メダル, トークン…

查看更多内容

aandenken, bon…

查看更多内容

நீங்கள் செய்யும் ஏதாவது, அல்லது நீங்கள் ஒருவருக்கு கொடுக்கும் ஒரு விஷயம், உங்கள் உணர்வுகள் அல்லது நோக்கங்களை வெளிப்படுத்துகிறது…

查看更多内容

टोकन, निशानी, प्रतीक…

查看更多内容

પ્રતીક, સ્મરણચિન્હ, ટોકન…

查看更多内容

tegn, værdikupon…

查看更多内容

tecken, bevis, presentkort…

查看更多内容

tanda, token…

查看更多内容

das Zeichen, der Gutschein…

查看更多内容

tegn [neuter], sjetong [masculine], gavekort [neuter]…

查看更多内容

علامت, یادگار, نشان…

查看更多内容

знак, жетон…

查看更多内容

знак, символ (благодарности и т. д.), жетон…

查看更多内容

గుర్తు / ఆచరణాత్మకంగా తక్కువ ప్రభావాన్ని చూపినప్పటికీ మీరు చేసేది లేదా మీరు ఎవరికైనా ఇచ్చే వస్తువు మీ భావాలను లేదా ఉద్దేశాలను వ్యక్తపరుస్తుంది, కొన్ని యంత్రాలలో డబ్బుకు బదులుగా ఉపయోగించే ఒక గుండ్రని లోహంపు లేదా ప్లాస్టిక్ డిస్క్…

查看更多内容

স্মারক বস্তু, একটি বৃত্তাকার ধাতু বা প্লাস্টিকের ডিস্ক যা কিছু মেশিনে অর্থের পরিবর্তে ব্যবহৃত হয়…

查看更多内容

symbol, znak, žeton…

查看更多内容

tanda, kupon…

查看更多内容

สิ่งที่ใช้เป็นสัญลักษณ์, เหรียญพลาสติกหรือโลหะที่ใช้แทนเงิน…

查看更多内容

dấu hiệu, nhãn khi giá hàng hóa…

查看更多内容

dowód, znak, żeton…

查看更多内容

需要一个翻译器吗?

获得快速、免费的翻译!

翻译器工具

 

浏览

toilets phrase

toiling

toilsome

toke

token

token coinage

token money

token strike

tokenism

token的更多意思

全部

e-token

book token

gift token

token money

token coinage

token strike

non-fungible token

查看全部意思»

惯用语

by the same token idiom

“每日一词”

white chocolate

a sweet, cream-coloured food made from cocoa butter, sugar, and milk, that is usually sold in a block

关于这个

博客

Renowned and celebrated (Words meaning ‘famous’)

March 13, 2024

查看更多

新词

inverse vaccine

March 11, 2024

查看更多

已添加至 list

回到页面顶端

内容

英语美式商务翻译

©剑桥大学出版社与评估2024

学习

学习

学习

新词

帮助

纸质书出版

Word of the Year 2021

Word of the Year 2022

Word of the Year 2023

开发

开发

开发

词典API

双击查看

搜索Widgets

执照数据

关于

关于

关于

无障碍阅读

剑桥英语教学

剑桥大学出版社与评估

授权管理

Cookies与隐私保护

语料库

使用条款

京ICP备14002226号-2

©剑桥大学出版社与评估2024

剑桥词典+Plus

我的主页

+Plus 帮助

退出

词典

定义

清晰解释自然的书面和口头英语

英语

学习词典

基础英式英语

基础美式英语

翻译

点击箭头改变翻译方向。

双语词典

英语-中文(简体)

Chinese (Simplified)–English

英语-中文(繁体)

Chinese (Traditional)–English

英语-荷兰语

荷兰语-英语

英语-法语

法语-英语

英语-德语

德语-英语

英语-印尼语

印尼语-英语

英语-意大利语

意大利语-英语

英语-日语

日语-英语

英语-挪威语

挪威语-英语

英语-波兰语

波兰语-英语

英语-葡萄牙语

葡萄牙语-英语

英语-西班牙语

西班牙语-英语

English–Swedish

Swedish–English

半双语词典

英语-阿拉伯语

英语-孟加拉语

英语-加泰罗尼亚语

英语-捷克语

英语-丹麦语

English–Gujarati

英语-印地语

英语-韩语

英语-马来语

英语-马拉地语

英语-俄语

English–Tamil

English–Telugu

英语-泰语

英语-土耳其语

英语-乌克兰语

English–Urdu

英语-越南语

翻译

语法

同义词词典

Pronunciation

剑桥词典+Plus

Shop

剑桥词典+Plus

我的主页

+Plus 帮助

退出

登录 /

注册

中文 (简体)  

Change

English (UK)

English (US)

Español

Русский

Português

Deutsch

Français

Italiano

中文 (简体)

正體中文 (繁體)

Polski

한국어

Türkçe

日本語

Tiếng Việt

Nederlands

Svenska

Dansk

Norsk

हिंदी

বাঙ্গালি

मराठी

ગુજરાતી

தமிழ்

తెలుగు

Українська

关注我们

选择一本词典

最近的词和建议

定义

清晰解释自然的书面和口头英语

英语

学习词典

基础英式英语

基础美式英语

语法与同义词词典

对自然书面和口头英语用法的解释

英语语法

同义词词典

Pronunciation

British and American pronunciations with audio

English Pronunciation

翻译

点击箭头改变翻译方向。

双语词典

英语-中文(简体)

Chinese (Simplified)–English

英语-中文(繁体)

Chinese (Traditional)–English

英语-荷兰语

荷兰语-英语

英语-法语

法语-英语

英语-德语

德语-英语

英语-印尼语

印尼语-英语

英语-意大利语

意大利语-英语

英语-日语

日语-英语

英语-挪威语

挪威语-英语

英语-波兰语

波兰语-英语

英语-葡萄牙语

葡萄牙语-英语

英语-西班牙语

西班牙语-英语

English–Swedish

Swedish–English

半双语词典

英语-阿拉伯语

英语-孟加拉语

英语-加泰罗尼亚语

英语-捷克语

英语-丹麦语

English–Gujarati

英语-印地语

英语-韩语

英语-马来语

英语-马拉地语

英语-俄语

English–Tamil

English–Telugu

英语-泰语

英语-土耳其语

英语-乌克兰语

English–Urdu

英语-越南语

词典+Plus

词汇表

选择语言

中文 (简体)  

English (UK)

English (US)

Español

Русский

Português

Deutsch

Français

Italiano

正體中文 (繁體)

Polski

한국어

Türkçe

日本語

Tiếng Việt

Nederlands

Svenska

Dansk

Norsk

हिंदी

বাঙ্গালি

मराठी

ગુજરાતી

தமிழ்

తెలుగు

Українська

内容

英语 

 

Noun 

token (SYMBOL)

token (WORTH MONEY)

token (COMPUTING)

token (LANGUAGE)

Adjective

美式 

 

Noun 

token (SYMBOL)

token (DISK)

Adjective 

token (SYMBOL)

商务 

 NounAdjective

Translations

语法

所有翻译

我的词汇表

把token添加到下面的一个词汇表中,或者创建一个新词汇表。

更多词汇表

前往词汇表

对该例句有想法吗?

例句中的单词与输入词条不匹配。

该例句含有令人反感的内容。

取消

提交

例句中的单词与输入词条不匹配。

该例句含有令人反感的内容。

取消

提交

欧路词典|英汉-汉英词典 token是什么意思_token的中文解释和发音_token的翻译_token怎么读

欧路词典|英汉-汉英词典 token是什么意思_token的中文解释和发音_token的翻译_token怎么读

欧路词典

法语助手

德语助手

西语助手

欧路英语

每日一句:Without mathematics, there's nothing you can do. Everything around you is mathematics. Everything around you is numbers.

首页

App下载

欧路翻译

每日英语听力

AI写作

英语课堂

背单词

支持英汉-汉英词典查询 英语例句搜索

词典

例句

变位

词条纠错X

token

您还没有登录,点这里登录或注册

登录后,您可以提交反馈建议,同时可以和手机、电脑同步生词本。

在英汉-汉英词典中发现10个解释错误,并通过审核,将获赠「欧路词典」授权一个

token

六级考研雅思

英/ˈtəʊkən/美/ˈtoʊkən/

全球

有2个发音

女美国

赞踩

男英国

赞踩

生词本:

添加笔记:

有奖纠错

| 划词

英汉-汉英词典

词组搭配

英语例句库

英语百科

近义、反义、联想词

英英词典

英语维基词典

全文检索

英汉-汉英词典

n. 代币象征时 态: tokened, tokening, tokens

近义、反义、联想词

近义词n. symbol, disk, disc, object, physical objectadj. minimal, minimum反义词n. maximal, maximum联想词acknowledgement答谢的表;acknowledgment承认;gesture姿态;authentication证明,鉴定;increment增长;identifier标识符;coin硬币;

词组 | 习惯用语

by the same token 地;出于原因as a token of 作为…的标志token ring 令牌环(一个环状的区域网路)in token of 表;作为…的标志by this token 由此看来token bucket [计]令牌桶;令牌漏桶token passing 令牌传递,令牌传送;通行令牌token bus 令牌总线

英语例句库

a token of troth.忠诚的象征。a token payment.象征性款a token gesture of reconciliation; token resistance.象征性和解姿态;象征性的抵抗a token attack on the Russian left.向俄军左翼发起的象征性进攻。a token woman on the board of directors.董事会上作为一个摆设的女董事The scepter is a token of regal status.节杖是王权的象征a ring given in token of love.一只象征爱情而给的戒指mistletoe was cut from an oak tree as a token of good fortune.从橡树上砍下槲寄生小枝以气。We offer this small token by way of appreciation.我们赠送这小小的礼物以表谢意。sent flowers as a token of her affection.送花以表她的爱意。We shook hands as a token of our friendship.我们握手,以表我们的友谊。By the same token,the everlasting interdependence is actually an everlasting love. 正如,永远的依存,也是永远的爱。I wanted to offer you a small token of my appreciation.我想给你个小东西以表我的感激之情。she took offence at being called the token woman on the force.人们称她是这支队伍里为装点门面而当选的女人,这让她感到生气。there was little evidence to substantiate the gossip and, by the same token, there was little to disprove it.没有什么证据来证实这则小道消息,也没有证据来反驳它。The penalty for failure will be high. But, by the same token, the rewards for success will be great. 失败的代价很大,,成功的回报也很高。cases like these often bring just token fines from magistrates.此类案件常常只是被地方法官处以象征性罚款。adults exchanging drinks around a pub bar in token of temporary trust and friendship.在酒吧里为表一时的相互信任和友谊而干杯的成年人。And ye shall circumcise the flesh of your foreskin; and it shall be a token of the covenant betwixt me and you.你们都要受割礼.〔受割礼原文作割阳皮十四二十三二十四二十五节〕这是我与你们立约的证据。声明:以上例句、词性分类均由互联网资源自动生成,部分未经过人工审核,其表达内容亦不代表本软件的观点;若发现问题,欢迎向我们指正。显示所有包含 token 的英语例句

历史记录

生词本

关注微博

反馈问题

关注我们的微信

下载手机客户端

赞助商链接

欧路翻译 浏览器插件全新发布内置欧路词典&多种翻译引擎,不仅支持网页和PDF文档翻译,还能高亮重点单词,全方位提升你的英文阅读体验。www.eudic.net

划词翻译

详细解释

您还没有登录,点这里登录或注册

生词本和学习记录“云”同步,支持网站、电脑版和手机客户端。

false

广告联系|

意见反馈|

合作伙伴|

关于欧路在线词典|手机版网站 | 英语热词榜| HTTPS| AI英文写作| Rédiger多语言写作

欧路软件 ©2024 词库版本20240228 沪ICP备08016489号 沪公网安备 31011602001726号

欧路词典|英汉-汉英词典 token是什么意思_token的中文解释和发音_token的翻译_token怎么读

欧路词典|英汉-汉英词典 token是什么意思_token的中文解释和发音_token的翻译_token怎么读

欧路词典

法语助手

德语助手

西语助手

欧路英语

每日一句:Without mathematics, there's nothing you can do. Everything around you is mathematics. Everything around you is numbers.

首页

App下载

欧路翻译

每日英语听力

AI写作

英语课堂

背单词

支持英汉-汉英词典查询 英语例句搜索

词典

例句

变位

词条纠错X

token

您还没有登录,点这里登录或注册

登录后,您可以提交反馈建议,同时可以和手机、电脑同步生词本。

在英汉-汉英词典中发现10个解释错误,并通过审核,将获赠「欧路词典」授权一个

token

六级考研雅思

英/ˈtəʊkən/美/ˈtoʊkən/

全球

有2个发音

女美国

赞踩

男英国

赞踩

生词本:

添加笔记:

有奖纠错

| 划词

英汉-汉英词典

词组搭配

英语例句库

英语百科

近义、反义、联想词

英英词典

英语维基词典

全文检索

英汉-汉英词典

n. 代币象征时 态: tokened, tokening, tokens

近义、反义、联想词

近义词n. symbol, disk, disc, object, physical objectadj. minimal, minimum反义词n. maximal, maximum联想词acknowledgement答的示;acknowledgment承认;gesture姿态;authentication证,;increment增长;identifier标识符;coin硬币;

词组 | 习惯用语

by the same token 同样地;出于同样原因as a token of 作为…的标志token ring 令牌环(一个环状的区域网路)in token of 示;作为…的标志by this token 由此看来token bucket [计]令牌桶;令牌漏桶token passing 令牌传递,令牌传送;通行令牌token bus 令牌总线

英语例句库

a token of troth.忠诚的象征。a token payment.象征性款a token gesture of reconciliation; token resistance.象征性和解姿态;象征性的抵抗a token attack on the Russian left.向俄军左翼发起的象征性进攻。a token woman on the board of directors.董事会上作为一个摆设的女董事The scepter is a token of regal status.节杖是王权的象征a ring given in token of love.一只象征爱情而给的戒指mistletoe was cut from an oak tree as a token of good fortune.从橡树上砍下槲寄生小枝以示好运气。We offer this small token by way of appreciation.我们赠送这小小的礼物以。sent flowers as a token of her affection.送花以示她的爱。We shook hands as a token of our friendship.我们握手,以示我们的友谊。By the same token,the everlasting interdependence is actually an everlasting love. 正如,永远的依存,也是永远的爱。I wanted to offer you a small token of my appreciation.我想给你个小东西以示我的感激之情。she took offence at being called the token woman on the force.人们称她是这支队伍里为装点门面而当选的女人,这让她感到生气。there was little evidence to substantiate the gossip and, by the same token, there was little to disprove it.没有什么证据来证实这则小道消息,同样也没有证据来反驳它。The penalty for failure will be high. But, by the same token, the rewards for success will be great. 失败的代价很大,同样,成功的回报也很高。cases like these often bring just token fines from magistrates.此类案件常常只是被地方法官处以象征性罚款。adults exchanging drinks around a pub bar in token of temporary trust and friendship.在酒吧里为示一时的相互信任和友谊而干杯的成年人。And ye shall circumcise the flesh of your foreskin; and it shall be a token of the covenant betwixt me and you.你们都要受割礼.〔受割礼原文作割阳皮十四二十三二十四二十五节同〕这是我与你们立约的证据。声:以上例句、词性分类均由互联网资源自动生成,部分未经过人工审核,其达内容亦不代本软件的观点;若发现问题,欢迎向我们指正。显示所有包含 token 的英语例句

历史记录

生词本

关注微博

反馈问题

关注我们的微信

下载手机客户端

赞助商链接

欧路翻译 浏览器插件全新发布内置欧路词典&多种翻译引擎,不仅支持网页和PDF文档翻译,还能高亮重点单词,全方位提升你的英文阅读体验。www.eudic.net

划词翻译

详细解释

您还没有登录,点这里登录或注册

生词本和学习记录“云”同步,支持网站、电脑版和手机客户端。

false

广告联系|

意见反馈|

合作伙伴|

关于欧路在线词典|手机版网站 | 英语热词榜| HTTPS| AI英文写作| Rédiger多语言写作

欧路软件 ©2024 词库版本20240228 沪ICP备08016489号 沪公网安备 31011602001726号