点击返回网站首页

 

词向量SDK【中文】

词向量/词嵌入(Word embedding)是自然语言处理(NLP)中语言模型与表征学习技术的统称。 概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中, 每个单词或词组被映射为实数域上的向量。

SDK功能:

SDK包含9个模型数据:

WordEncoderExample1 (w2v_wiki_dim300 403M)

基于W2V训练得到的中文Embedding模型,词向量的纬度为300,词表大小为352219, 训练采用的语料是——Wikipedia_zh 中文维基百科。

WordEncoderExample2 (w2v_weibo_dim300 - 大小约 223M)

基于W2V训练得到的中文Embedding模型,词向量的纬度为300,词表大小为195204, 训练采用的语料是——Weibo微博。

WordEncoderExample3 (w2v_financial_dim300 - 大小约 535M)

基于W2V训练得到的中文Embedding模型,词向量的纬度为300,词表大小为467324, 训练采用的语料是——Financial News 金融新闻。

WordEncoderExample4 (w2v_sikuquanshu_dim300 - 大小约 22M)

基于W2V训练得到的中文Embedding模型,词向量的纬度为300,词表大小为19529, 训练采用的语料是——Complete Library in Four Sections 四库全书。

WordEncoderExample5 (w2v_literature_dim300 - 大小约 215M)

基于W2V训练得到的中文Embedding模型,词向量的纬度为300,词表大小为187962, 训练采用的语料是——Literature 文学作品。

WordEncoderExample6 (w2v_people_daily_dim300 - 大小约 407M)

基于W2V训练得到的中文Embedding模型,词向量的纬度为300,词表大小为356055, 训练采用的语料是——People's Daily News 人民日报。

WordEncoderExample7 (w2v_sogou_dim300 - 大小约 418M)

基于W2V训练得到的中文Embedding模型,词向量的纬度为300,词表大小为365112, 训练采用的语料是——Sogou News 搜狗新闻。

WordEncoderExample8 (w2v_baidu_encyclopedia_dim300 - 大小约 728M)

基于W2V训练得到的中文Embedding模型,词向量的纬度为300,词表大小为635976, 训练采用的语料是——Baidu Encyclopedia 百度百科。

WordEncoderExample9 (w2v_zhihu_dim300 - 大小约 297M)

基于W2V训练得到的中文Embedding模型,词向量的纬度为300,词表大小为259871, 训练采用的语料是——Zhihu_QA 知乎问答。

SDK代码下载地址:

Github链接

Gitee链接

点击返回网站首页