bert使用指南( 二 )


得到预训练的数据,并且再运行.py文件
python run_pretraining.py

bert使用指南

文章插图
最后会输出loss等相关信息
Instructions for updating:Use `tf.data.experimental.map_and_batch(...)`.INFO:tensorflow:Calling model_fn.INFO:tensorflow:Running train on CPUINFO:tensorflow:*** Features ***INFO:tensorflow:name = input_ids, shape = (32, 128)INFO:tensorflow:name = input_mask, shape = (32, 128)INFO:tensorflow:name = masked_lm_ids, shape = (32, 20)INFO:tensorflow:name = masked_lm_positions, shape = (32, 20)INFO:tensorflow:name = masked_lm_weights, shape = (32, 20)INFO:tensorflow:name = next_sentence_labels, shape = (32, 1)INFO:tensorflow:name = segment_ids, shape = (32, 128)INFO:tensorflow:Done calling model_fn.INFO:tensorflow:Create CheckpointSaverHook.INFO:tensorflow:Graph was finalized.INFO:tensorflow:Restoring parameters from /home/tongji/Bert_word2vec/pretraining_output/model.ckpt-2000INFO:tensorflow:Running local_init_op.INFO:tensorflow:Done running local_init_op
2.4 运行结果
一共进行了20000轮训练,对于下一个句子的准确率可以达到0.99
由于本次没有用GPU运行,运行总时间接近秒也就是4天多 。
3 GPU环境下运行 3.1运行环境
.x下,使用-gpu, 需要注意的是 版本号要和自己的cuda对应!!!
不然就会出现找不到版本号的错误
查看自己的cuda版本号:
cat /usr/local/cuda/version.txt
查看g++版本:
g++ --version
bert使用指南

文章插图
查看信息
pip list | grep tensorflow
安装对应gpu 时可以:
服务器上的cuda为10.0所以装13.1的版本
pip --default-timeout=1000 install -U tensorflow-gpu==1.13.1-i https://pypi.tuna.tsinghua.edu.cn/simple/
3.2 运行
python create_pretraining_data.py
输出结果如下:
INFO:tensorflow:*** start time ***INFO:tensorflow:1603274172.5969179INFO:tensorflow:*** Reading from input files ***INFO:tensorflow:/mnt/home/tongji/car-corpus-lmodels/Models/Bert_word2vec/tmp/jieba_cut_output.txt.530INFO:tensorflow:*** read time ***INFO:tensorflow:39.821722984313965INFO:tensorflow:*** Writing to output files ***INFO:tensorflow:/mnt/home/tongji/car-corpus-lmodels/Models/Bert_word2vec/tmp/530.tfrecordINFO:tensorflow:*** Example ***INFO:tensorflow:tokens: [CLS] [MASK] 用 的 是 [MASK] 功 率 版 2 . 0 [MASK] ##si 发 动 机 ##ner 最 [MASK] [MASK] 出 功 [MASK] 165 千 瓦 痼 224 马 力 ) , 峰 值 [MASK] 矩 350 [MASK] [MASK] 米。因 为 搭 [MASK] 了 奥 迪 b c ##y ##cle 循 [MASK] 技 术 , 提 升 了 燃 油 经 [SEP] 胶 气 动 装 置 , 无 论 是 设 计 手 法 和 作 用 效 果 , 在 如 [MASK] 看 来 都 不 十 分 到 位 [MASK] 如 今 air li ##ft 的 气 动 避 震 产 品 广 泛 [MASK] 于 [MASK] 种 车 [MASK] 中。大 [MASK] 速 腾 , 除 了 先 天 [SEP]INFO:tensorflow:input_ids: 101 103 4500 4638 3221 103 1216 4372 4276 123 119 121 103 9182 1355 1220 3322 8957 3297 103 103 1139 1216 103 9316 1283 4482 4593 10629 7716 1213 8021 8024 2292 966 103 4762 8612 103 103 5101 511 1728 711 3022 103 749 1952 6832 144 145 8179 11619 2542 103 2825 3318 8024 2990 1285 749 4234 3779 5307 102 5540 3698 1220 6163 5390 8024 3187 6389 3221 6392 6369 2797 3791 1469 868 4500 3126 3362 8024 1762 1963 103 4692 3341 6963 679 1282 1146 1168 855 103 1963 791 8523 9341 9002 4638 3698 1220 6912 7448 772 1501 2408 3793 103 754 103 4905 6756 103 704 511 1920 103 6862 5596 8024 7370 749 1044 1921 102INFO:tensorflow:input_mask: 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1INFO:tensorflow:segment_ids: 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1INFO:tensorflow:masked_lm_positions: 1 5 12 17 19 20 23 27 35 38 39 45 54 86 95 110 112 115 119 0INFO:tensorflow:masked_lm_ids: 7023 7770 12719 8024 1920 6783 4372 8020 2814 4281 185 6770 4384 791 8024 4500 1392 1798 830 0INFO:tensorflow:masked_lm_weights: 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 0.0INFO:tensorflow:next_sentence_labels: 1INFO:tensorflow:*** write time ***INFO:tensorflow:2.3067338466644287INFO:tensorflow:*** all time ***INFO:tensorflow:42.128456830978394