《人民日报》标注语料库中一半嘚语料(1998年上半年)共1300万字已经通过《人民日报》新闻信息中心公开提供许可使用权其中一个月的语料(1998年1月)近200万字在互联网上公布,供自由丅载
语言研究所:北京口语语料查询系统(B J K Y)
这个项目致力于对抗微博的反爬虫机制,集合众人的力量把微博成千上万的微博评论语料爬取下来并制作成一个开源的高质量中文对话语料推动中文对话系统的研发。