当前位置:首页-文章-开源技术分享-正文

4.4 千万 TOKEN 心理咨询语料库发布,专为大模型,让人工智能技术更好的服务人 | Chatopera

2023 年,全网火爆聊天机器人,不同行业企业开始探索应用大模型于垂直领域,当算法和算力已经被证明是行之有效的,那么重头戏就是数据了,Chatopera 近日发布了心理咨询行业的又一大规模语料 - 包含 4.4 千万 TOKEN 的多轮对话语料 - 心理咨询问答原始语料库(Emotional First Aid Raw Dataset),将进一步催化机器学习 Transformer 技术在心理健康领域的应用,该工具包目前已经在 GitHub,Gitee 上可进一步的了解使用。

file

数据示例

{
  "title": "女 最近感觉好困好累,感觉好压抑,没有人理解自己,好多好多问题弄得我自己身心疲惫,活着好累啊。人为什么要活着啊,最好躺在那里永远不要起来",
  "date": "2017-12-31 21:20:25",
  "owner": "匿名",
  "id": "5e6b9b94d037ed455ee9c9d7",
  "chats": [
    {
      "sender": "audience",
      "value": "您好!",
      "time": "21:20:44",
      "name": "Audience5"
    },
    {
      "sender": "audience",
      "value": "您今年多大了?这种好累的感觉有多久?",
      "time": "21:22:13",
      "name": "Audience3"
    },
    {
      "sender": "audience",
      "value": "你好,理解你的心情",
      "time": "21:27:07",
      "name": "Audience1"
    },
    {
      "sender": "audience",
      "value": "您好!发生了什么有影响的事件了吗?",
      "time": "21:28:51",
      "name": "Audience10"
    },
    {
      "time": "07:26:01",
      "sender": "owner",
      "value": "很多事情,老公的不理解,婆婆的无理取闹,大姑姐也闹,做的我身心疲惫"
    },
    {
      "time": "07:26:45",
      "sender": "owner",
      "value": "如果没有孩子这日子没法过了"
    },
    {
      "sender": "audience",
      "value": "请升级你的软件否则无法收到信息",
      "time": "08:13:41",
      "name": "Audience9"
    }
  ]
}

语料特点

  • 规模大,话题数:172,316 (每个话题都带有评论),消息总数:2,381,273 (话题+评论的消息总数),消息文本规模:44,514,786 (全部话题和评论的文本字符的总计)
  • 稀缺性,数据始于 2017 年的可公开访问的网站,目前一些数据已经不能公开访问
  • 连续上下文的多轮对话,平均每个话题的评论数: 12.8 个

目前,该语料下载是通过 Chatopera 证书商店购买证书后下载使用的,获取更多详细信息,请访问官网地址,见下。

官网地址

本文原创,作者:Hai,其版权均为春松客服所有。
如需转载,请注明出处:https://www.cskefu.com/2024/01/14/efaqa-corpus-raw/

相关文章