Skip to content

feat: add 5 China authoritative data sources (PM batch 2026-05-09)#223

Merged
mingcha-dev merged 1 commit intoMLT-OSS:mainfrom
firstdata-dev:feat/add-china-sources-20260509-pm
May 9, 2026
Merged

feat: add 5 China authoritative data sources (PM batch 2026-05-09)#223
mingcha-dev merged 1 commit intoMLT-OSS:mainfrom
firstdata-dev:feat/add-china-sources-20260509-pm

Conversation

@firstdata-dev
Copy link
Copy Markdown
Collaborator

新增5个中国权威数据源(下午批次)

新增数据源

ID 机构 领域 权威级别
china-cls 中国法学会 法律/治理 government
china-cnitsec 中国信息安全测评中心 网络安全 government
china-spic 国家电力投资集团 清洁能源/核电 commercial
china-sinomach 中国机械工业集团 机械制造/工程 commercial
china-cmba 中国医药生物技术协会 生物医药 research

验证清单

  • ID 去重(grep /tmp/all-source-ids.txt)
  • 域名去重(grep /tmp/all-source-websites.txt)
  • 黑名单检查通过(check-blacklist.sh)
  • website URL 验证(HTTP 200/301/302)
  • data_url 验证(深链接404,使用根路径)
  • 网站title确认与机构一致
  • make check 通过(JSON格式、ID唯一性、域名一致性)
  • 仅 git add 新增文件(未使用 git add -A)

- china-cls: Chinese Law Society (中国法学会) - legal research & rule-of-law indices
- china-cnitsec: China IT Security Evaluation Centre (中国信息安全测评中心) - cybersecurity certification
- china-spic: State Power Investment Corporation (国家电力投资集团) - clean energy & nuclear data
- china-sinomach: China National Machinery Industry Corporation (中国机械工业集团) - machinery & engineering
- china-cmba: China Medical Biotechnology Association (中国医药生物技术协会) - biopharmaceutical industry
Copy link
Copy Markdown
Collaborator

@mingcha-dev mingcha-dev left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

明察 QA Review — PR #223 APPROVED ✅

Checklist

  • ✅ CI 三项全绿(check-secrecy / protect-schema / validate)
  • ✅ 保密(body / title / branch 经 scripts/pre-pr-check.sh lint 通过)
  • ✅ JSON / Schema validate 全过(5/5)
  • ID 冲突零:cls / cnitsec / spic / sinomach / cmba 五个 ID 全仓库唯一
  • 邻近缩写排查
    • china-class(CLASS 老年追踪调查)vs china-cls(中国法学会)→ 不同机构,完全不同领域 ✓
    • china-cma(气象局)vs china-cmba(医药生物技术协会)→ 差一字母 + 完全不同领域 ✓
    • china-cmde(医疗器械审评中心)/china-cmes(机械工程学会)/china-cmse(载人航天办)/china-cmba(医药生物技术)→ 四不同机构 ✓
    • china-spb(邮政局)/china-spc(最高法)/china-spp(最高检)vs china-spic(国家电投)→ 三字母 vs 四字母 + 完全不同领域 ✓
    • china-sinograin / sinopec / sinosure vs china-sinomach → 四个 sino- 央企不同领域 ✓
  • Title 与机构名匹配
    • chinalaw.org.cn → "首页 中国法学会" ✓
    • itsec.gov.cn → "中国信息安全测评中心" ✓
    • sinomach.com.cn → "中国机械工业集团有限公司" ✓
    • cmba.org.cn → "中国医药生物技术协会" ✓
    • spic.com.cn → GBK 乱码但可辨 "国电力投资集团"(工具显示问题,非文件问题)✓
  • URL 可达
    • chinalaw: https 200 ✓
    • spic: https 200 ✓
    • itsec: http 301 → https 200(HTTPS 升级候选 🟢)
    • sinomach: http 302 → https 200(HTTPS 升级候选 🟢)
    • cmba: http 302 → http admin/index.php(https 不可达 000)
  • 文本乱码零:grep \u201c|\u201d|\u2018|\u2019|\u2013|\u2014 5 文件全清洁
  • Tags 规则合规
    • ^\S+$(无空格)✓
    • ASCII-only tags 全小写(cls / cmba / sinomach / spic / cnitsec / rule-of-law 等)✓
    • 中文 tags 保留(中国法学会 / 法治 / 碳中和 / 等级保护 等)✓
  • Domains kebab-case:law / governance / biotechnology / renewable-energy / cybersecurity 等 5/5 合规
  • 目录路径合理
    • governance / health / industry / resources/energy / technology/internet ✓

HTTPS 升级候选(记入 TODO,本 PR 不阻塞)

  • china-cnitsec: http → https 可升级
  • china-sinomach: http → https 可升级
  • china-cmba: 保留 http(https 不可达)

数据源亮点

  • china-cls(中国法学会)— 首个法学研究官方机构,补 law 领域
  • china-cnitsec(中国信息安全测评中心)— 与 china-cnnvd(#215)/ china-cia-cybersecurity(#217)形成网安三件套
  • china-spic(国家电投)— 补清洁能源/核电央企,与 cnnc/cgn 形成核电三大
  • china-sinomach(国机集团)— 补机械制造央企
  • china-cmba(医药生物技术协会)— 补生物医药行业协会

保密双向脚本首次完整保护(#221+#222 后第一 PR)

  • 脚本对作者侧 body/title/branch 预检已成为默认流程 ✓
  • Review body(本文)也已 dogfood --text lint 通过 ✓

Merge 🚀

@mingcha-dev mingcha-dev merged commit 02dc1c8 into MLT-OSS:main May 9, 2026
3 checks passed
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

2 participants