|
| 1 | +"""rhwp.ir._plain_text 단위 테스트 — 컨테이너 평문화 헬퍼. |
| 2 | +
|
| 3 | +캡션·각주·미주의 inner blocks 평문화에 ``ListItemBlock`` / ``FormulaBlock`` / |
| 4 | +``FieldBlock`` 이 포함되는지 검증 (이전엔 ``ParagraphBlock`` 만 잡아 누락). |
| 5 | +""" |
| 6 | + |
| 7 | +from rhwp.ir._plain_text import block_inline_text, join_inline_blocks |
| 8 | +from rhwp.ir.nodes import ( |
| 9 | + Block, |
| 10 | + CaptionBlock, |
| 11 | + FieldBlock, |
| 12 | + FormulaBlock, |
| 13 | + ImageRef, |
| 14 | + ListItemBlock, |
| 15 | + ParagraphBlock, |
| 16 | + PictureBlock, |
| 17 | + Provenance, |
| 18 | + TableBlock, |
| 19 | + UnknownBlock, |
| 20 | +) |
| 21 | + |
| 22 | +_PROV = Provenance(section_idx=0, para_idx=0) |
| 23 | + |
| 24 | + |
| 25 | +# * block_inline_text — 인라인-스러운 블록만 평문 반환 |
| 26 | + |
| 27 | + |
| 28 | +def test_paragraph_with_text() -> None: |
| 29 | + assert block_inline_text(ParagraphBlock(text="hello", prov=_PROV)) == "hello" |
| 30 | + |
| 31 | + |
| 32 | +def test_paragraph_empty_returns_none() -> None: |
| 33 | + assert block_inline_text(ParagraphBlock(text="", prov=_PROV)) is None |
| 34 | + |
| 35 | + |
| 36 | +def test_list_item_includes_marker() -> None: |
| 37 | + block = ListItemBlock(text="첫 항목", marker="1.", enumerated=True, prov=_PROV) |
| 38 | + assert block_inline_text(block) == "1. 첫 항목" |
| 39 | + |
| 40 | + |
| 41 | +def test_list_item_empty_text_with_marker_returns_marker() -> None: |
| 42 | + # ^ marker 만 있고 본문 없으면 marker 그대로 (drop 하지 않음 — 정렬 정보 보존) |
| 43 | + block = ListItemBlock(text="", marker="•", enumerated=False, prov=_PROV) |
| 44 | + assert block_inline_text(block) == "•" |
| 45 | + |
| 46 | + |
| 47 | +def test_list_item_fully_empty_returns_none() -> None: |
| 48 | + block = ListItemBlock(text="", marker="", enumerated=False, prov=_PROV) |
| 49 | + assert block_inline_text(block) is None |
| 50 | + |
| 51 | + |
| 52 | +def test_formula_prefers_text_alt() -> None: |
| 53 | + block = FormulaBlock(script="1 over 2", text_alt="1 / 2", prov=_PROV) |
| 54 | + assert block_inline_text(block) == "1 / 2" |
| 55 | + |
| 56 | + |
| 57 | +def test_formula_falls_back_to_script() -> None: |
| 58 | + block = FormulaBlock(script="x^2", text_alt=None, prov=_PROV) |
| 59 | + assert block_inline_text(block) == "x^2" |
| 60 | + |
| 61 | + |
| 62 | +def test_formula_empty_returns_none() -> None: |
| 63 | + # ^ 정상적으로는 빈 script 가 출고되지 않지만 손상 입력 방어 |
| 64 | + block = FormulaBlock(script="", text_alt=None, prov=_PROV) |
| 65 | + assert block_inline_text(block) is None |
| 66 | + |
| 67 | + |
| 68 | +def test_field_with_cached_value() -> None: |
| 69 | + block = FieldBlock(field_kind="date", cached_value="2026-04-28", prov=_PROV) |
| 70 | + assert block_inline_text(block) == "2026-04-28" |
| 71 | + |
| 72 | + |
| 73 | +def test_field_without_cached_value_returns_none() -> None: |
| 74 | + block = FieldBlock(field_kind="hyperlink", cached_value=None, prov=_PROV) |
| 75 | + assert block_inline_text(block) is None |
| 76 | + |
| 77 | + |
| 78 | +def test_structural_blocks_return_none() -> None: |
| 79 | + # ^ Table / Picture 는 구조 블록 — 평문화에서 제외 (별도 색인 대상) |
| 80 | + assert block_inline_text(TableBlock(rows=1, cols=1, prov=_PROV)) is None |
| 81 | + assert ( |
| 82 | + block_inline_text( |
| 83 | + PictureBlock(image=ImageRef(uri="bin://1", mime_type="image/png"), prov=_PROV) |
| 84 | + ) |
| 85 | + is None |
| 86 | + ) |
| 87 | + |
| 88 | + |
| 89 | +def test_unknown_block_returns_none() -> None: |
| 90 | + assert block_inline_text(UnknownBlock(kind="future_kind", prov=_PROV)) is None |
| 91 | + |
| 92 | + |
| 93 | +# * join_inline_blocks — 캡션·각주·미주 본문 평문화 |
| 94 | + |
| 95 | + |
| 96 | +def test_join_empty_list() -> None: |
| 97 | + assert join_inline_blocks([]) == "" |
| 98 | + |
| 99 | + |
| 100 | +def test_join_skips_blocks_with_no_inline_text() -> None: |
| 101 | + # ^ 핵심 회귀: TableBlock / PictureBlock 등 구조 블록이 섞여도 인라인만 추출 |
| 102 | + blocks: list[Block] = [ |
| 103 | + ParagraphBlock(text="본문", prov=_PROV), |
| 104 | + TableBlock(rows=1, cols=1, prov=_PROV), |
| 105 | + ParagraphBlock(text="", prov=_PROV), # ^ 빈 단락 skip |
| 106 | + ] |
| 107 | + assert join_inline_blocks(blocks) == "본문" |
| 108 | + |
| 109 | + |
| 110 | +def test_join_includes_list_item_in_caption_or_footnote() -> None: |
| 111 | + """ListItemBlock 누락 회귀 테스트 — 각주/미주/캡션 안의 list 가 평문에 포함된다. |
| 112 | +
|
| 113 | + 이전 구현은 ``isinstance(b, ParagraphBlock)`` 만 체크하여 ListItemBlock 으로 |
| 114 | + 변환된 paragraph (`ParaShape.head_type` 비-None) 가 통째로 누락됐다. |
| 115 | + """ |
| 116 | + blocks: list[Block] = [ |
| 117 | + ParagraphBlock(text="머리말", prov=_PROV), |
| 118 | + ListItemBlock(text="첫째", marker="1.", enumerated=True, prov=_PROV), |
| 119 | + ListItemBlock(text="둘째", marker="2.", enumerated=True, prov=_PROV), |
| 120 | + ] |
| 121 | + assert join_inline_blocks(blocks) == "머리말\n1. 첫째\n2. 둘째" |
| 122 | + |
| 123 | + |
| 124 | +def test_join_mixes_paragraph_listitem_formula_field() -> None: |
| 125 | + blocks: list[Block] = [ |
| 126 | + ParagraphBlock(text="식:", prov=_PROV), |
| 127 | + FormulaBlock(script="x+y", text_alt=None, prov=_PROV), |
| 128 | + FieldBlock(field_kind="date", cached_value="2026-04-28", prov=_PROV), |
| 129 | + ListItemBlock(text="결론", marker="•", enumerated=False, prov=_PROV), |
| 130 | + ] |
| 131 | + assert join_inline_blocks(blocks) == "식:\nx+y\n2026-04-28\n• 결론" |
| 132 | + |
| 133 | + |
| 134 | +def test_join_caption_blocks_works_via_attribute() -> None: |
| 135 | + """CaptionBlock 사용처 사용 패턴 — caption.blocks 를 그대로 넘긴다.""" |
| 136 | + caption = CaptionBlock( |
| 137 | + blocks=[ |
| 138 | + ParagraphBlock(text="<그림 1>", prov=_PROV), |
| 139 | + FormulaBlock(script="E=mc^2", text_alt=None, prov=_PROV), |
| 140 | + ], |
| 141 | + direction="bottom", |
| 142 | + prov=_PROV, |
| 143 | + ) |
| 144 | + assert join_inline_blocks(caption.blocks) == "<그림 1>\nE=mc^2" |
0 commit comments